본문 바로가기
데이터분석

데이터 클렌징 NaN 처리/mapping / cut / 연습문제

by ADELA_J 2023. 7. 11.

<NAN 처리하는 법>

- 리스트와이즈 삭제 (listwise deletion) : 데이터가 누락된 행(NaN을 가진 행)을 통째로 지우는 것. NaN이 있는 행은 모두 삭제된다.  (225행)

- 페어와이즈 삭제(pairwise deletion) : 사용가능한 데이터만 활용하는 법. 결손이 적은 열만 남기는 것.  ( 226행)

 : 원하는 열의 인덱스값을 인자로 전달해주고 dropna() 를 한다면 전달한 인자값의 인덱스 열은 살고 나머지는 다 지워지지지만 남아있는 열의 중 NaN이 있는 행값은 삭제된다.

 

 

 

<매핑 mapping>

 

- 공통의 키 역할을 하는 데이터의 값을 가져오는 처리.

- 정한 컬럼을 기반으로하여 대응하는 컬럼을 새로 추가함. = > 이것이 매핑 처리

- 딕셔너리의 key와 지정한 열의 값이 같으면 새로운 딕셔너리의 value가 열로 추가된다.

- 엑셀의 vlookup 과 같은 처리임

 

< 구간분할 >

 pandas cut() 함수로 처리

() 는 값을 포함하지 않고 []는 값을 포함한다.

 

 

- 두번째 인수로 분할수를 전달해주면 비슷한 크기의 구간을 만들 수 있다.

 

 

 

<p.443 연습문제>

* _appned 도 그렇고 .mean도 그렇고 일부 함수들은 하고나면 새로 변수에 선언해줘야함!

 > d297 / 304~306  같이..!

 *286행 : 원래 책에는 head()로 나와있었는데 그러니까 304~6에서 append한게 맨 밑으로 가서 보이지않아서 차라리 10행까지 데이터프레임을 하나 따로 떼서 df_ten으로 만든다음에 append하는게 보이도록 진행했다.