데이터 클렌징 NaN 처리/mapping / cut / 연습문제

- 리스트와이즈 삭제 (listwise deletion) : 데이터가 누락된 행(NaN을 가진 행)을 통째로 지우는 것. NaN이 있는 행은 모두 삭제된다. (225행)

- 페어와이즈 삭제(pairwise deletion) : 사용가능한 데이터만 활용하는 법. 결손이 적은 열만 남기는 것. ( 226행)

: 원하는 열의 인덱스값을 인자로 전달해주고 dropna() 를 한다면 전달한 인자값의 인덱스 열은 살고 나머지는 다 지워지지지만 남아있는 열의 중 NaN이 있는 행값은 삭제된다.

<매핑 mapping>

- 공통의 키 역할을 하는 데이터의 값을 가져오는 처리.

- 정한 컬럼을 기반으로하여 대응하는 컬럼을 새로 추가함. = > 이것이 매핑 처리

- 딕셔너리의 key와 지정한 열의 값이 같으면 새로운 딕셔너리의 value가 열로 추가된다.

- 엑셀의 vlookup 과 같은 처리임

< 구간분할 >

pandas cut() 함수로 처리

() 는 값을 포함하지 않고 []는 값을 포함한다.

- 두번째 인수로 분할수를 전달해주면 비슷한 크기의 구간을 만들 수 있다.

<p.443 연습문제>

* _appned 도 그렇고 .mean도 그렇고 일부 함수들은 하고나면 새로 변수에 선언해줘야함!

> d297 / 304~306 같이..!

*286행 : 원래 책에는 head()로 나와있었는데 그러니까 304~6에서 append한게 맨 밑으로 가서 보이지않아서 차라리 10행까지 데이터프레임을 하나 따로 떼서 df_ten으로 만든다음에 append하는게 보이도록 진행했다.

데이터 전처리 공공데이터 분석 - 햄버거 상가 분석 정보 (1)	2023.08.22
웹크롤링 - 네이버뉴스제목 / 홈페이지 공지사항 제목 가져오기 (0)	2023.08.21
넘파이 ndarray, 리스트, 딕셔너리 ↔ DataFrame (0)	2023.07.04
데이터 정리 - 정규식 패턴 실습하기 (0)	2023.07.04
정규식표현 문법, 특수 문자, 메서드 정리 (0)	2023.07.04

공부하고있슴다