<Null, NaN>
- Missing Data, Null 이다. 넘파이의 NaN으로 표시된다.
- 머신러닝알고리즘은 NaN을 처리하지 않으므로 다른 값으로 대체해야 한다.
- NaN은 평균, 총합 등의 함수 연산 시 제외된다.
- NaN 여부를 확인하는 건 isna( )이고, NaN값을 다른 값으로 대체 하는건 fillna( )이다.
< isna( ) >
- 데이터가 NaN인지 아닌지 알려준다.
-True 나 False로 알려줌 ▼ 요렇게
▶ 그래서 몇개 있는지 sum() 함수를 추가해 구할 수 있다.
▷ sum( )호출시 True는 1, False는 0으로 변환되기 때문에 개수를 구할 수 있는 것.
< fillna() >
- 결손데이터를 다른 값으로 대체할 수 있다.
▶ 여기서 포인트는, fillna( )를 이용해 반환 값을 다시 받거나 inplace = True 해야 원본이 바뀐다.
▷여기서는 123행, titanic_df['Cabin'] = 이라고 반환 값을 다시 받았다.
▶ Age도 Embarked 컬럼도 NaN을 모두 다른 값들로 대체해 결손 데이터를 처리했다.
'데이터분석 > Pandas&Numpy' 카테고리의 다른 글
python opencv 설치 / 이용 및 데이터 전처리 (0) | 2023.07.12 |
---|---|
pandas apply와 lambda 만남으로 데이터 가공 (0) | 2023.07.07 |
pandas aggregation 과 groupby (0) | 2023.07.06 |
pandas DataFrame과 Series의 정렬 (0) | 2023.07.06 |
pandas iloc, loc, boolean Indexing/Slicing (0) | 2023.07.06 |