데이터분석/Pandas&Numpy
pandas 중복 데이터 처리하기 합쳐서 처리하기
ADELA_J
2023. 6. 29. 22:32
데이터를 다루다보면 열의 데이터가 반복될때가 있음.
이런 반복되는 데이터는 따로 관리하는 것이 좋은데,
왜 그런걸까? 따로 관리하려면 어떻게 해야할까?
1. 빌보드 차트 데이터를 불러와서 year, artist, track, time, date.entered(반복될수도있는 열) 을 pivot 처리함
2. 그래서 노래 제목을 살펴보면,,,, 중복 데이터가 꽤나 많음. > 그치 노래차트니까
예를 들어 가수는 고유한 값이기 때문에 따로 관리하는 것이 데이터 일관성을 유지하는데 도움됨
3. 그래서 중복 데이터를 가지고 있는 열을 묶어서 새로운 데이터프레임에 저장하고
4. drop_duplicates 메서드로 중복 데이터를 제거 ( 와 어마어마하게 제거가 되었구만)
5. 그리고 id 라는 새로운 열도 추가해봄.
> id 가 있으면 데이터를 쉽게 조회하거나 구분할 수 있으니까,
6. 그리고 merge 메서드를 사용해서 노래 정보와 주간 순위 데이터를 합쳐봄
그렇게 중복 데이터는 합쳐서 깔끔하게 처리할 수 있다,,