본문 바로가기
데이터분석/Pandas&Numpy

pandas 중복 데이터 처리하기 합쳐서 처리하기

by ADELA_J 2023. 6. 29.

데이터를 다루다보면 열의 데이터가 반복될때가 있음. 

이런 반복되는 데이터는 따로 관리하는 것이 좋은데,

왜 그런걸까? 따로 관리하려면 어떻게 해야할까?

 

1. 빌보드 차트 데이터를 불러와서  year, artist, track, time, date.entered(반복될수도있는 열) 을 pivot 처리함

2. 그래서 노래 제목을 살펴보면,,,, 중복 데이터가 꽤나 많음. > 그치 노래차트니까

예를 들어 가수는 고유한 값이기 때문에 따로 관리하는 것이 데이터 일관성을 유지하는데 도움됨

3. 그래서 중복 데이터를 가지고 있는 열을 묶어서 새로운 데이터프레임에 저장하고

4. drop_duplicates 메서드로 중복 데이터를 제거 ( 와 어마어마하게 제거가 되었구만)

5. 그리고 id 라는 새로운 열도 추가해봄.

> id 가 있으면 데이터를 쉽게 조회하거나 구분할 수 있으니까,

6. 그리고 merge 메서드를 사용해서 노래 정보와 주간 순위 데이터를 합쳐봄

 

그렇게 중복 데이터는 합쳐서 깔끔하게 처리할 수 있다,,