본문 바로가기
데이터분석

데이터 전처리 공공데이터 분석 - 햄버거 상가 분석 정보

by ADELA_J 2023. 8. 22.

여기 파일을 사용할 예정

https://www.data.go.kr/data/15083033/fileData.do#tab-layer-file

 

<matplotib 한글 버전 써보기>

<사용된 라이브러리>

- koreanize_matplotlib as plt 로 하나만 써도됨. 기존 맷플로립에 한국어버전을 올린거라

 

<사용할 데이터 불러오기 - 구글 코랩 사용하기>

마운트 작업을 해야 구글 드라이브의 내가 올린 파일들이 보인다, 연결시킨다는 의미. 붙인다는 의

(구글드라이브 마운트, 끊는건 언마운트)

그리고 파일 불러오기

unzip 을 이용하여 코랩에서 직접 압축파일을 풀수도 있다

(왜 한글이 깨져서 나올까..ㅎ) 깨져서 나오는거 바꾸는 방법을 알아보쟈 (유니코드쓰면될것같은데..?)

▼ 불러오니 이렇게 지역별로 묶어져 있는 것을 볼 수 있음.

리스트 형태로 나와서 만약 3번째에 있는 서울의 내용을 불러오고 싶다면 인덱스번호로 원하는 파일을 불러오면 됨.

▼ 전체 데이터를 불러오고 concat을 이용해 합쳐서 하나의 데이터프레임으로 만든 다음 전체 모양을 알아본다.  

▼ 데이터를 확인하기 위해 head를 사용해 불러오면 요렇게 나온다

▶ 컬럼이름은 요렇게 있음 (엄청 많아서 필요한 거 몇개만 추출해서 사용할 예정)

 

<EDA>

▶ info()를 사용해 각 열의 타입이 어떻게 되어있는지 알수있음 (컬럼이 39개나...!)

 

<데이터 전처리 및 다시 EDA>

▶ 필요한 컬럼만 뽑아서 따로 카피함. 그리고 그에 대한 정보 탐색함

▶ 상호명이 없는 데이터를 제거함. 그랬더니 1개 없어짐. 줄어들었음

▼ 햄버거의 상권을 파악하기 위해 유명 브랜드 4개를 찾아봄

▶ 50번, 상호명이 하나로 통일이 안되었을수도 있으니까 리스트 중에 하나라고 해당되면 불러오는것

그리고 유일한 값으로만 있는 것을 50행까지만 불러와봄

▶ 롯데리아만 불러와봄

▶ '상호명_대문자'에 '롯데리아라는 것이 contains 된다면 '브랜드'를 새로만들어서 '롯데리아'라는 값을 채워넣자

▶ 그래서 최종적으로 브랜드를 잘 채워넣음. (오타가 나거나 통일이 안되는 것까지 잡아오기) 

▷ 그래서 isna를 활용해 결측치가 있는지 확인해보니 없다! 다 잘 처리된 것을 확인할 수 있다.

------- 여기까지가 기본 전처리 @>-------

 

<시각화>

▶ 브랜드별 빈도를 bar 차트를 통해 확인해볼 수 있다. rot=0을 지우면 x값이 세로로 

▶각 브랜드 별로 시도에 나눠서 몇개씩 있는지 확인해보고

▶ 버거지수를 구해보기 그래서 새로운 행으로 추가함 

▶ 시도별 위도, 경도 평균값을 구해봄

▶ 위에 구했던 값들을 join을 사용해 모두 합치고

▶ 시도명, 시군구명, 브랜드 순서대로 groupby한다음에 숫자를 세고 결측치는 0으로 채우고 astype를 이용해 int로 자료형을 바꿔줌

▶ 시군구별로 버거지수를 구해서 새로운 열로 추가해봄

inf 가 뭐지 

 

▶ 시도명, 브랜드 별로 빈도수를 확인하고 히트맵으로 시각화해서 확인해봄

 

▶ 서울의 버거 브랜드만 확인해서 히트맵으로 시각화해서 확인해봄

▶ 브랜드별 합계를 모아서 corr() 를 사용해 상관관계를 그래프로 그려보고

▶ 이왕 그린김에 서울에 있는 브랜드도 히트맵을 써서 상관계수 시각화해봄