여기 파일을 사용할 예정
https://www.data.go.kr/data/15083033/fileData.do#tab-layer-file
<matplotib 한글 버전 써보기>

<사용된 라이브러리>

- koreanize_matplotlib as plt 로 하나만 써도됨. 기존 맷플로립에 한국어버전을 올린거라
<사용할 데이터 불러오기 - 구글 코랩 사용하기>
마운트 작업을 해야 구글 드라이브의 내가 올린 파일들이 보인다, 연결시킨다는 의미. 붙인다는 의
(구글드라이브 마운트, 끊는건 언마운트)



그리고 파일 불러오기

unzip 을 이용하여 코랩에서 직접 압축파일을 풀수도 있다
(왜 한글이 깨져서 나올까..ㅎ) 깨져서 나오는거 바꾸는 방법을 알아보쟈 (유니코드쓰면될것같은데..?)

▼ 불러오니 이렇게 지역별로 묶어져 있는 것을 볼 수 있음.
리스트 형태로 나와서 만약 3번째에 있는 서울의 내용을 불러오고 싶다면 인덱스번호로 원하는 파일을 불러오면 됨.


▼ 전체 데이터를 불러오고 concat을 이용해 합쳐서 하나의 데이터프레임으로 만든 다음 전체 모양을 알아본다.

▼ 데이터를 확인하기 위해 head를 사용해 불러오면 요렇게 나온다


▶ 컬럼이름은 요렇게 있음 (엄청 많아서 필요한 거 몇개만 추출해서 사용할 예정)
<EDA>

▶ info()를 사용해 각 열의 타입이 어떻게 되어있는지 알수있음 (컬럼이 39개나...!)
<데이터 전처리 및 다시 EDA>

▶ 필요한 컬럼만 뽑아서 따로 카피함. 그리고 그에 대한 정보 탐색함

▶ 상호명이 없는 데이터를 제거함. 그랬더니 1개 없어짐. 줄어들었음
▼ 햄버거의 상권을 파악하기 위해 유명 브랜드 4개를 찾아봄

▶ 50번, 상호명이 하나로 통일이 안되었을수도 있으니까 리스트 중에 하나라고 해당되면 불러오는것
그리고 유일한 값으로만 있는 것을 50행까지만 불러와봄

▶ 롯데리아만 불러와봄

▶ '상호명_대문자'에 '롯데리아라는 것이 contains 된다면 '브랜드'를 새로만들어서 '롯데리아'라는 값을 채워넣자

▶ 그래서 최종적으로 브랜드를 잘 채워넣음. (오타가 나거나 통일이 안되는 것까지 잡아오기)

▷ 그래서 isna를 활용해 결측치가 있는지 확인해보니 없다! 다 잘 처리된 것을 확인할 수 있다.
------- 여기까지가 기본 전처리 @>-------
<시각화>

▶ 브랜드별 빈도를 bar 차트를 통해 확인해볼 수 있다. rot=0을 지우면 x값이 세로로

▶각 브랜드 별로 시도에 나눠서 몇개씩 있는지 확인해보고

▶ 버거지수를 구해보기 그래서 새로운 행으로 추가함

▶ 시도별 위도, 경도 평균값을 구해봄

▶ 위에 구했던 값들을 join을 사용해 모두 합치고

▶ 시도명, 시군구명, 브랜드 순서대로 groupby한다음에 숫자를 세고 결측치는 0으로 채우고 astype를 이용해 int로 자료형을 바꿔줌

▶ 시군구별로 버거지수를 구해서 새로운 열로 추가해봄
inf 가 뭐지


▶ 시도명, 브랜드 별로 빈도수를 확인하고 히트맵으로 시각화해서 확인해봄


▶ 서울의 버거 브랜드만 확인해서 히트맵으로 시각화해서 확인해봄


▶ 브랜드별 합계를 모아서 corr() 를 사용해 상관관계를 그래프로 그려보고

▶ 이왕 그린김에 서울에 있는 브랜드도 히트맵을 써서 상관계수 시각화해봄
'데이터분석' 카테고리의 다른 글
| 웹크롤링 - 네이버뉴스제목 / 홈페이지 공지사항 제목 가져오기 (0) | 2023.08.21 |
|---|---|
| 데이터 클렌징 NaN 처리/mapping / cut / 연습문제 (0) | 2023.07.11 |
| 넘파이 ndarray, 리스트, 딕셔너리 ↔ DataFrame (0) | 2023.07.04 |
| 데이터 정리 - 정규식 패턴 실습하기 (0) | 2023.07.04 |
| 정규식표현 문법, 특수 문자, 메서드 정리 (0) | 2023.07.04 |