목표 | 구글 스토어 앱 데이터 분석을 통하여 앱 평점을 예측하는 회귀 모델 수행 구글 스토어 앱 평점에 영향을 미치는 특성 데이터들에 대한 데이터 분석 수행 |
데이터 준비 | https://www.kaggle.com/datasets/gauthamp10/google-playstore-apps/ |
분석 모델 구축 | 사이킷런의 로지스틱 회귀 모델 구축 |
결과 분석 | 회귀 모델을 사용 후 평가 및 예측 수행 confusion_matrix, accuracy, precision, recall, f1 |
< 데이터 불러오기 >
<EDA>
info() 를 써서 봤더니 bool도 있고 문자열도 있고 숫자도 있고 어마무시함
describe()를 통해 통계량 정보를 출력. Rating은 별점이다보니 0부터 5가 최대
<데이터 정제> - 결측값과 이상치 처리
* 변수 너무너무 많음 23개 나됨. 그래서 학습에 필요한 것만 쓰자
필요없는 변수들은 삭제
결측치 개수를 확인해봄
Rating과 Rating Count 의 결측치갯수가 똑같음.
그래서 Rating의 결측치인 row가 Rating Count인지 확인!
'NaN'임.
▶ 따라서 Rating과 Rating Count의 결측치 row가 일치하는 것을 확인해볼 수 있음.
그래서 결측값 없애버림(둘다 비어있으니까!)
<데이터 시각화>
- 평점을 의미하는 Rating 변수를 시각화 해봄. 0이 대부분임
Rating이나 Rating Count 값이 0인 데이터 개수는 똑같다
그리고 리뷰가 너무 적은 경우에도 대표성을 띈다고 어렵기 때문에 리뷰 개수가 10개 이하인 건 제거!
하고 나서 Rating 그래프 다시 그려보기
Rating Count를 10개 단위로 나누어서 확인
Installs , 설치 횟수를 그래프로 그려봄
숫자가 아닌애들도 막 껴있움...
쉼표며 플러스며 껴있는걸 보니 문자열로 되어있음 아주 엉망진창임
그래서 수치 자료형으로 변환해줌
보니까 양쪽 끝의 데이터들이 보이지 않을 정도로 너무 작음(있는지도 모르겠음)
그래서 5천만회 이상(1억회, 5억회 이상)은 1천만으로 변경
1천회 보다 적은 설치횟수를 가진 것들은 데이터 제거
'Free'에 대해서 시각화
Last Updated 시각화
본 데이터는 2021년 6월에 수집된 데이터임.
따라서 2021년에 업데이트가 안되었다면 소홀히 관리하고 있다는 것.
(물론 앱 특성상 안하는 경우도 있지만)
분석을 간략하게 하기 위해 2021년 업데이트가 된 것만 모아봄
그리고 시각화해봄
content Rating 관련해서도 시각화 해봄
Ad Supported , 광고 표시 유무에 대한 내용도 시각화
In App Purchases 인앱구매관련해서도 하고
Editors Choice 구글 추천이 있었는지에 대한 유무도 해보고
'머신러닝 > 프로젝트' 카테고리의 다른 글
Proj 사용자 행동 인식 예측 분류 Human Activity Recognition (3) | 2023.12.06 |
---|---|
Proj 구글 스토어 앱 데이터 분석을 통한 평점 예측 (2) (1) | 2023.11.27 |
Proj 피마 인디언 당뇨병 예측 (0) | 2023.10.24 |
Proj 콤프레샤 모터의 이상감지 (2) | 2023.08.21 |
Proj 유방암 진단하기, 로지스틱 회귀 (0) | 2023.08.16 |