목표 | 레스토랑에서 웨이터에게 제공되는 팁에 대해 기록된 데이터를 기반으 영향을 미치는 요인과 머신러닝 모델을 훈련 |
데이터 준비 | 파이썬 사이킷런 내장데이터 |
데이터 내용 | total_bill : 택스 포함된 총 가격 (달러) tip : 웨이터에게 준 팁 (달러) sex : 총 가격을 지불한 사람의 성별 smoker : 지불한 사람의 흡연 여부 day : 무슨 요일 time : 런치 or 디너 size: 테이블의 몇 사람이 앉았는지 |
<데이터 준비>
<EDA>
▶ info를 살펴보면 내장데이터 답게 깔끔하게 정리가 되어 있다.
▶ 좀 더 자세히 데이터를 보면 tip은 1~10달러이고,
테이블 size는 1~6명으로 되어 있다.
▶ total_bill 을 살펴보면 주로 7~22달러정도까지가 많은 사람들이 내는 가격으로 보인다.
▶ tip 도 비슷한 모양(오른쪽 꼬리 분포)를 나타내고 있음을 확인 가능하다
▶ size를 보면 2명이 온 손님이 제일 많고 6명이 온 사람이 제일 적다
▶ 가격은 주로 남자들이 지불을 했고
▶ 담배는 안피우는 사람들이 좀 더 많았고
▶ 토요일에 방문자가 제일 많았으며 Dinner가 압도적으로 사람이 많았다.
<데이터 전처리>
- sex, smoker, day, time 은 문자열이기 때문에 학습을 위해 숫자로 바꿔주었다.
<훈련 및 예측>
x, y 나누고
train 과 test를 0.75/0.25 비율로 나누고
선형회귀와 LightGBM 으로 학습시키고 예측하였다
<성능>
둘이 성능이 비슷비슷한데,
그 이유는 아마 244개밖에 되지 않는 데이터 갯수 때문이 아닐까 싶다..☆
'머신러닝 > 프로젝트' 카테고리의 다른 글
Proj 사용자 행동 인식 예측 분류 Human Activity Recognition (3) | 2023.12.06 |
---|---|
Proj 구글 스토어 앱 데이터 분석을 통한 평점 예측 (2) (1) | 2023.11.27 |
Proj 구글 스토어 앱 데이터 분석을 통한 평점 예측 (1) (7) | 2023.11.26 |
Proj 피마 인디언 당뇨병 예측 (0) | 2023.10.24 |
Proj 콤프레샤 모터의 이상감지 (2) | 2023.08.21 |