본문 바로가기
머신러닝/프로젝트

Proj 레스토랑의 웨이터 팁 분석 및 예측

by ADELA_J 2023. 12. 29.
목표 레스토랑에서 웨이터에게 제공되는 팁에 대해 기록된 데이터를 기반으
영향을 미치는 요인과 머신러닝 모델을 훈련
데이터 준비 파이썬 사이킷런 내장데이터
데이터 내용 total_bill : 택스 포함된 총 가격 (달러)
tip : 웨이터에게 준 팁 (달러)
sex : 총 가격을 지불한 사람의 성별
smoker : 지불한 사람의 흡연 여부
day : 무슨 요일
time : 런치 or 디너
size: 테이블의 몇 사람이 앉았는지

 

 

 

<데이터 준비>

 

<EDA>

▶ info를 살펴보면 내장데이터 답게 깔끔하게 정리가 되어 있다.

 

▶ 좀 더 자세히 데이터를 보면 tip은 1~10달러이고,

 테이블 size는 1~6명으로 되어 있다.

 

 

▶ total_bill 을 살펴보면 주로 7~22달러정도까지가 많은 사람들이 내는 가격으로 보인다.

▶ tip 도 비슷한 모양(오른쪽 꼬리 분포)를 나타내고 있음을 확인 가능하다

 

▶ size를 보면 2명이 온 손님이 제일 많고 6명이 온 사람이 제일 적다

▶ 가격은 주로 남자들이 지불을 했고

▶ 담배는 안피우는 사람들이 좀 더 많았고

▶ 토요일에 방문자가 제일 많았으며 Dinner가 압도적으로 사람이 많았다.

 

<데이터 전처리>

- sex, smoker, day, time 은 문자열이기 때문에 학습을 위해 숫자로 바꿔주었다.

 

<훈련 및 예측>

 

x, y 나누고 

train 과 test를 0.75/0.25 비율로 나누고

선형회귀와 LightGBM 으로 학습시키고 예측하였다

 

<성능>

 

둘이 성능이 비슷비슷한데,

그 이유는 아마 244개밖에 되지 않는 데이터 갯수 때문이 아닐까 싶다..☆