본문 바로가기
머신러닝/프로젝트

Proj 데이터 기술통계 분석/데이터모델링 - 와인 퀄리티 (3)

by ADELA_J 2023. 8. 7.

<데이터모델링>

 

자세한 내용은 여기 https://dev-adela.tistory.com/144

 

 

<t-검정, ttest> - install statsmodels  설치 필요.

- 일반적으로 두개의 그룹을 비교해봄. 

pvalue 값을 가지고 판단하게 됨. 작으면 작을수록 차이가 적다.

회귀분석할때는 변수를 다 적어줘야함.(p값과 t값이 같이 나옴.)

 

귀무가설 정의 ▷ 표본추출 ▷ 통계 기법을 통한 검정 ▷ 귀무가설 기각/채택 

2개면 t-test로 많이하고 3개이상이면 anova

  ▶ 자세히 : https://sysiphe0.tistory.com/5

 

< 새로운 값을 넣으면 이쪽인지 저쪽인지 알 수 있게! 품질 등급 예측하기>

- 기존에 있는 값에서 일부 떼어내서 예측해보기

- 새로운 데이터를 만들어서(딕셔너리 형태로) 예측해보기

>> 이를 그래프로 그려보기

▶ 선들이 확률밀도 함수값(y축), 

▶ 분석결과를 시각화한것인데. 와인유형에 따른 품질 등급을 히스토그램으로 나타냄.

 

▼ 부분 회귀 플롯으로 시각화

- 독립 변수가 2개 이상인 경우에는 부분 회귀 플롯 partrial regression plot을 사용해서 

하나의 독립 변수가 종속 변수에 미치는 영향력을 시각화함으로써 결과를 분석할 수 있다. 

- fixed_acidity가 종속변수 quality에 미치는 영향을 분석하기 위해 부분 회귀 결과를 시각화 해보고

각 독립 변수에 대한 부분 회귀 결과를 시각해봄.

https://www.statsmodels.org/stable/graphics.html

 

- 와인 종류별 품질의 분포 그래프로 그리기

<상관관계>

상관분석에대해 좀더 공부해야할듯 ㅠ_^

https://youtu.be/OhXREH7orHs

corr 은 상관계수를 가지고 있음. 

값이 대각선으로 1.00 으로 나옴. >> 뭔소리야 유튭다시봐

 

퀄리티와 관련된 부분에서 상관수가 0보다 큰 것을 추출.

양의 상관관계를 가지는 변수들.

퀄리티에서 알콜과의 관계가 가장 큰 변수다. ( 퀄리티에서 가장 가까운 수이기때문에)

음의 상관관계를 가지는 변수들. 

절대값이 0보다 큰 변수들이 관계가 가장 큰 변수다.

kind에 regression을 지정하면 회귀선과 관련된 부분을 표시해서 전체적인 경향성 파악 가능

히스토그램 > 알코올 도수의 평균과 표준편차는 두 그룹이 비슷함. 잔여당의 평균과 표준편차는 화이트와인이 더 큼.

회귀선 > 알코올 도수가 증가하면 품질이 높아짐. 잔여당이 증가하면 품질이 낮아짐.

알코올 도수는 양의 상관관계, 잔여당은 음의 상관관계 (회귀선을 통해 확인 가능)