Proj 데이터 기술통계 분석/데이터모델링

<데이터모델링>

자세한 내용은 여기 https://dev-adela.tistory.com/144

<t-검정, ttest> - install statsmodels 설치 필요.

- 일반적으로 두개의 그룹을 비교해봄.

pvalue 값을 가지고 판단하게 됨. 작으면 작을수록 차이가 적다.

회귀분석할때는 변수를 다 적어줘야함.(p값과 t값이 같이 나옴.)

귀무가설 정의 ▷ 표본추출 ▷ 통계 기법을 통한 검정 ▷ 귀무가설 기각/채택

2개면 t-test로 많이하고 3개이상이면 anova

< 새로운 값을 넣으면 이쪽인지 저쪽인지 알 수 있게! 품질 등급 예측하기>

- 기존에 있는 값에서 일부 떼어내서 예측해보기

- 새로운 데이터를 만들어서(딕셔너리 형태로) 예측해보기

>> 이를 그래프로 그려보기

▶ 선들이 확률밀도 함수값(y축),

▶ 분석결과를 시각화한것인데. 와인유형에 따른 품질 등급을 히스토그램으로 나타냄.

▼ 부분 회귀 플롯으로 시각화

- 독립 변수가 2개 이상인 경우에는 부분 회귀 플롯 partrial regression plot을 사용해서

하나의 독립 변수가 종속 변수에 미치는 영향력을 시각화함으로써 결과를 분석할 수 있다.

- fixed_acidity가 종속변수 quality에 미치는 영향을 분석하기 위해 부분 회귀 결과를 시각화 해보고

각 독립 변수에 대한 부분 회귀 결과를 시각해봄.

- 와인 종류별 품질의 분포 그래프로 그리기

~~<상관관계>~~

~~상관분석에대해 좀더 공부해야할듯 ㅠ_^~~

corr 은 상관계수를 가지고 있음.

값이 대각선으로 1.00 으로 나옴. >> 뭔소리야 유튭다시봐

퀄리티와 관련된 부분에서 상관수가 0보다 큰 것을 추출.

양의 상관관계를 가지는 변수들.

퀄리티에서 알콜과의 관계가 가장 큰 변수다. ( 퀄리티에서 가장 가까운 수이기때문에)

음의 상관관계를 가지는 변수들.

절대값이 0보다 큰 변수들이 관계가 가장 큰 변수다.

kind에 regression을 지정하면 회귀선과 관련된 부분을 표시해서 전체적인 경향성 파악 가능

히스토그램 > 알코올 도수의 평균과 표준편차는 두 그룹이 비슷함. 잔여당의 평균과 표준편차는 화이트와인이 더 큼.

회귀선 > 알코올 도수가 증가하면 품질이 높아짐. 잔여당이 증가하면 품질이 낮아짐.

알코올 도수는 양의 상관관계, 잔여당은 음의 상관관계 (회귀선을 통해 확인 가능)

Proj 보스턴 주택 가격 회귀분석 (0)	2023.08.09
Proj 타이타닉호 생존율 분석, 상관관계 찾기 (0)	2023.08.08
Proj Wine 속성을 이용한 포도 품종 예측 (0)	2023.08.07
Proj 데이터 기술통계분석 / 데이터 탐색 - 와인 퀄리티 (2) (0)	2023.08.07
Proj 데이터 기술통계 분석/ 개요, 데이터 준비 - 와인 퀄리티 (1) (0)	2023.08.07

공부하고있슴다