본문 바로가기
머신러닝/프로젝트

Proj 데이터 기술통계 분석/ 개요, 데이터 준비 - 와인 퀄리티 (1)

by ADELA_J 2023. 8. 7.

데이터 : Datasets - UCI Machine Learning Repository (와인품질 데이터)

 

<개요> 

1. 목표 설정

 - 목표  : 와인 속성을 분석하여 품질 등급을 예측한다 (데이터에 속성과 등급을 학습하고 예측)

- 데이터 수집 : 캘리포니아 어바인 대학의 머신러닝 저장소의 레드와인/화이트와인

- 데이터 준비 : 레드/화이트 가 따로 있기 때문에 파일 병함.

- 데이터 내용 : 입력변수 : 11개( 1 - fixed acidity 2 - volatile acidity 3 - citric acid 4 - residual sugar 5 - chlorides 6 - free sulfur dioxide 7 - total sulfur dioxide 8 - density 9 - pH 10 - sulphates 11 - alcohol)

    출력변수 1개(이산형(범주형) : 분류 / 연속형(수량형) : 회귀)

- 데이터 탐색 : 정보확인을 위한 info(),  기술 통계 확인을 위한 describe(), unique(), value_counts()

- 데이터 모델링 :

    1. 데이터를 두 그룹으로 비교 분석:  - 그룹별 기술 통계 분석: describe() ,

        t-검정 사용: scipy 패키지의 ttest-ind()를 사용. (t검정 = ttest)

        회귀분석 : statsmodels.formula.api 패키지의 ols()

    2. 품질 등급 예측

        샘플을 독립변수(x)로 지정-> 회귀 분석 모델 적용 -> 종속 변수(y)인 품질 quality 예측

 

<기술 통계(요약 통계)>

 - 데이터의 특성을 나타내는 수치를 이용해 분석하는 기본적인 통계 방법

 - 평균/중앙값/ 최빈값 등을 구할 수 있음.

# -- 잠깐 짚고 넘어가는 평균과 중앙값 -- 

ex ) 7,1,3,5,10

> 평균 : 7+1+3+5+10 / 5

> 중앙값 : 가운데에 있는 값. 

 

<회귀분석>

- 품질 예측을 위한 회귀선을 만드는 것.

- 하나의 변수가 변함에 따라 대응 되는 변수가 어떻게 변하는지 측정하는 것.

- 변수간의 인과관계를 분석할 때 많이 사용.

- 독립 변수가 1개면 : 단순 회귀 분석 / 2개 이상이면 : 다중 회귀 분석

 ex ) 벌 무게(독립변수, 입력되는값) > 암 / 수(종속변수 / 출력되는값)

- 선형회귀분석 : 선을그어서 명확하게 나눌 수 있는  (식에서 x는 변수값 b는 가중치,기울기, y절편은 시작하는점?)

- 비선형 : 직선으로 구분하기 어려운것.

 

 

<데이터 준비>

왼쪽처럼 ; 으로만 나누어져있는 것을 판다스를 이용하면 ;를 기준으로 파일이 정리된다.

 

저장할때 Permission Error가 뜰때가 있는데 그럼 파일이 열려 있기 때문이다. 파일을 닫쟈

> 가급적 이 작업할때 원본은 두고 하기

레드는 1599행 12열(속성 11개, 출력값 1개)

 

- red와white 병합전 구분을 하기 위해 타입 열을 추가하기

그래서 확인해보면 열이 13개가 되었다(type추가로)

concat을 이용해서 두개의 데이터를 합친다. 

> 자세하게는 여기 https://dev-adela.tistory.com/105

_append()를 사용해서 합쳐도 된다.

파일로 저장해서 확인해봐도 화이트 레드 다 있다

>> 항상 파일을 열어서 데이터를 더블체크해야함!