데이터 : Datasets - UCI Machine Learning Repository (와인품질 데이터)
<개요>
1. 목표 설정
- 목표 : 와인 속성을 분석하여 품질 등급을 예측한다 (데이터에 속성과 등급을 학습하고 예측)
- 데이터 수집 : 캘리포니아 어바인 대학의 머신러닝 저장소의 레드와인/화이트와인
- 데이터 준비 : 레드/화이트 가 따로 있기 때문에 파일 병함.
- 데이터 내용 : 입력변수 : 11개( 1 - fixed acidity 2 - volatile acidity 3 - citric acid 4 - residual sugar 5 - chlorides 6 - free sulfur dioxide 7 - total sulfur dioxide 8 - density 9 - pH 10 - sulphates 11 - alcohol)
출력변수 1개(이산형(범주형) : 분류 / 연속형(수량형) : 회귀)
- 데이터 탐색 : 정보확인을 위한 info(), 기술 통계 확인을 위한 describe(), unique(), value_counts()
- 데이터 모델링 :
1. 데이터를 두 그룹으로 비교 분석: - 그룹별 기술 통계 분석: describe() ,
t-검정 사용: scipy 패키지의 ttest-ind()를 사용. (t검정 = ttest)
회귀분석 : statsmodels.formula.api 패키지의 ols()
2. 품질 등급 예측
샘플을 독립변수(x)로 지정-> 회귀 분석 모델 적용 -> 종속 변수(y)인 품질 quality 예측
<기술 통계(요약 통계)>
- 데이터의 특성을 나타내는 수치를 이용해 분석하는 기본적인 통계 방법
- 평균/중앙값/ 최빈값 등을 구할 수 있음.
# -- 잠깐 짚고 넘어가는 평균과 중앙값 --
ex ) 7,1,3,5,10
> 평균 : 7+1+3+5+10 / 5
> 중앙값 : 가운데에 있는 값.
<회귀분석>
- 품질 예측을 위한 회귀선을 만드는 것.
- 하나의 변수가 변함에 따라 대응 되는 변수가 어떻게 변하는지 측정하는 것.
- 변수간의 인과관계를 분석할 때 많이 사용.
- 독립 변수가 1개면 : 단순 회귀 분석 / 2개 이상이면 : 다중 회귀 분석
ex ) 벌 무게(독립변수, 입력되는값) > 암 / 수(종속변수 / 출력되는값)
- 선형회귀분석 : 선을그어서 명확하게 나눌 수 있는 (식에서 x는 변수값 b는 가중치,기울기, y절편은 시작하는점?)
- 비선형 : 직선으로 구분하기 어려운것.
<데이터 준비>
저장할때 Permission Error가 뜰때가 있는데 그럼 파일이 열려 있기 때문이다. 파일을 닫쟈
> 가급적 이 작업할때 원본은 두고 하기
레드는 1599행 12열(속성 11개, 출력값 1개)
- red와white 병합전 구분을 하기 위해 타입 열을 추가하기
concat을 이용해서 두개의 데이터를 합친다.
> 자세하게는 여기 https://dev-adela.tistory.com/105
파일로 저장해서 확인해봐도 화이트 레드 다 있다
>> 항상 파일을 열어서 데이터를 더블체크해야함!
'머신러닝 > 프로젝트' 카테고리의 다른 글
Proj 보스턴 주택 가격 회귀분석 (0) | 2023.08.09 |
---|---|
Proj 타이타닉호 생존율 분석, 상관관계 찾기 (0) | 2023.08.08 |
Proj Wine 속성을 이용한 포도 품종 예측 (0) | 2023.08.07 |
Proj 데이터 기술통계 분석/데이터모델링 - 와인 퀄리티 (3) (0) | 2023.08.07 |
Proj 데이터 기술통계분석 / 데이터 탐색 - 와인 퀄리티 (2) (0) | 2023.08.07 |