본문 바로가기

머신러닝62

Proj Wine 속성을 이용한 포도 품종 예측 이 데이터로 머신러닝 해보려고합니다....... 요런식의 csv파일도 아니고 뭐지 하고 열어봤더니 - index나 wine.names는 데이터 설명서이고 사용할 파일은 wine.data 포도 품종 예측하기 목표 와인의 속성을 분석해서 포도 품종을 예측한다. 핵심 개념 기술 통계, 의사결정트리, K-Fold cross validation, 성능확인, 산점도 그래프 데이터 수집 UCI Machine Learning Repository 에서 다운로드 데이터 내용 독립 변수 12개(('Alcohol','Malic acid','Ash', 'Alcalinity of ash ', 'Magnesium', 'Total phenols', 'Flavanoids','Nonflavanoid phenols','Proanthocy.. 2023. 8. 7.
Proj 데이터 기술통계 분석/데이터모델링 - 와인 퀄리티 (3) 자세한 내용은 여기 https://dev-adela.tistory.com/144 - install statsmodels 설치 필요. - 일반적으로 두개의 그룹을 비교해봄. pvalue 값을 가지고 판단하게 됨. 작으면 작을수록 차이가 적다. 회귀분석할때는 변수를 다 적어줘야함.(p값과 t값이 같이 나옴.) 귀무가설 정의 ▷ 표본추출 ▷ 통계 기법을 통한 검정 ▷ 귀무가설 기각/채택 2개면 t-test로 많이하고 3개이상이면 anova ▶ 자세히 : https://sysiphe0.tistory.com/5 - 기존에 있는 값에서 일부 떼어내서 예측해보기 - 새로운 데이터를 만들어서(딕셔너리 형태로) 예측해보기 >> 이를 그래프로 그.. 2023. 8. 7.
Proj 데이터 기술통계분석 / 데이터 탐색 - 와인 퀄리티 (2) 데이터 분석을 시작하는 첫번째 1. 기본정보 확인하기 .info() 2. 함수를 사용해 기술 통계하기 - 하기전에 컬럼이름에서 공백문자를 _ 로 바꿔주는 작업 * method chaining(메소드 체이닝) wine.columns.str 처럼 점연산자로 연결해주는거 ▶ 전체적인 데이터의 특징/균형을 보기위해 보는 것. 이런저런 자세한 설명 https://dev-adela.tistory.com/139 ▶ .unique() 메서드를 사용하면 quality의 값들이 뭐뭐 있는지, quality 속성값 중 유일한 값을 출력 ▶ .value_counts() 메서드를 사용하면 quality의 unique한 값들이 몇개씩 있는지 알려줌 ▷ 6등급은 2836개로 제일 많고 9등급은 5개로 제일 적다. unstack('.. 2023. 8. 7.
Proj 데이터 기술통계 분석/ 개요, 데이터 준비 - 와인 퀄리티 (1) 데이터 : Datasets - UCI Machine Learning Repository (와인품질 데이터) 1. 목표 설정 - 목표 : 와인 속성을 분석하여 품질 등급을 예측한다 (데이터에 속성과 등급을 학습하고 예측) - 데이터 수집 : 캘리포니아 어바인 대학의 머신러닝 저장소의 레드와인/화이트와인 - 데이터 준비 : 레드/화이트 가 따로 있기 때문에 파일 병함. - 데이터 내용 : 입력변수 : 11개( 1 - fixed acidity 2 - volatile acidity 3 - citric acid 4 - residual sugar 5 - chlorides 6 - free sulfur dioxide 7 - total sulfur dioxide 8 - density 9 - pH 10 - sulphate.. 2023. 8. 7.