본문 바로가기

머신러닝62

머신러닝 기초, 지도학습(분류) - 주로 3가지 분야로 나누어진다. 1. 지도하습 : 데이터를 예측하거나 분류를 수행 2. 비지도학습 : 축적된 데이터의 구조나 관계성을 찾아내는것 3. 강화학습 : 보수나 환경등을 설정하여 수익을 최대화하는 행동을 학습하는 방법 1-1. 회귀 : 기존 데이터에서 관계성을 바탕으로 데이터 예측, 주가나 시가와 같은 연속적인 값 예측 1-2. 분류 : 데이터 예측 실시. 예측되는 값은 데이터의 카테고리, 이산값. 8행 - X값의 첫번째 열 값, X값의 두번째 열 값 으로 그래프 그림. y를 출력해보면 이렇게 0과 1로 이항분류가 되어있음. - 모델 model : 머신러닝의 학습 방법 - 분류기 classifier : 머신러닝으로 데이터를 분류하는 프로그램 >> 모델을 직접 구현하는 것은 쉽지 않음. 그래서.. 2023. 7. 18.
머신러닝의 기본적인 흐름 및 평가 지표 함수 머신러닝은 훈련데이터/테스트 데이터를 준비한 후 머신러닝 알고리즘을 훈련 데이터로 학습시키고 학습된 머신러닝 알고리즘의 성능을 테스트 데이터로 검증하는 흐름을 가지고 있음. 81행, svm.SVC > SVM(Support Vector Machine)은 데이터 분석 중 분류에 해당되며 지도학습 방식의 모델임. sklearn을 통해서 구현 가능함. 자세히 여기 ▼ 자세한 내용은 추후에 공부해서 추가하기 https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html 85행, predict(알고싶은 데이터) : 예측해서 머신러닝 학습 결과를 알 수 있음. > 그렇게 86행에서 예측한 학습결과의 정확률 accuarcy_score 메서드를 이용해서 파.. 2023. 7. 17.
혼동행렬 / 성능평가지표 - 각테스트 데이터에 대한 모델의 예측 결과를 4가지 관점에서 분류 > 참 양성,TP(True Positive) : 양성 클래스로 예측되었고 결과도 양성 클래스인 개수 > 참 음성,TN(True Negative) : 음성 클래스로 예측되었고 결과도 음성 클래스인 개수 > 거짓 양성, FP(False Positive) : 양성 클래스로 예측했지만 결과는 음성 클래스인 개수 > 거짓 음성, FN(False Negative) : 음성 클래스로 예측했지만 결과는 양성 클래스인 개수 y_true = 정답데이터의 실제 클래스 y_pred = 예상된 클래스 ▶ confusion_matrix(정답데이터의 실제클래스, 예상되는 클래스) 로 혼동행렬의 값을 구함. - 성능이 우수한지 평가하기 위한 명확한 기준, 혼동행렬의.. 2023. 7. 17.
학습/테스트데이터 - 홀드아웃, k-분할 교차검증, 과적합, 앙상블학습 - 가장 일반적으로 주로 사용하는 방법 - 주어진 데이터셋에서 훈련데이터/테스트데이터 2가지로 분할하는 방법 - 주로 20%를 테스트 데이터로 만들어서 진행하고 있음. - train_test_split(X,y, test_size = __ , random_state = 0) > X = 데이터셋의 정답 라벨에 대응하는 특징이 배열로 되어 있는 데이터 > y = 데이터셋의 정답 라벨이 배열로 되어 있는 데이터 > test_size = 0에서 1사이의 수치로 지정. 테스트 데이터로 선택하고 싶은 비율 > random_state > 랜덤 seed같은거,,! 안해주면 정밀도도 매번 달라짐. - 비복원 추출 (한 번 추출한 데이터는 제자리에 되돌리지 않는 추출법) - 훈련데이터셋을 k개로 분할하고 k-1개의 데이터는.. 2023. 7. 17.