머신러닝62 ML 정밀도Precision와 재현율Recall, 트레이드오프Trade-off 정확도 = 예측결과와 실제 값이 동일한 건수 / 전체 데이터 수 = (TN + TP) / (TN + FP + FN + TP) ▶ 불균형한 이진 분류 데이터 세트에서는 한쪽 데이터가 매우 적어서 예측 정확도가 높아지는 경향이 발생 ▶ 분류 모델의 성능을 측정할 수 있는 한 가지 요소일 뿐, 하지만 정확도만으로는 신뢰도가 떨어질 수 있으니 더 선호되는 정밀도Precision와 재현율Recall에 대해 알아보자 정밀도 / 재현율 = Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞춘 평가 지표 ▶좀더 정확히 : https://dev-adela.tistory.com/162 혼동행렬 / 성능평가지표 - 각테스트 데이터에 대한 모델의 예측 결과를 4가지 관점에서 분류 > 참 양성,TP(True Posit.. 2023. 10. 22. ML 분류 평가지표 - 정확도 Accuracy 머신러닝은 데이터 가공/변환 ▶ 모델 학습/예측 ▶ 평가 로 구성 - 정확도 (Accuracy) - 오차행렬 (Confusion Matrix) - 정밀도 (Precision) - 재현율 (Recall) - F1 스코어 - ROC AUC - 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표 - 이진 분류의 경우 이거 하나만 하지 않는다. 왜냐면 성능을 왜곡할 수 있기 때문에. > 타이타닉 예시를 보면 여자가 남자보다 생존확률이 높았다보니 무조건 여자가 생존, 남자가 사망으로 예측해도 꽤나 높은 정확도가 나올 수 있음. 그래서 한번 코드를 통해 살펴 보자면 ▼ ▼ 분류를 하는데 fit을 하지 않고 'Sex' 피처가 1이면 0, 그렇지않으면 0으로 예측하는 단순한 Classifier, 'MyDumm.. 2023. 10. 19. ML 구글 스토어 앱 데이터 분석을 통한 평점 예측 실패 요인, 성공 https://www.kaggle.com/datasets/gauthamp10/google-playstore-apps\ 해당 데이터를 학습하고 관련 다른 입력 데이터를 넣어서 예측해보는 미니 프로젝트. Google Play Store Apps Google Play Store App data of 2.3 Million+ applications. www.kaggle.com Q. 예측한 값의 R^2 결정계수 점수를 0.25이상 만들기. 1. 예측 데이터 만들기 위한 데이터를 불러오고 2. Installs 횟수가 1000회에 미치지 못한 row를 모두 삭제하고 (기존 데이터에서도 했으니까) 44,910개의 데이터 세트로 진행해야함 3. 예측한 값의 결정계수가 0.25 이상으로 하이퍼파라미터들을 조정해야함. 4. .. 2023. 10. 18. 머신러닝 앙상블 학습, 보팅 배깅 부스팅 - 앙상블 학습을 통한 분류는 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 ▶ 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것. - 대부분 정형 데이터 분류 할 때 더 뛰어난 성능을 나타내고 있음. - 랜덤포레스트, 그래디언트 부스팅 알고리즘이 많이 애용되면서 XGBoost, LightGBM 등 다양한 알고리즘이 인기 * 보팅 Voting : 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정, 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합 * 배깅 Bagging : 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정222, 각각의 분류기가 모두 같은 유형의 알고리즘 기반, 데이터 샘.. 2023. 8. 30. 이전 1 2 3 4 5 6 7 8 ··· 16 다음