본문 바로가기
머신러닝/개념익히기

혼동행렬 / 성능평가지표

by ADELA_J 2023. 7. 17.

<혼동행렬>

- 각테스트 데이터에 대한 모델의 예측 결과를 4가지 관점에서 분류

 > 참 양성,TP(True Positive) : 양성 클래스로 예측되었고 결과도 양성 클래스인 개수

 > 참 음성,TN(True Negative) : 음성 클래스로 예측되었고 결과도 음성 클래스인 개수

 > 거짓 양성, FP(False Positive) : 양성 클래스로 예측했지만 결과는 음성 클래스인 개수

 > 거짓 음성, FN(False Negative) : 음성 클래스로 예측했지만 결과는 양성 클래스인 개수

 

출처 : https://manisha-sirsat.blogspot.com/2019/04/confusion-matrix.html

y_true = 정답데이터의 실제 클래스

y_pred = 예상된 클래스

▶ confusion_matrix(정답데이터의 실제클래스, 예상되는 클래스) 로 혼동행렬의 값을 구함.

 

<성능평가지표>

- 성능이 우수한지 평가하기 위한 명확한 기준, 혼동행렬의 개수를 바탕으로 산출

* 정확도 : 모든 경우에 진단 결과가 맞은 비율, 데이터가 한쪽으로 치우쳐 있는 상태라면 좀 위험함

* 적합률precision(정밀도) : 양성으로 예측된 데이터 중 실제로 양성인 것의 비율

* 재현율sensitivity, recall : 실제 양성 데이터 중 양성으로 예측 된 것의 비율

* F값 : 적합률과 재현율을 조합(조화 평균) 한 것.

 ▶ 이 모두가 0~1의 범위에서 표시되며 1에 가까운 쪽이 성능이 좋다는 것을 보여줌.

출처 :&nbsp;https://velog.io/@shshin/머신러닝-완벽가이드-3강
F값 구하는 식, 출처 :&nbsp;https://velog.io/@shshin/머신러닝-완벽가이드-3강

 

▶ 구하는 함수 정리  :https://dev-adela.tistory.com/163