머신러닝

성능평가- confusion Matrix

J.H_DA 2022. 4. 12. 15:05

오차 행렬은 이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표 이다.

 

TN: 예측값이 negative 이고 실제 값 역시 negative 인 값

FP: 예측값을 positive로 예측했으나 실제 값은 negative인 값

FN: 예측값을 negative로 예측했으나 실제 값은 positive인 값

TP: 예측값이 positive 이고 실제 값 역시 positive 인 값

정확도 = 예측 결과와 실제 값이 동일한 건수/전체 데이터수 = (TN+TP)/(TN+FP+FN+TP)

정밀도 = 예측을 positve로 한 대상 중에 예측과 실제 값이 positive로 일치한 데이터의 비율 = TP(FP+TP)

재현율 = 실제 값이 positive인 대상 중에 예측과 실제 값이 positive로 일치한 데이터의 비율 = TP(FN+TP)

 

정밀도와 재현율이 강조될 경우 Threshold를 조정해 해당 수치 조정이 가능하다.

정밀도와 재현율은 상호 보완적인 수치 이므로 Trade off 작용한다.

 

 

F1 스코어(score)는 정밀도와 재현율을 결합한 지표로 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가진다.

F1-Score = F1 = 2*(precision*recall)/(precision+recall)

728x90