AI

분류: 예측 성능 평가

sylviaisthebest 2025. 4. 16. 18:56

결정 클래스 값 종류의 유형에 따라 긍정/부정과 같은 2개의 결괏값만 가지는 이진 분류와 여러 개의 결정 클래스 값을 가지는 멀티 분류로 나눌 수 있다.

 

종류

정확도

오차 행렬

정밀도

재현율

F1 스코어

ROC AUC

 

이진/멀티 분류에 모두 적용되는 지표이지만, 특히 이진 분류에서 더욱 중요하게 강조하는 지표이다.

 

정확도 (Accuracy)

실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표.

정확도 = 전체 예측 데이터 건수 / 예측 결과가 동일한 데이터 건수.

하지만 이진 분류의 경우 데이터 구성에 따라 ML 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 않는다.

특히 불균형한 레이블 값 분포에서 ML 모델의 성능을 판단할 경우, 적합한 평가 지표가 아니다.

 

오차행렬 (confusion matrix, 혼동행렬)

학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고 있는지 함께 보여주는 지표이다.

이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표이다.

    실제클래스
    Negative(0) Positive(1)
예측클래스 Negative(0) TN
(True Negative)
FP
(False Positive)
Positive(1) FN
(False Negative)
TP
(True Positive)

 

TP, TN, FP, TN 값은 Classifier 성능의 여러 면모를 판단할 수 있는 기반 정보를 제공한다. 이 값을 조합해 Classifier의 성능을 측정할 수 있는 주요 지표인 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 값을 알 수 있다.

=> 오차 행렬에서 TN과 TP에 정확도가 좌우된다.

 

비대칭한 데이터 세트에서 Positive에 대한 예측 정확도를 파악하지 못한 채 Negative에 대한 예측 정확도만으로도 분류의 정확도가 매우 높게 나타나는 수치적인 판단 오류를 일으키게 된다.

 

정밀도와 재현율 (Precision and Recall)

Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞춘 평가 지표.

 

정밀도 (Precision)

TP / (FP + TP)

재현율 (Recall)

TP / (FN + TP)

 

재현율과 정밀도 모두 TP를 높이는 데 동일하게 초점을 맞추지만, 재현율은 FN를 낮추는 데, 정밀도는 FP를 낮추는 데 초점을 맞춘다. 이 같은 특성 때문에 평가는 재현율과 정밀도는 서로 보완적인 지표로 분류의 성능을 평가하는 데 적용된다.

재현율과 정밀도는 상호 보완적인 지표이다.

 

맹점

정밀도와 재현율 성능 수치도 어느 한쪽만 참조하면 극단적인 수치 조작이 가능하다.

물론 분류가 정밀도 또는 재현율 중 하나에 상대적인 중요도를 부여해 각 예측 상황에 맘ㅈ는 분류 알고리즘을 튜닝할 수 있지만, 그렇다고 정밀도/재현율 중 하나만 강조하는 상황이 되어서는 안된다.

 

대안

분류하려는 업무의 특성 상 정밀도 또는 재현율이 특별히 강조돼야 할 경우 분류의 결정 임계값(Threshold)을 조정해 정밀도 또는 재현율의 수치를 높일 수 있다.

 

F1 스코어 (F1 Score)

정밀도와 재현율을 결합한 지표.

F1 스코어는 정밀도와 재현율이 어느 한 쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가진다.

 

ROC 곡선과 AUC

ROC 곡선 (Receiver Operation Characteristic Curve, 수신자 판단 곡선)

머신러닝의 이진 분류 모델의 예측 성능을 판단하는 가장 중요한 평가 지표.

 

FPR(False Positive Rate)이 변할 때 TPR(True Positive Rate)이 어떻게 변하는지를 나타내는 곡선.

 

TPR: 양성을 얼마나 정확하게 예측하는지 (=재현률)

TNR: 음성을 얼마나 정확히 예측하는지 (=특이도)

 

(FPR - x축, TPR - y축)

ROC 곡선이 가운데 직선에 가까울수록 성능이 떨어지는 것이며, 멀어질수록 성능이 뛰어난 것이다.

 

AUC (Area Under Curve)

ROC 곡선 밑의 면적을 구한 것으로서 일반적으로 1에 가까울수록 좋은 수치이다.

AUC 수치가 커지려면 FPR이 작은 상태에서 얼마나 큰 TPR을 얻을 수 있느냐가 관건이다.