분류 결과
confusion matrix
ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다.
- ROC 커브는 그 면적이 1에 가까울수록 (즉 왼쪽위 꼭지점에 다가갈수록) 좋은 성능이다. 그리고 이 면적은 항상 0.5~1의 범위를 갖는다.(0.5이면 랜덤에 가까운 성능, 1이면 최고의 성능)
- TPR : True Positive Rate (=민감도, true accept rate)
1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함)
- FPR : False Positive Rate (=1-특이도, false accept rate)
0인 케이스에 대해 1로 잘못 예측한 비율.(암환자가 아닌데 암이라고 진단 함)
ROC AUC(ROC Area Under the Curve) == AUROC (the Area Under a ROC Curve)
ROC 커브의 밑면적을 구한 값이 바로 AUC이다. 이 값이 1에 가까울수록 성능이 좋다. 전체적인 민감도와 특이도의 상관 관계를 보여줄 수 있어 편리한 성능 척도이다.
* 실습 코드
* 참고자료
https://newsight.tistory.com/53
* 정밀도/재현율 트레이드오프, 임계값, roc 곡선 그리는 건 안배움.
'Data Science' 카테고리의 다른 글
딥러닝(자연어처리) 꼭 알아야 할 추천 논문 목록 (0) | 2022.01.21 |
---|---|
220120-21)분산, 표준편차, 공분산, 상관관계, MSE, 사분위수, 이상치, 데이터정규화 (0) | 2022.01.20 |
220119) breast cancer data로 xgboost 실습 (0) | 2022.01.19 |
220118) Random Forest Classifier 성능평가 (0) | 2022.01.18 |
Random Forest Classifier, 전에 몰랐던 것들 (0) | 2022.01.18 |