机器学习分类算法的评价
2017-07-11
MacLearn
machine-learning
二分类问题混淆矩阵
正/负
index |
equation |
预测正例 |
P = TP + FP |
预测负例 |
N = FN + TN |
实际正例 |
FP + FN |
实际负例 |
FP + TN |
正确率 |
accuracy = (TP + TN) / (P + N) |
错误率 |
error rate = (FP + FN) / (P + N) = 1 - accuracy |
灵敏度/特异性/精度/召回率
index |
equation |
description |
灵敏度 + |
sensitive = TP / (TP + FN) |
表示 实际正样本 中 预测正样本 的比例 |
特异性 - |
specificity = TN / (FP+TN) |
表示 实际负样本 中 预测负样本 的比例 |
精度 |
precision= TP / (TP + FP) |
表示 预测正样本 中 实际正样本 的比例 |
召回率 |
recall=TP / (TP + FN) = sensitive |
表示 实际正样本 中 预测正样本 的比例 |
ROC axis
axis |
index |
equation |
description |
x-axis |
False positive rate |
FPR = FP / (FP + TN) = 1 - specificity |
实际负样本 中被 错误预测为正样本 的概率 |
y-axis |
Truth positive rate |
TPR = TP / (TP + FN) = sensitivity |
实际正样本 中被 正确预测为正样本的概率 |
P.S.
通常分类器的输出为0~1的概率值(score),预测的结果是根据设定的阈值(thre)而定。比如thre=0.5, 则score>0.5为正样本,score<0.5为负样本。通过设定不同的阈值,得到多个ROC空间的值,将这些值绘制成ROC空间的曲线,即为ROC曲线。
Comments