准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F值(F-Measure)、RoC曲线、PR曲线
1、TP、FP、TN、FN
True Positives,TP:预测为正样本,实际也为正样本的特征数
False Positives,FP:预测为正样本,实际为负样本的特征数
True Negatives,TN:预测为负样本,实际也为负样本的特征数
False Negatives,FN:预测为负样本,实际为正样本的特征数
2、准确率(Accuracy)
准确率(Accuracy)是模型预测正例、反例对的数量所占总样本数的比例
亦即:
3、精确度(Precision)
精确度(Precision)是针对我们的预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。
预测为正有两种可能:
- 把样本正类预测为正类(TP)
- 把样本负类预测为正类(FP)
4、召回率(Recall)
召回率(Recall)是针对原来的样本而言的,它表示样本中的正例有多少被预测正确了
预测有两种可能:
- 把样本正类预测成正类(TP)
- 把样本正类预测为负类(FN)
5、F-SCORE
有些时候单一的精确度(Precision)和召回率(Recall)高并不能很好的反映模型的真实性能。我们一般希望Precision和Recall尽可能都高。
所以F-SCORE(或称F-Measure):
or
6、例子
原始样本:60个是好瓜,40个是坏瓜,总数:100。
你训练了一个选西瓜的模型。你的模型挑选出85个瓜。里边真实标记有50个好瓜,35个坏瓜。
- TP(将好瓜预测成好瓜):40
- FP(将坏瓜预测成好瓜):15
- TN(将坏瓜预测成坏瓜):20
- FN(将好瓜预测成坏瓜):10
看一张图:
7、灵敏度(true positive rate ,TPR)和特异度(false positive rate, FPR)
灵敏度(true positive rate ,TPR),它是所有实际正例中,正确识别的正例比例,它和召回率的表达式没有区别。
特异度(false positive rate, FPR),它是实际负例中,错误得识别为正例的负例比例。
8、RoC曲线和PR曲线
RoC曲线:以TPR为**y轴,以FPR为x轴**。
从FPR和TPR的定义可以理解,TPR越高,FPR越小,我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。从几何的角度讲,RoC曲线下方的面积越大越大,则模型越优。所以有时候我们用RoC曲线下的面积,即AUC(Area Under Curve)值来作为算法和模型好坏的标准。
PR曲线:以Precision为y轴,以Recall为x轴
仍然从精确率和召回率的定义可以理解,精确率越高,召回率越高,我们的模型和算法就越高效。也就是画出来的PR曲线越靠近右上越好。如上图右图所示。
使用RoC曲线和PR曲线,我们就能很方便的评估我们的模型的分类能力的优劣了。
Reference: