准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F值(F-Measure)、RoC曲线、PR曲线

准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F值(F-Measure)、RoC曲线、PR曲线

1、TP、FP、TN、FN

  • True Positives,TP:预测为正样本,实际也为正样本的特征数

  • False Positives,FP:预测为正样本,实际为负样本的特征数

  • True Negatives,TN:预测为负样本,实际也为负样本的特征数

  • False Negatives,FN:预测为负样本,实际为正样本的特征数

2、准确率(Accuracy)

准确率(Accuracy)是模型预测正例、反例对的数量所占总样本数的比例

亦即:

3、精确度(Precision)

精确度(Precision)是针对我们的预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。

预测为正有两种可能:

  1. 把样本正类预测为正类(TP)
  2. 把样本负类预测为正类(FP)

4、召回率(Recall)

召回率(Recall)是针对原来的样本而言的,它表示样本中的正例有多少被预测正确了

预测有两种可能:

  1. 把样本正类预测成正类(TP)
  2. 把样本正类预测为负类(FN)

5、F-SCORE

​ 有些时候单一精确度(Precision)召回率(Recall)高并不能很好的反映模型的真实性能。我们一般希望Precision和Recall尽可能都高。

所以F-SCORE(或称F-Measure):

or

6、例子

​ 原始样本:60个是好瓜,40个是坏瓜,总数:100。

​ 你训练了一个选西瓜的模型。你的模型挑选出85个瓜。里边真实标记有50个好瓜,35个坏瓜。

  • TP(将好瓜预测成好瓜):40
  • FP(将坏瓜预测成好瓜):15
  • TN(将坏瓜预测成坏瓜):20
  • FN(将好瓜预测成坏瓜):10

看一张图:

7、灵敏度(true positive rate ,TPR)和特异度(false positive rate, FPR)

灵敏度(true positive rate ,TPR),它是所有实际正例中,正确识别的正例比例,它和召回率的表达式没有区别。

特异度(false positive rate, FPR),它是实际负例中,错误得识别为正例的负例比例。

8、RoC曲线和PR曲线

RoC曲线:TPR**y轴,以FPRx轴**。

​ 从FPR和TPR的定义可以理解,TPR越高,FPR越小,我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。从几何的角度讲,RoC曲线下方的面积越大越大,则模型越优。所以有时候我们用RoC曲线下的面积,即AUC(Area Under Curve)值来作为算法和模型好坏的标准。

  PR曲线:Precisiony轴,以Recallx

​ 仍然从精确率和召回率的定义可以理解,精确率越高,召回率越高,我们的模型和算法就越高效。也就是画出来的PR曲线越靠近右上越好。如上图右图所示。

    使用RoC曲线PR曲线,我们就能很方便的评估我们的模型的分类能力的优劣了。

Reference:

[精确率与召回率,RoC曲线与PR曲线]

如何解释召回率与准确率?

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)