1. 写在前面
模型“好”与“坏”的评价指标直接由业务目标/任务需求决定。我们需要做的是:根据具体的业务目标/任务需求去选择相应的评价指标,继而选出符合业务目标/任务需求的好模型。在此之前,我们需要全面了解一个任务的评价指标体系。
在二分类任务评价指标(上)中,我们已经学习了如何利用混淆矩阵来计算二分类的精度、错误率指标。今天,我们继续来学习二分类任务的其他评价指标。
2. 查准率、查全率
2.1 精度、错误率指标的局限
acc(精度、准确率)、error_rate(错误率)是分类任务中最常用的性能评价指标,多数情况下使用精度、错误率是合适的选择。比如,在「好瓜坏瓜」的西瓜问题中,如果我们关心的仅是“有多少西瓜被判别正确或错误”,那么精度和错误率就很适合。
但是,如果我们关心的是“被我们判别为好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我们判断为好瓜”时,精度和错误率就不适合了。
再比如,在工业生产的「机器故障」预测应用中,业务目标是希望模型能将机器所有发生故障的时间预测出来,显然精度指标并不适合这样的场景。为什么呢?
首先,我们知道精度衡量的是分类正确的样本数占总样本数的比例,然而通常来说机器发生故障的次数是比较少的(比如只有2%的时间发生故障)。那么,即便每次机器发生故障时模型都预测错误,它的精度也可高达到98%。这样一个模型完全就是一个摆设,在实际生产中毫无用处。
2.2 查准率、查全率
在上面精度、错误率不适用的场景中,查准率(精确率,Precision,P)和查全率(召回率,recall,R)是更适合的模型评价指标。
2.2.1 查准率、查全率指标定义
我们还是利用混淆矩阵来计算二分类任务的查准率和查全率。
真实类别 | 预测类别 | |
正例 | 负例 | |
正例 | TP(真正例) | FN(假负例) |
负例 | FP(假正例) | TN(真负例) |
假设我们有如上混淆矩阵,那么查准率的定义如下:
即查准率是预测正确的正例(TP)占所有预测为正例的样本(TP+FP)的比例。
查全率定义如下:
即查全率是预测正确的正例(TP)占总正例(TP+FN)的比例。
2.2.2 查准率、查全率含义
在「好瓜坏瓜」西瓜问题中:
查准率:衡量了“被判别为好瓜的西瓜中有多少比例是真正的好瓜” ;
查全率:衡量了“所有真正的好瓜中有多少比例被判断为好瓜” ;
在「机器故障预测」问题中:
查准率:衡量了“被预测发生故障的时间中有多少比例确实发生了故障” ;
查全率:衡量了“机器发生故障的所有时间中有多少比例被预测出来了” ;
类似的,在「信息检索/web搜索」中:
查准率:衡量了“检索出的信息中有多少比例是用户真正感兴趣的”
查全率:衡量了“用户感兴趣的信息中有多少比例被检索出来了”
在「垃圾邮件检测」中:
查准率:衡量了“被预测为垃圾邮件的所有邮件中有多少比例的确是垃圾邮件”
查全率:衡量了“所有垃圾邮件中有多少比例被检测出来了”
在「诈骗电话检测」中:
查准率:衡量了“被预测为诈骗电话的来电中有多少比例是诈骗电话”
查全率:衡量了“所有诈骗电话中有多少比例被检测出来了”
2.2.3 查准率、查全率的矛盾
我们当然希望模型不仅有高查准率,也有高查全率。但事实上,查准率与查全率通常情况下是相互矛盾的,或者说查准率、查全率是一对相互矛盾的指标。
知乎上有个例子可以帮助我们直观地理解这个“矛盾性”。假设我们的模型是找到人群中隐藏的坏人,那么:
看重查全率: “宁可错杀一千,不可漏过一个”。
看重查准率: “宁可漏过坏人,不可错杀无辜的好人”。
更具体地,比如在「好瓜坏瓜」西瓜问题中,假设“好瓜”和“坏瓜”并没有那么容易区分(复杂问题),这时要想获得高查全率,就需要降低筛选标准,极端一点我们将所有西瓜都预测为好瓜,那么查全率就是100%,但是查准率就很低;而要想获得高查准率,就需要提高筛选标准,极端一点我们只将一个最有把握的西瓜预测为好瓜,并且预测准确了,那么查准率就是100%,但是查全率就很低。
3.
既然查准率、查全率是一对相互矛盾的指标,我们就需要明确在不同的业务目标/任务需求中到底是希望查准率比较高还是查全率比较高。
3.1
当然,在二分类任务中,我们也有综合考虑了查准率和查全率的评价指标 F-Mesure(F-Score, ),它的定义如下:
其中 ()可视为权重参数,它度量了查准率和查全率的相对重要性。换句话说是查准率和查全率的加权调和平均。
由上式 的倒数的定义可知,当 时,相当于查全率被放大了,所以查全率有更大的影响;当 时,相当于查全率被缩小了,所以准率有更大的影响。
也就是说:
:更看重查全率指标。
:更看重查准率指标。
3.2 F1
在 中,当 时,也退化成了我们常见的 指标:
显然,根据下面的等价形式,可以知道在F1指标中,查准率和查全率同样重要:
编辑:何安
-
矩阵
+关注
关注
0文章
423浏览量
34541 -
模型
+关注
关注
1文章
3239浏览量
48830
原文标题:、
文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论