roc-auc

As I had promised in my previous article, now, it’s time to complete our discussion on evaluation metrics for classification problems. Today, we are going to discuss the limitation of the AUC-ROC technique.

正如我在上一篇文章中所承诺的那样,现在是时候完成关于分类问题评估指标的讨论了。 今天,我们将讨论AUC-ROC技术局限性

First of all, before the limitation, it’s important to understand, how the ROC Curve forms.

首先,在限制之前,了解ROC曲线的形成方式非常重要。

So, firstly, we will begin with a thorough discussion on how ROC Curve forms and then, we will discuss its limitation, as the explanation of the limitation comes from the theory of the formation of ROC Curve.

因此,首先,我们将详细讨论ROC曲线的形成方式,然后再讨论其局限性,因为对局限性的解释来自于ROC曲线形成理论。

介绍 (Introduction)

So, before moving to the ROC, it’s very important to discuss the True Positive Rate (T.P.R) & False Positive Rate (F.P.R).

因此,在转向中华民国之前,讨论真正利率(TPR)假正利率(FPR)非常重要。

The mathematical formula of T.P.R is given below:

TPR的数学公式如下:

True Positive Rate (T.P.R)
真实正利率(TPR)

& the mathematical formula of F.P.R is given below:

FPR的数学公式如下:

False Positive Rate (F.P.R)
误报率(FPR)

Now, without wasting time, let’s jump onto the AUR-ROC technique.

现在,在不浪费时间的情况下,让我们开始使用AUR-ROC技术。

AUC-ROC曲线 (AUC-ROC Curve)

A.U.C means Area under the curve which we calculate of the ROC (Receiver Operations Characteristics) curve.

AUC是指我们计算的ROC(接收机工作特性)曲线的曲线下面积。

AUC-ROC technique basically gives us a tradeoff between True Positive Rate (T.P.R) & False Positive Rate (F.P.R).

AUC-ROC技术基本上使我们在真正率(TPR)和假正率(FPR)之间进行权衡。

Originally, ROC Curve was used for distinguishing ‘noise’ from ‘not noise’.

最初,ROC曲线用于区分“噪声”与“非噪声”。

Now coming to the formation of the ROC Curve.

现在开始形成ROC曲线

Now, let’s begin with the threshold principle to understand the formation of the ROC Curve.

现在,让我们从阈值原理开始,了解ROC曲线的形成。

门槛原则 (Threshold Principle)

The threshold principle is used to calculate the True Positive Rate & False Positive Rate.

阈值原理用于计算正确率和错误率。

Let’s take an example.

让我们举个例子。

Suppose we have the following table of Actual values & Predicted values.

假设我们有下表“实际值”和“预测值”。

Now, it’s important to understand that any Machine learning algorithm, actually gives the probability of any outcome.

现在,重要的是要了解任何机器学习算法实际上都会给出任何结果可能性

The function that you apply, internally applies a threshold on the probability to decide a particular outcome.

您应用的函数会在内部应用阈值来确定特定结果。

In the above table, the predicted values are those, which you get as the output from a Machine learning algorithm. Now, let’s see a new table below.

在上表中, 预测值是您从机器学习算法的输出中获得的值。 现在,让我们在下面看到一个新表。

Here, the probabilities are for getting one (1) as the output.

在这里,概率是用于获得一(1)作为输出。

Predicting probabilities is the work that is actually expected by an ML algorithm to do, rest is just applying a threshold.

预测概率是ML算法实际上要完成的工作,其余只是应用阈值。

In the above table, the “Predicted Values” are the result of applying the threshold on the “Predicted Probabilities”. For example, in the above table, threshold = 0.5, which means that if “Predicted Probabilities” is greater than or equal to 0.5, the predicted value will be 1, else 0.

在上表中,“预测值”是在“预测概率”上应用阈值的结果。 例如,在上表中,阈值= 0.5,这意味着如果“预测概率”大于或等于0.5,则预测值将为1,否则为0。

Now, a common question that may come in mind is that, what if I increase the threshold. Well, Increasing/Decreasing threshold will effect True Positives, False Positives, True Negatives, and False Negatives. & that’s what we going to do in the next few minutes. We are going to play with the thresholds.

现在,可能会想到的一个常见问题是,如果我提高阈值会怎样? 好吧,增加/减少阈值将影响“真阳性”,“假阳性”,“真阴性”和“假阴性”。 这就是我们接下来几分钟要做的事情。 我们将使用阈值。

Now we have got enough knowledge about the thresholds & it’s workings, let’s move on to the working & formation of the ROC curve

现在我们对阈值及其工作原理有了足够的了解,让我们继续研究ROC曲线的工作和形成

ROC曲线的形成 (Formation of R.O.C Curve)

There are a few steps required for the formation of the R.O.C curve. For better understanding, at each step, we will solve an example which we will take in the beginning.

形成ROC曲线需要几个步骤。 为了更好地理解,在每一步中,我们将解决一个示例,我们将从一开始就采用该示例。

So, let’s take the same table as an example, which we took above. But, since our objective is to find the ROC Curve, we will not take “Predicted values” into account.

因此,让我们以上面的表格为例。 但是,由于我们的目标是找到ROC曲线,因此我们将不考虑“预测值”。

Step 1: Arrange all the rows according to decreasing order

步骤1:按照降序排列所有行

Now, we have to arrange all the rows in the descending order according to the predicted probabilities. Here’s what we get.

现在,我们必须根据预测的概率按降序排列所有行。 这就是我们得到的。

Step 2: Take the first probability as the threshold.

步骤2:以第一个概率为阈值。

Step 3: T.P.R (True Positive Rate) and F.P.R (False Positive Rate)

步骤3:TPR(正确率)和FPR(错误率)

Now, by the T.P.R & F.P.R formula, we got,

现在,根据TPR和FPR公式,

True Positive Rate = 1/5 = 0.2

真实正利率= 1/5 = 0.2

False Positive Rate = 0

误报率= 0

Now, we are going to plot our first point on the ROC curve. The F.P.R is on the x-axis & T.P.R is on the y-axis.

现在,我们将在ROC曲线上绘制第一个点。 FPR在x轴上,TPR在y轴上。

The following graph is obtained:

获得下图:

Plotted 1st point on the graph
在图上绘制第一个点

Step 4: Repeat steps 2 & 3 & take the next probability as threshold till end

步骤4:重复步骤2和3,并以下一个概率为阈值,直到结束

Now, it’s time to go to step 2 & instead we will take threshold = 0.9.

现在,该进行第2步了,取而代之的是,我们将阈值= 0.9。

Step 3:

第三步:

Now, again we have to calculate T.P.R & F.P.R.

现在,我们必须再次计算TPR和FPR

Step 4: T.P.R (True Positive Rate) and F.P.R (False Positive Rate)

步骤4:TPR(正确率)和FPR(错误率)

Now, by the T.P.R & F.P.R formula, we got,

现在,根据TPR和FPR公式,

True Positive Rate = 2/5 = 0.4

真实肯定率= 2/5 = 0.4

False Positive Rate = 0

误报率= 0

Now, we are going to plot our 2nd point on the ROC curve. The F.P.R is on the x-axis & T.P.R is on the y-axis.

现在,我们将在ROC曲线上绘制第二点。 FPR在x轴上,TPR在y轴上。

The updated Graph is shown below.

更新后的图表如下所示。

Plotted 2 points on the graph
在图表上绘制2点

Now, according to step 4, we have to repeat step 2 with threshold = 0.78. Below is the table we got.

现在,根据步骤4,我们必须以阈值= 0.78重复步骤2。 下面是我们得到的表。

Again Calculation of T.P.R & F.P.R

再次计算TPR和FPR

True Positive Rate = 3/5 = 0.6

真实正利率= 3/5 = 0.6

False Positive Rate = 0

误报率= 0

Now, we are going to plot our 3rd point on the ROC curve. The F.P.R is on the x-axis & T.P.R is on the y-axis.

现在,我们将在ROC曲线上绘制第三个点。 FPR在x轴上,TPR在y轴上。

The updated Graph is shown below.

更新后的图表如下所示。

Plotted 3 points on the graph
在图表上绘制3个点

….. (Repeating the process until we reach the last, taking the last probability as the threshold)

…..(以最后的概率为阈值,重复此过程直到达到最后一个)

Now, if we repeat the process until we reach the end, we will get the following graph.

现在,如果我们重复该过程直到结束,我们将得到以下图形。

(Here, I’m skipping the steps just for the sake of the length of this article.)

(在这里,仅为了本文的篇幅,我跳过了这些步骤。)

Complete graph
完整图

The above graph may seem like a strange one, but, I’ve taken a casual data with only 8 rows. But, when you’re dealing with real-world problems, you’ll most probably get a standard 2D curve, just like what a standard ROC curve looks like.I think it’s quite clear now.

上面的图似乎是一个奇怪的图,但是,我仅使用了8行的临时数据。 但是,当您处理现实世界中的问题时,您很可能会获得标准2D曲线,就像标准ROC曲线的样子一样。我认为现在已经很清楚了。

Now, I think you have understood the formation of the ROC Curve. The AUC is just to check the accuracy. The AUC of the above graph is = 0.736, which means that our model is better than the random one.

现在,我认为您已经了解了ROC曲线的形成。 AUC只是为了检查准确性。 上图的AUC = 0.736,这意味着我们的模型优于随机模型。

Now, since you’ve understood the formation of the ROC Curve, it’s time to discuss the limitation, which is the ultimate objective of this article.

现在,由于您已经了解了ROC曲线的形成,是时候讨论该限制了,这是本文的最终目标。

AUC-ROC技术的局限性 (Limitation of the AUC-ROC Technique)

The limitation of the AUC-ROC technique is that we can’t compare 2 different models with this.

AUC-ROC技术局限性是我们不能与此比较两个不同的模型。

Since you’ve already understood, how the ROC curve forms, you may notice that the ROC Curve formed is basically dependent on the order of the probability.

既然您已经了解了ROC曲线的形成方式,那么您可能会注意到所形成的ROC曲线基本上取决于概率的顺序。

We have already discussed above that the main objective of any Machine Learning model is to find the probability, if we change the Machine Learning model, the probabilities will change, but the area of the ROC curve depends upon the order, not the probability itself. So, if we change the Machine Learning model, the order will remain unchanged, condition applied that no predicted probability will remain the same.

上面我们已经讨论了任何机器学习模型的主要目标是找到概率,如果我们更改机器学习模型,则概率将改变,但是ROC曲线的面积取决于顺序 ,而不是概率本身。 因此,如果我们更改机器学习模型,则顺序将保持不变,并且条件是没有预测的概率将保持不变。

Therefore, we can’t compare 2 Machine Learning models with the AUC-ROC technique.

因此,我们无法将两种机器学习模型与AUC-ROC技术进行比较

So, this is the reason for the limitation of the AUC-ROC curve. I hope, I’ve explained it properly. So, with this, we can complete our discussion on the evaluation metrics for classification problems.

因此,这就是限制AUC-ROC曲线的原因。 希望我已经正确解释了。 因此,这样就可以完成对分类问题评估指标的讨论。

In this article, we have discussed the reason for the limitation of the AUC-ROC technique. But, before going to evaluation metrics, there are several important topics or steps like model training, data exploration, Feature Engineering, Data Analysis, etc. In the future, I will post more articles on these topics. Till then, stay tuned.

在本文中,我们讨论了限制AUC-ROC技术的原因。 但是,在评估指标之前,有几个重要的主题或步骤,例如模型训练,数据探索,特征工程,数据分析等。将来,我将针对这些主题发布更多文章。 直到那时,请继续关注。

翻译自: https://medium.com/@sidgoyal2014/limitations-of-auc-roc-technique-820e97a55b1d

roc-auc


http://www.taodudu.cc/news/show-1874064.html

相关文章:

  • 根据吴安德(斯坦福大学深度学习讲座),您应该如何阅读研究论文
  • ibm watson_使用IBM Watson Assistant构建AI私人教练-第1部分
  • ai会取代程序员吗_机器会取代程序员吗?
  • xkcd目录_12条展示AI真相的XKCD片段
  • 怎样理解电脑评分_电脑可以理解我们的情绪吗?
  • ai 数据模型 下载_为什么需要将AI模型像数据一样对待
  • 对话生成 深度强化学习_通过深度学习与死人对话
  • 波普尔心智格列高利心智_心智与人工智能理论
  • 深度学习计算机视觉的简介_商业用途计算机视觉简介
  • slack 聊天机器人_使用Node.js和Symanto的Text Analytics API在Slack中创建情感机器人
  • c语言八数码问题启发式搜索_一种快速且简单的AI启发式语言学习方法
  • 机器学习库线性回归代码_PyCaret回归:更好的机器学习库
  • 元学习:学习学习
  • 深度学习去雨论文代码_将深度学习研究论文转换为有用的代码
  • r-cnn 行人检测_了解对象检测和R-CNN。
  • 情态 语态_情绪与情态与对话情感
  • gan loss gan_我的GAN怎么了?
  • h5py group_人工智能驱动的零售:H&M Group如何做到
  • openai-gpt_GPT-3的不道德故事:OpenAI的百万美元模型
  • 通话时自动中断音乐播放_您知道用户在何处以及为何中断通话吗?
  • 机器视觉科学计算可视化_模因视觉:对模因进行分类的科学
  • 人工智能与自动驾驶汽车_自动驾驶汽车中的道德AI
  • 是你渡过人生难关的助力_人工智能将助力安全返回工作场所。 这是如何做
  • 机器学习 流式特征_Web服务与实时机器学习端点的流式传输
  • 算法 博士_Strangecode博士-我如何学会不再担心并喜欢算法
  • 妲己机器人功能_来自机器人影响者的5个功能强大的Instagram教训
  • 创建dqn的深度神经网络_深度Q网络(DQN)-I
  • dis 密集光流_密集光流估计的自监督注意力机制
  • 意图识别 聊天机器人_如何解决聊天机器人中的意图冲突
  • «构建并破坏它»:某些算法如何生成验证码,而另一些则如何破解

roc-auc_AUC-ROC技术的局限性相关推荐

  1. 区块链技术的局限性在什么地方?

    随着大多数创新从远古时代开始,区块链技术开始像野火一样蔓延.随着采用的增加,这些技术的局限性开始浮出水面.技术限制本身并不是一件坏事,它只会让开拓者们单挑卷起袖子并完成工作以帮助改进技术. 以下是区块 ...

  2. 物联网技术的局限性。

    物联网技术的局限性.不同场景间的物体对网络速率.覆盖要求.链接数量差异巨大.没有一种技术可以端到端.全方位的满足物联网不同应用场景之间的差异化需求.以无人驾驶与家里的水电表为例,他们对网络性能需求是两 ...

  3. R语言使用yardstick包的roc_curve函数评估多分类(Multiclass)模型的性能、查看模型在多分类每个分类上的ROC曲线(roc curve)

    R语言使用yardstick包的roc_curve函数评估多分类(Multiclass)模型的性能.查看模型在多分类每个分类上的ROC曲线(receiver operating characteris ...

  4. 用matlab画出M1和M2的ROC曲线,ROC曲线及其matlab实现ROC曲线的绘画

    ROC曲线(Receiver Operating Characteristic Curve)是利用Classification模型真正率(True Positive Rate)和假正率(False P ...

  5. 韵乐x5最佳参数手动_4种超参数调整技术及其局限性

    每个数据科学家都应该知道的主流的超参数调整技术 导读 ML工作流中最困难的部分之一是为模型找到最好的超参数.ML模型的性能与超参数直接相关.超参数调优的越好,得到的模型就越好.调优超参数可能是非常乏味 ...

  6. 信息隐写--1998年出版高被引论文--on the limits of steganography隐写技术的局限性

    这篇文章中出现最多的就是"囚犯问题"这个例子,在阅读论文中,结合这个例子及其变形来理解,可以更容易理解作者想要表达的意思.全文没有一张图,一共8页...看了好几天才看完 intro ...

  7. 你想知道的“ROC曲线”

    本文转自"态昌基因",已获授权. Science这篇文章关注了非洲马拉维儿童 营养不良与肠道菌群及肠粘膜免疫功能之间的关系,发现以特定细菌为靶点的lgA对于儿童营养不良的诊断及治疗 ...

  8. ROC和DO的双重设计:打造出支付领域的重磅产品

    区块链一直都有"落地应用" 在区块链行业发展的这些年,已经有了越来越多的业务场景,比如最初的比特币在如今逐渐扮演了支付的角色,再就是以智能合约和可编程语言为主的以太坊,其生态内的D ...

  9. 百面机器学习 #2 模型评估:0102 精确率与召回率,假阳性与真阳性率,PR曲线和ROC曲线

    文章目录 1. P-R(Precision-Recall)曲线 F1 score 2. 平方根误差的局限性 3. ROC曲线 ROC曲线绘制 4. AUC predict Positive predi ...

  10. R语言ROC曲线下的面积 - 评估逻辑回归中的歧视

    我们围绕ROC曲线技术进行一些咨询,帮助客户解决独特的业务问题.在讨论ROC曲线之前,首先让我们在逻辑回归的背景下考虑校准和区分之间的区别. 相关视频:R语言逻辑回归(Logistic回归)模型分类预 ...

最新文章

  1. vc6.0快捷键大全- -
  2. linux——shell 中的运算
  3. CodeForces - 1316C Primitive Primes(构造+数论)
  4. [Java基础]字符流读写数据的方式
  5. Javaweb---监听器
  6. LINQ能不能用系列(一)LINQ to Object 效率比对
  7. Java复习总结(二)Java SE 面试题
  8. swift -懒加载创建view
  9. 【图像边缘检测】基于matlab拉普拉斯算法图像边缘检测与增强【含Matlab源码 456期】
  10. mail安全性与加密
  11. 【ArcGIS微课1000例】0033:地图点状标记符号设计教程
  12. MAX30102 高灵敏度脉搏氧器和心率传感器说明书
  13. 远离奸商-查看CPU信息是否被修改
  14. PDF如何旋转页面,PDF旋转页面的操作方法
  15. iPhone开发技巧之调试 — 程序Crash后的调试技巧
  16. C++ async future deferred
  17. 【Linux4.1.12源码分析】协议栈gro收包之MAC层处理
  18. 什么是内联电子商务_什么是电子商务
  19. 网络工程系统集成模型
  20. 三人英语计算机主题口语对话,计算机英语Web Quest主题教学思路(共3641字).doc

热门文章

  1. Codeforces 15C Industrial Nim 简单的游戏
  2. STM32F4 DMA2D_R2M
  3. jquery插件整理篇(九)数据验证类
  4. C++ Lib的生成与调用 生成dll,lib快速的寻找方法
  5. tinyxml读xml文件
  6. Atitit code for biz lst idx项目分析法,包括模块分析,与模块位置idx数据库分析 数据表的分类 日志表不断增长(包括用户表,订单表等)。。元数据表表 基本不增长。。。
  7. Atitit cio之道 attilax著 2. CIO是企业组织很重要的一个官员,未来就靠信息取胜了 1 3. Cio职责 2 3.1. 企业信息化 对信息技术的利用来实现组织攻略目标 2 3
  8. Atitit 互联网技术公司防爆指南技术规范标准流程 30个危险物品
  9. paip.操作符重载的缺失 Java 的一个大缺点
  10. (转)AI泡沫已现:资金多而项目缺,周期长而营收难