点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散

编辑:Sophia
计算机视觉联盟  报道  | 公众号 CVLianMeng

转载于 :AI科技评论

【人工智能资源(书籍+视频)全网收集,附下载!】

推荐文章【点击下面可直接跳转】:

如何快速下载不同网站文档!

AI博士笔记系列推荐:

博士笔记 | 周志华《机器学习》手推笔记“神经网络”

编译 | 翻译官balala

编辑 | 丛末

对于机器学习而言,区分异常数据或有显著差异数据至关重要。谷歌在 NeurIPS 2019 论文中提出并发布了针对基因组序列 OOD 检测的现实基准数据集,进而提出一种基于似然比的解决方案,可显著提高 OOD 检测的准确性。

深度学习科学家要成功部署机器学习系统,需要系统能够区分出异常数据或与训练中使用的数据有显着差异的数据。

由于深度神经网络分类器可能会将以高置信度将分布外(ODD)的输入分类到分布内的类别中,因此区分异常数据或有显著差异数据是十分重要的。当我们利用这些预测为现实决策提供依据时,异常数据检测将尤为重要。

例如,将机器学习模型应用于基于基因组序列的细菌检测,就是一项具有挑战性的现实应用。细菌检测对于败血症等传染病的诊断和治疗,以及食源性病原体的鉴定都非常关键。

近些年来,随着新细菌种类不断被发现,虽然基于已知分类训练的神经网络分类器通过交叉验证达到了很高的测量准确性,但部署模型仍具有高的挑战性,因为现实数据在不断进化发展,并且将不可避免地包含以往训练数据中从未出现过的基因组(OOD 输入)。

图1 :近些年来,随着新的细菌种类逐渐地被发现。将已知的分类数据输入基于已知分类数据训练的分类器能够达到很高的准确性,这是因为输入的分类数据是已知的,但它可能将已知分类数据中混合了未知分类数据(如:ODD 数据)的输入进行错误的分类,并且具有很高的置信度。

在 NeurIPS 2019 发表的论文《分布外检测的似然比》(Likelihood Ratios for Out-of-Distribution Detection)中,谷歌受到上述新细菌种类检测这类现实问题的启发,提出并发布了针对基因组序列 OOD 检测的现实基准数据集。

  • 论文地址:https://arxiv.org/abs/1906.02845

  • 实现代码 GitHub 地址:https://github.com/google-research/google-research/tree/master/genomics_ood

他们利用基于基因组序列的生成模型测试了 OOD 检测的现有方法,发现似然值——即输入来自使用分布不均数据进行估算的分布数据的模型概率——通常是错误的。在最近的图像深度生成模型研究工作中,他们也观察到了这种现象,并通过统计背景影响来解释这种现象,进而提出一种基于似然比的解决方案,可以显著地提高 OOD 检测的准确性。

一、为什么密度模型无法应用于 OOD 检测?

为了模拟实际问题并系统地评估不同的方法,他们建立了一个新的细菌数据集,使用的数据来自美国国家生物技术信息中心(NCBI )对外开放的原核生物目录基因组序列数据。

为了模拟测序数据,他们将基因组片段化为当前测序技术通常使用的 250 个短序列长度的碱基对。然后,其将分布内和分布外的数据按发现日期进行分离,以便截止时间之前被发现的细菌种类被定义在分布内,在之后发现的被定义为分布外(OOD) 。

然后,他们基于分布内的基因组序列训练深度生成模型,通过绘制似然值曲线,检验模型辨别输入的分布内和分布外数据的能力。 OOD 序列似然值的直方图与分布内序列似然值高度重合,则表明生成模型无法区分在两个种类之间进行的 OOD 检测结果。

在图像深度生成模型的早期研究中(相关阅读参考:https://arxiv.org/abs/1810.09136)也得到了类似的结论。例如,利用 Fashion-MNIST 数据集(由衣服和鞋类的图像组成)训练 PixelCNN ++ 模型,比来自 MNIST 数据集(包括数字0-9的图像)的 OOD 图像分配了更高的似然值。

图2   左:分布内和分布外(OOD)基因组序列的似然值直方图。 似然值未能分辨出分布内和OOD基因组序列。 右:Fashion-MNIST 数据集训练模型、MNIST 数据集估计的似然值直方图。 模型在OOD(MNIST)图像上比在分布内图像分配了更高的似然值。

在研究这种失败模型时,他们观察到背景统计可能影响了似然值的计算。为了更直观地理解该现象,假设输入由两个部分组成:(1)以背景统计为特征的背景成分,(2)以指定于分布内数据专用的模式为特征的语义成分。

例如,可以将 MNIST 图像建模为背景加语义。当人类解读图像时,可以轻松地忽略背景信息而主要关注语义信息,例如下图中的“ /”标记。但是当为图像中的所有像素计算似然值时,计算结果中同时包括了语义像素和背景像素。虽然他们只需使用语义的似然值进行决策,但原始的似然值结果中可能大多数都是背景成分。

图3   左上:Fashion-MNIST 的示例图像。 左下:MNIST 的示例图像。 右:MNIST 图像中的背景和语义成分。

二、OOD 检测的似然比

他们提出了一种去除背景影响并专注于语义成分的似然比方法。

首先,受遗传突变的启发,他们利用扰动输入方法训练背景模型,并通过随机选择输入值的位置,将其替换为另一个具有相等概率的值。为了成像,他们从从256个可能的像素值中随机选择输入值;针对DNA 序列,他们从四个可能的核苷酸(A,T,C或G)中选出输入值。此过程中,适量的扰动会破坏数据的语义结构,导致只能捕获到背景。

接着,他们计算完整模型与背景模型之间的似然比,去掉了背景成分,这样就只保留了语义的似然值。似然比是背景对比得分,即它抓住了语义与背景对比的意义。

为了定性评估似然值与似然比之间的差异,他们绘制了在 Fashion-MNIST 数据集和 MNIST 数据集中每个像素的似然值和似然比值,创建了与图像相同的尺寸的热图。

这使他们可以分别直观地看到哪些像素对于这两项值的贡献最大。从对数似然热图中可以看到,对于似然值而言,背景像素比语义像素的贡献更多。

事后看来这并不足为奇,这是由于背景像素主要由一连串零组成,因此很容易被模型学习。

MNIST 和 Fashion-MNIST 热图之间的比较则说明了为什么 MNIST 返回更高的似然值——仅仅是因为它包含了更多的背景像素!相反,似然比的结果更多地集中在语义像素上。

图4   左:Fashion-MNIST 和 MNIST 数据集的对数似然热图。 右:Fashion-MNIST 和 MNIST 数据集的似然比热图,具有更高值的像素会具有更浅的阴影。 似然值主要由“背景”像素决定,而似然比则集中在“语义”像素上,因此更适合用于 OOD 检测。

这种似然比方法修正了背景影响。他们基于 Fashion-MNIST 训练 PixelCNN ++ 模型,然后在 MNIST 图像数据集进行 OOD 检测,实验结果得到了显著改善,AUROC 评分从 0.089 提高至 0.994 。

当他们将似然比方法应用于基因组基准数据集这一极具挑战的问题时,对比其它 12 种基线方法,该方法表现出了最佳性能。

不过他们也表示,尽管该似然比方法在基因组数据集上达到了最先进的性能,但离将模型部署到实际应用中的高准确性要求仍存在一定距离。 他们鼓励研究人员努力去解决这一重要问题,并改善当前的最新技术。

via:

https://ai.googleblog.com/2019/12/improving-out-of-distribution-detection.html

END

声明:本文来源于网络

如有侵权,联系删除

联盟学术交流群

扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

最新热文荐读

GitHub | 计算机视觉最全资料集锦

Github | 标星1W+清华大学计算机系课程攻略!

Github | 吴恩达新书《Machine Learning Yearning》

收藏 | 2020年AI、CV、NLP顶会最全时间表!

收藏 | 博士大佬总结的Pycharm 常用快捷键思维导图!

收藏 | 深度学习专项课程精炼图笔记!

笔记 | 手把手教你使用PyTorch从零实现YOLOv3

笔记 | 如何深入理解计算机视觉?(附思维导图)

笔记 | 深度学习综述思维导图(可下载)

笔记 | 深度神经网络综述思维导图(可下载)

点个在看支持一下吧

NeurIPS | 谷歌使用机器学习如何做好分布外异常检测相关推荐

  1. 机器学习如何做好分布外异常检测?谷歌这篇 NeurIPS 2019 论文提出了方法

    2019-12-30 10:16:57 编译 | 翻译官balala 编辑 | 丛末 对于机器学习而言,区分异常数据或有显著差异数据至关重要.谷歌在 NeurIPS 2019 论文中提出并发布了针对基 ...

  2. FYD-Focus Your Distribution-关注你的分布:异常检测和定位的从粗到细的非对比性学习-FYD

    论文翻译: Focus Y our Distribution: Coarse-to-Fine Non-Contrastive Learning for Anomaly Detection and Lo ...

  3. 机器学习(十五)异常检测

    文章目录 Log 一.问题动机(Problem motivation) 1. 直观理解异常检测 2. 正式定义异常检测 3. 异常检测应用案例 ①欺诈检测 ②工业生产领域 ③数据中心的计算机监控 二. ...

  4. 吴恩达机器学习(二十七)异常检测、高斯分布

    目录 1.异常检测 2.高斯分布 3.异常检测VS监督学习 4.选择要使用的功能 5.多变量高斯分布以及它在异常检测中的应用 1.异常检测   这一章中将介绍异常检测问题,这是机器学习算法的常见应用, ...

  5. 基于机器学习的UEBA在账号异常检测中的应用

    UEBA UEBA是一种采用高级数据分析方法.面向用户和实体网络行为,进行异常检测和调查的技术,也是安全智能分析切入点. U:表示用户(User),UEBA不是一般的安全分析,而是以分析用户活动为首要 ...

  6. 机器学习笔记十二之异常检测

    本节目录 1 问题的动机 2 高斯分布 3 开发和评价一个异常检测系统 4 异常监测与监督学习对比 5 选择特征 6 多元高斯分布 7 多元高斯分布进行异常检测 1 问题的动机 我们先看下什么是异常检 ...

  7. 入门机器学习(二十)--编程作业-异常检测和推荐系统(Python实现)

    编程作业–异常检测和推荐系统 在本练习中,我们将使用高斯模型实现异常检测算法,并将其应用于检测网络上的故障服务器. 我们还将看到如何使用协作过滤构建推荐系统,并将其应用于电影推荐数据集. Anomal ...

  8. 机器学习第六回——降维+异常检测

    降维 目的 数据压缩.从而使用较少的计算机内存或磁盘空间,并且让我们加快我们的学习算法. 例如:从二维降到一维 数据可视化.由于多为(例如50维)的数据是不可以进行可视化的,利用降维的方法把它降到2维 ...

  9. 人工智能-机器学习:Anomaly Detection(异常检测)

    一.什么是 Anomaly(异常) Anomaly Detection,也叫做 异常检测,目的在于让机器知道我所不知道的事情. 虽然说是 异常,但其实是以训练集为核心,判断输入数据是否与训练集中的数据 ...

最新文章

  1. 2021-03-02 英文写作中的“但是”
  2. 利用A、G、DL、P策略来管理网络资源访问权限
  3. 自然语言处理综述_自然语言处理
  4. 【Splay】波动值之和(金牌导航 Splay-1)
  5. php mysql.so 下载_Linux安装php-mysql提示需要:libmysqlclient.so.18()(64bit)的解决办法-Go语言中文社区...
  6. Java并发(一)——线程安全的容器(上)
  7. 如何在Scala中使用条件表达式
  8. Bookshelf 2 POJ - 3628(01背包||DFS)
  9. c语言函数怎么返回,C语言函数的返回值应该怎么返回
  10. 中国汽车改装行业运营模式分析及投资战略规划研究报告2021年版
  11. 鹰式价差matlab,期权的价差(2):比例价差、圣诞树型价差
  12. 微信个人号有哪些好玩的自动回复?自动回复话术分享
  13. 今天,腾讯云总裁邱跃鹏表示,云计算发展要迈过三道关……
  14. CDOJ 1131 男神的礼物 区间dp
  15. 浏览器网络异常导致JS文件请求失败的问题及处理
  16. mysql视图唯一id_Mysql的视图、存储过程、函数、索引全解析
  17. P1852 跳跳棋(建模LCA)
  18. 中国人离婚率高达76.4%?这些指标背后真实的状况到底是什么样的?
  19. LEAM(生活/生命体验算法模型)
  20. 不同系统下的shell的不同_不同地区不同气候条件下杉木成材时间的区别

热门文章

  1. java cha r转string_JAVA String.format 方法使用介绍
  2. pythontime模块计算时长_用python的time模块查看你出生多长时间了
  3. python安装robotframework报错_robotframework-autoitlibrary离线安装
  4. python最新版安装图集_通过python简单的实现了plist、json图集的切割
  5. 5折交叉验证_交叉验证的方法主要分为哪些?
  6. 怎样在html中插入广告,如何在网页中插入广告代码。
  7. 20180320作业2:进行代码复审训练
  8. Eclipse Oxygen 解决 自动导包的问题
  9. GridView 配合模板实现 合并单元格(多列)
  10. Android 音频均衡器,可通过拖动调节音频EQ