2019-11-17 04:33:27

AI科技评论获授权转载自北京大学前沿计算研究中心

本文是第三十三届神经信息处理系统大会(NeurIPS 2019)入选论文《L_DMI:一种对噪音标注鲁棒的基于信息论的损失函数(L_DMI: A Novel Information-theoretic Loss Function for Training Deep Nets Robust to Label Noise)》的解读。该论文由北京大学前沿计算研究中心助理教授孔雨晴博士和北京大学数字视频编解码技术国家工程实验室教授、前沿计算研究中心副主任王亦洲共同指导,由2016级图灵班本科生许逸伦、曹芃(共同一作)合作完成。

Arxiv link: https://arxiv.org/abs/1909.03388

Code link: https://github.com/Newbeeer/L_DMI

简介

噪音标注(noisy label)是机器学习领域的一个热门话题,这是因为标注大规模的数据集往往费时费力,尽管在众包平台上获取数据更加快捷,但是获得的标注往往是有噪音的,直接在这样的数据集上训练会损害模型的性能。许多之前处理噪音标注的工作仅仅对特定的噪音模式(noise pattern)鲁棒,或者需要额外的先验信息,比如需要事先对噪音转移矩阵(noise transition matrix)有较好的估计。我们提出了一种新的损失函数,,它是基于一种新的互信息,DMI(Determinant based Mutual Information)设计的。DMI 是一种对香农互信息(Shannon Mutual Information)的推广,它不仅像香农互信息一样满足信息单调性(information-monotone),还满足相对不变性(relatively-invariant)等性质。 是首个不仅对噪音模式没有限制,并且能够无需先验信息而直接应用到任何现存的用于分类的神经网络中的损失函数。实际上,当噪音满足条件独立(conditional independence)假设时,即噪音标签和具体数据条件独立时,我们有下列等式成立:

这意味着,理论上,用 作为损失函数在噪音标注上训练分类器和在正确标注(clean label)上训练分类器没有区别。

之前,人们使用的损失函数仅仅对特定的噪音模式鲁棒。原因之一,是它们往往都是基于距离的(distance-based),比如 cross entropy loss,0-1 loss,MAE loss 等等,也就是说,这些损失函数定义的是分类器的输出和标签之间的一种距离。因此,如果标注者对某一分类具有很强的倾向,比如一个能力较低的标注者在标注医疗数据时,因为他知道大部分数据是良性的,所以他把所有良性的数据都标成了良性的,并且把90%的恶性的数据也标成了良性的。这样,我们收集到的标签就极其倾斜于良性这个分类,也就是有了对角线不主导(diagonally non-dominant)的噪音模式。在这种情况下,如果使用基于距离的损失函数,那么一个把所有数据都分类到良性的分类器就会比一个把所有数据都分类到真实标签的分类器有更小的损失函数值。

而不同于那些基于距离的损失函数,我们使用的是基于信息论的损失函数(information-theoretic loss function),即我们希望输出和标签之间有最高的互信息的分类器具有最低的损失函数值。这样,那个把所有数据都分类到良性的分类器由于和标签的互信息为零,就会有很高的损失函数值而被淘汰。但仅这一点是不够的,实际上我们希望的是找到一个信息测度 I,满足下列性质:

也就是说,这个信息测度在噪音标注(noisy label)上对分类器的序应该与其在正确标注(clean label)上对分类器的序相同。然而,香农的互信息不满足以上性质。

本文方法

我们使用了基于两个离散随机变量的联合分布矩阵的行列式的互信息 DMI[1]。它不仅保留有香农互信息的一些性质,还能够满足我们需要的上述性质。它的正式定义为:

定义:(基于行列式的互信息)给定两个离散随机变量 W1,W2,我们定义 W1,W2 间基于行列式的互信息(Determinant based mutual information)如下:

其中,

是 W1,W2 联合分布的矩阵表示。

即 DMI 可以看成是两个取值范围相同的离散随机变量的联合分布矩阵的行列式的绝对值。

DMI 之所以满足上述性质,是因为如下定理[1]:

定理(DMI 的性质):DMI 非负,对称并且满足信息单调性。此外,它满足相对不变性:对于任意的随机变量 W1,W2,W3,当 W3 与 W2 关于 W1 条件独立,那么有:

其中,

由于实际中变化的只有分类器的输出 W2, 因此矩阵 T 是固定的。DMI 的这种代数结构使得我们能够在噪声信道 (T) 固定的情况下,分别衡量分类器输出 W2 与信道输入 W1、信道输出 W3 的 DMI。由于 T 固定,因此 DMI 自然满足上文提到的分类器的序的性质。我们在论文的主定理中证明了这个代数结构使得 DMI 所对应的损失函数能够对噪声鲁棒。

基于 DMI,我们定义了的一种易于优化 DMI 的损失函数 :

其中,

是 h(X) 和的联合分布;

是的 C×C 的矩阵形式。h(X) 的的随机性来自于 h 和随机变量 X。

即分类器的输出 h(X) 与噪音标注之间的 -log-DMI。在实际中,DMI 可以通过矩阵乘积快速计算,如下图所示:

在数据 X 和噪音标注在真实标签 Y 的条件下相互独立和噪音转移矩阵满秩条件下,由上面定理的结论,我们在文章的主定理中证明了 是合理的(legal)、噪音鲁棒的(noise-robust)和信息单调的(information-monotone)。其中噪音鲁棒这一重要性质能够使得我们用 作为损失函数时,在带噪音标签和在不带噪音的标签的数据集上训练得到的最优分类器相同,也满足文首所提的性质。

实验结果

我们的方法在人工合成的数据集上和真实的数据集(Clothing 1M)上都取得了 state-of-the-art 的结果,并且在对角线不主导(diagonally non-dominant)的噪声模式(noise pattern)中优势明显。

Reference:

[1] Y. Kong, "Dominantly Truthful Multi-task Peer Prediction with a Constant Number of Tasks," to appear in SODA, 2020.

NeurIPS 2019 | 一种对噪音标注鲁棒的基于信息论的损失函数相关推荐

  1. ICCV2021 Oral SimROD:简单高效的数据增强!华为提出了一种简单的鲁棒目标检测自适应方法...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨小马 来源丨我爱计算机视觉 ▊ 写在前面 本文提出了一种简单有效的鲁棒目标检测无监督自适应方法( ...

  2. 44种模型、1200种子网,RobustART评测CNN、Transformer、MLP-Mixer谁最鲁棒?

    来源:机器之心本文约3600字,建议阅读7分钟 本文为你分享一个全面.标准的模型鲁棒性评估的开源平台和框架. 来自北航.商汤科技和京东探索研究院等机构的研究者提出了第一个在大规模数据集 ImageNe ...

  3. 浅谈UML中常用的几种图——鲁棒图

    什么是鲁棒图 鲁棒图包含 3 种元素(如图 8-2 所示),它们分别是边界对象.控制对象.实体对象: 边界对象对模拟外部环境和未来系统之间的交互进行建模.边界对象负责接收外部输入,处理内部内容的解释, ...

  4. 【论文摘要】基于多数投票模式和超混沌加密的彩色图像鲁棒安全零水印算法

    Robust and secure zero-watermarking algorithm for color images based on majority voting pattern and ...

  5. 基于平面几何精确且鲁棒的尺度恢复单目视觉里程计

    标题:Accurate and Robust Scale Recovery for Monocular Visual Odometry Based on Plane Geometry 作者:Rui T ...

  6. 基于鲁棒图进行概念架构设计

    ADMEMS方法归纳了鲁棒图建模的10条经验要点,分别覆盖语法,思维,技巧,注意事项等4个方面. 鲁棒图建模的10条经验. 1.遵守建模规则. 通过以下4条语句,可以理解该图的本质: 1.1 参与者只 ...

  7. Patchwork++论文阅读——基于3D点云的快速鲁棒地面分割算法

    文章目录 摘要 1. 介绍 2. 相关工作 A. 基于学习的地面分割方法 B. 传统的地面分割方法 C. 地面分割的应用 3. PATCHWORK++:快速.稳健.自适应的地面分割 A. 问题定义 B ...

  8. 鲁棒的激光雷达与相机标定方法

    点云PCL免费知识星球,点云论文速读. 文章:Optimising the selection of samples for robust lidar camera calibration 作者:Da ...

  9. 将特定像素点在图像上连接起来_(NeurIPS 2019) Gated CRF Loss-一种用于弱监督图像语义分割的新型损失函数...

    本文已经被NeurIPS 2019(2019 Conference and Workshop on Neural Information Processing Systems)接收,论文为弱监督图像语 ...

最新文章

  1. 深入浅出Spring Security(二):FilterChainProxy的创建过程
  2. Hibernate save, saveOrUpdate, persist, merge, update 区别
  3. php 时间函数参考
  4. leetcode 686. Repeated String Match | 686. 重复叠加字符串匹配(KMP)
  5. mysql select array_从数据库select查询出来的数组
  6. Ansible执行过程分析、异步模式和速度优化
  7. 手写一个promise用法_手写一个自己的 JavaScript Promise 类库
  8. [POJ1469 COURSES]
  9. java哪个软件编程好学吗_自学编程:Java和C语言相比哪个好?哪个更值得学习?...
  10. 一些学习的网址和资料
  11. 程序员浪费生命的几种方式
  12. 将Unity项目改为aar模块
  13. 基于物联网的多传感器远程温度监测系统
  14. Unity导入Goolgle.Protobuf.dll报错
  15. 2021-2027全球与中国单向拉伸聚丙烯薄膜市场现状及未来发展趋势
  16. python编写电子菜单_python 写三级菜单
  17. L1正则化、L2正则化的多角度分析和概率角度的解释
  18. Apple Pay 在线远程支付
  19. Python入门学习笔记
  20. 论强势文化的属性---来自心灵的呼唤

热门文章

  1. Python正则表达式:match(),search(),findall()与finditer()的用法
  2. @ResponseBody注解作用
  3. 20、30、40岁年轻人,2020年的建议 转载
  4. 最好机器学习NLP和python教程
  5. 学习统计学要掌握哪些知识
  6. Http Digest认证协议
  7. 图灵奖得主Judea Pearl 智源大会演讲:从“大数据革命”到“因果革命”
  8. UIUC翟成祥教授:用文本透镜拓展人类智能
  9. 互联网刚刚年满50,发明它的那个人却「后悔」了
  10. 4月书讯:迟来的告白