来源:专知
本文为论文,建议阅读5分钟本文对标记增强进行研究。

来自东南大学徐宁的博士论文,入选2021年度“CCF优秀博士学位论文奖”初评名单!

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

机器学习中的标记增强理论与应用研究

标记端多义性是当今机器学习的热点问题。多标记学习中,每个样本都被赋予一组 标记子集来表示其多种语义信息。然而,标记强度差异现象在多义性机器学习任务中广 泛存在,而既有多标记学习研究中普遍采用的相关/无关两个子集的逻辑划分法几乎完 全忽视了这种现象,造成学习过程中不可避免的信息损失。针对这一突出问题,有必要 用一种称为标记分布的标注结构来代替逻辑标记对示例的类别信息进行描述。标记分布 通过连续的描述度来显式表达每个标记与数据对象的关联强度,很自然地解决了标记强 度差异的问题,而在以标记分布标注的数据集上学习的过程就称为标记分布学习。由于 描述度的标注成本更高且常常没有客观的量化标准,现实任务中大量的多义性数据仍然 是以简单逻辑标记标注的,为此本文提出了标记增强这一概念。标记增强在不增加额外 数据标注负担的前提下,挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化 为标记分布。

本文对标记增强进行研究,主要工作包括:构建标记增强基础理论框架。该理论框架回答了以下三个问题:第一,标记增强所 需的类别信息从何而来?即标记分布的内在生成机制;第二,标记增强的结果如何评价?即标记增强所得标记分布的质量评价机制;第三,标记增强为何有效?即标记增强对后 续分类器的泛化性能提升机制。理论分析和实验结果验证了标记增强的有效性。

提出一种面向标记分布学习的标记增强专用算法。以面向标记分布学习的标记增强 为目标专门设计的算法十分重要,其关键是如何设计能够充分挖掘数据中隐藏的标记信 息的优化目标函数。因此,本文提出一种面向标记分布学习的标记增强方法 GLLE。该 方法利用训练样本特征空间的拓扑结构以及标记间相关性,挖掘了标记强度信息,从而 生成了标记分布。实验结果验证了 GLLE 对逻辑标记数据集进行标记增强处理后使用标 记分布学习的有效性。

标记增强在其他学习范式上的应用。本文提出了基于标记增强的多标记学习方法 LEMLL,该方法将标记增强与多标记预测模型统一到同一学习目标中,使得预测模型可 以在更为丰富的监督信息下进行训练,有效地提升了学习效果。本文提出了基于标记增 强的偏标记学习方法 PLLE,该方法利用标记增强恢复候选标记的描述度,使得后续的 学习问题转化为多输出回归问题。在多标记数据集和偏标记数据集上的实验结果显示, 相较于对比算法,基于标记增强方法取得了显著更优的表现。

【博士论文】机器学习中的标记增强理论与应用研究相关推荐

  1. VALSE学习(六):机器学习中的标记分布与标记增强

    VALSE2019 机器学习中的标记分布与标记增强 许多机器学习任务都可以泛化为对给定的示例预测不同标记的描述度(即标记描述示例的程度), 而所有标记对一个示例的描述度构成该示例的标记分布,在以标记分 ...

  2. 图机器学习中的数据增强技术

    文稿整理者:张琳 审稿&修改:赵通 本人总结来自圣母大学的博士生赵通在深蓝学院分享的"图机器学习中的数据增强技术"公开课.通过介绍图机器学习的概念,发展历程等,以及分享两篇 ...

  3. 一、博士论文写作中的方法和思想

    本文翻译自微软网站 http://research.microsoft.com/en-us/um/people/simonpj/papers/giving-a-talk/giving-a-talk.h ...

  4. 对于机器学习中,数据增强

    众所周知,数据对机器学习来说是那么的重要,但是我们通常因为各种原因得不到 理想的数据量,这时候我们就想到进行数据增强.比如添加噪声,左右镜像,随机crop 一部分等,但是有一点要注意的,就是要记住我们 ...

  5. 机器学习中的凸优化理论

    凸优化课程 优化问题 定义:从一个可行解中找到一个最好的元素. 通常来说优化问题都可以写成如下的形式: 最小化目标函数: m个约束函数: 凸规划与非凸规划 凸规划满足: 凸规划都是相对容易解决的,非凸 ...

  6. 一文介绍机器学习中的三种特征选择方法

    作者 | luanhz 来源 | 小数志 导读 机器学习中的一个经典理论是:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.也正因如此,特征工程在机器学习流程中占有着重要地位.广义的特征 ...

  7. 如何写_如何写博士论文?博士生如何写期刊论文?

    一.博士论文具体内容 第一,选题的意义,包括理论和实践上的意义.首先,要说明选题在理论上可能会有什么样的贡献,要说清楚这一点实际上对同学的要求是很高的,因为只有充分掌握了相关的文献以及对于这个领域中的 ...

  8. 信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公布...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 这篇博士论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者 ...

  9. 专访清华裘捷中:亚洲高校首个KDD最佳博士论文奖是如何炼成的?

    AMiner x 量子位 发自 凹非寺 量子位 | 公众号 QbitAI 今年的KDD最佳博士论文奖RUNNER UP,由毕业于清华大学的裘捷中博士斩获. 值得一提的是,这是亚洲高校的学者首次获此殊荣 ...

最新文章

  1. oracle创建DBLink连接
  2. CCF NOI1150 确定进制
  3. 【JUC】第三章 多线程锁、CallableFuture 接口
  4. 解析对象体内与方法体内引用内部方法的不同
  5. 用Python学分析:集中与分散
  6. 2020-06-28
  7. 一名优秀的数据分析师应该具备这10项关键技能
  8. 转录组测序分析项目及方法汇总(更新中)
  9. mysqldump: Got error: 1168 differently defined non-MyISAM LOCK TABLES
  10. sql注入危害利用及防护详解+sqlmap使用
  11. JAVA中GUI在Button中设置中文乱码问题
  12. 使用Python爬取豆瓣电影 Top 250
  13. 涂鸦Wi-FiBLE SoC开发幻彩灯带(6)----幻彩灯带功能演示
  14. 无聊的小明来数1 (5 分)...按位与
  15. mysql类型转换及小数点保留问题(cast函数)
  16. UML建模(三种模型)
  17. 生活多快乐:笑死爹的程序段子
  18. 疯狂Java讲义(七)----第二部分
  19. 日期时间格式 - 助手类[方法] - 收集
  20. C++ QT结合FFmpeg实战开发视频播放器-08播放器项目的整体UI架构

热门文章

  1. 利用classloader同一个项目中加载另一个同名的类_线程上下文类加载器ContextClassLoader内存泄漏隐患...
  2. centos6重启网络命令_虚拟机-linux系统中图形界面和命令行界面切换
  3. ORACLE导入Excel数据
  4. 前端技术周刊 2019-01-07:CSS 动画
  5. 计算机及Linux基础简介
  6. 《iOS 6高级开发手册(第4版)》——1.11节秘诀:获取和使用设备姿势
  7. SQL优化的一些知识
  8. IOS个人开发者账号注册
  9. DLL(MFC)通过Window消息向C#程序传递数据
  10. OpenGL材质和光照(转)part2