已知每个包中的样本类别所占比例,去预测样本真实标签的机器学习任务是一个有趣且重要的研究方向。近年来随着数据的迅猛增长,该方向的研究内容有了更广泛的应用,如基于特征属性的图像目标分类问题、视频事件检测、视频图像中的多分类问题等。
下面是一篇发表在2019年NIPS的关于比例标签学习问题(Learning from label proportions : LLP)的文章。在深度学习理论基础之上,提出了一种基于熵正则化的LLP学习算法,揭示了先验比例信息与类后验概率之间的关系,并提供了与先验比例信息相关的类似然分解表达式,从而证实了最终分类器的存在性及有效性。实验结果表明,该算法达到了到目前为止在该问题上的最优性能。

LLP学习算法示意图

J.Liu, B. Wang, Z. Qi , Y Tian, Y Shi,Learning from Label Proportions with Generative Adversarial Networks. Advances in Neural Information Processing Systems(NIPS), 2019, 7167-7177.
文章链接:https://arxiv.org/abs/1909.02180
文章代码:https://github.com/liujiabin008/LLP-GAN

LLP的具体实例:
1)辅助生殖技术(assisted reproductive technology (ART)):对于辅助生殖技术。 照流程,胚胎需在试管里培育多日。根据国家法律,每次试验,使用的胚胎数量有严格控制。因此,如何让质量好的受精卵完成着床是医生面临的严峻挑战。目前,医生能观测到的数据包括受精卵的某些信息和特征,同时通过临床图像技术,能够获取受精卵着床的数量。然而,医生并不能通过观察手段来判断哪些受精卵已经着床。需要解决的问题:是否能以最大概率猜出着床的受精卵。

2)基于特征属性的分类问题(Attribute-Based Classification):对于目标分类问题,如果使用机器学习方法对所有的目标都进行模型训练,几乎不可能完成。然而,人类却能快速学习大量目标,同时还能对新生事物加以区分。这主要在于,人类往往能抓住事物的主要特征,来迅速做出判断。例如:北极熊有四只脚,毛发是白色的,斑马的毛发是黑白相间等等。因此,很多学者退而求其次,不直接针对目标建立模型,而是首先建立一些中级特征属性的模型,随后在进一步推断出目标。该思路能够降低建立模型的数量,以便进一步提高图像检索能力。 然而,该方法仍然不能避免对属性模型的标注。 另一种解决方案是通过人类已知的先验知识去建立模型,从而避免掉巨量的标注工作。 例如,对于给定一个多类图像数据集合,如果对某种颜色属性(比如黄色)进行建模,就能把每一种动物的样本集合看成一个包来对待,包中的颜色所占比例可以通过矩阵来获取,这样就能建立一种基于LLP的机器学习模型,进而推断出未来样本所属的标签。

3)视频事件检测(Video Event Detection):从视频中对某些特殊“事件”进行检测,一直是人工智能领域关注的热点。该项技术在消费行为分析、个性化广告、视频监控(比如:检测监狱犯人打架、吸烟等事件)等有着广泛的应用。
对于该问题,传统方法通常将一个视频(video)先转化成一个Bag-of-Word (BoW) 向量,然后再通过模型进行分类。其中,BOW可被分为三个阶段:1)从一个视频片段中提取局部特征(local features),2)将特征量化为codebook,3)将codebook形成全局向量来表达video。然而,在整个视频里,通常只有极少的几帧或者镜头是关于该事件的重要描述,其它的场景片段往往并没有实际意义。如何在未标注的情况下,去找到这些重要的片段,从而构建出更为高效的模型,是非常有意义的研究内容。可行的方案之一是:首先将每个视频视为一个包,然后对每个包,包含的重点片段做最大可能的预测,从而把视频事件检测问题转换成一个标准的LLP学习问题。

4)商业促销活动:在市场消费领域,公司为了增加年销售额,通常会组织打折活动。比如,某公司希望以派发优惠券的形式来招揽客户。拿到优惠券的消费者一般分为三种人群:1)拿到优惠券也不会去购买,该人群可能对产品不感兴趣;2)能不能拿到优惠券,都选择直接去购买,这类人群可能对价格不太敏感;3)只有得到优惠券,才会选择购买,这部分人群可能即对产品感兴趣又精于算计。理想状态下,公司希望把优惠券发给第三类人群。 然而,公司并不清楚消费者所属的具体类别, 只能根据部分消费者的反馈,统计优惠券的使用数量。我们可以通过获取得到的比例信息来对人群进行分类。

一种有趣的弱监督机器学习问题:比例标签学习(Learning from label proportions)相关推荐

  1. CCAI 2017 | 日本理化学研究所杉山将:弱监督机器学习的研究进展

    ​ 日本理化学研究所先进智能研究中心主任杉山将 记者 | JayZhang 7 月 22 - 23 日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主 ...

  2. CCAI 2017 日本理化学研究所先进智能研究中心主任杉山将:弱监督机器学习的研究进展...

    7 月 22 - 23 日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,云栖社区作为独家直播合作伙伴的 2 ...

  3. ICCV2021|武汉大学RSIDEA团队提出一种新颖的弱监督遥感变化检测算法STAR

    关注公众号,发现CV技术之美 论文: https://arxiv.org/pdf/2108.07002.pdf 项目: https://zhuozheng.top/changestar/ 代码: ht ...

  4. 【VALSE 2019 PPT】南开计算机视觉万人计划教授-程明明-《弱监督图像语义分割》学习记录

    摘要: 基于深度卷积神经网络的传统语义分割模型严重依赖于大量人工标注数据,因而在学习新的类别信息时需要庞大的人力成本来标注数据.弱监督语义分割技术,由于仅依赖图像类别标签等轻量级标注数据,也因此正在成 ...

  5. 基于Python的完全监督机器学习教程 Complete Supervised Machine Learning With Python

    这门由行业和学术领袖开设的课程是为那些希望在数据科学领域建立有价值的职业生涯的人开设的 你会学到: 监督学习和非监督学习的原理及其区别. 线性和逻辑回归,决策树,回归树,随机森林,判别分析,支持向量机 ...

  6. 跟我读论文丨ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别

    摘要:本文是对ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别这一论文工作进行初步解读. 本文分享自华为云社区<ACL2021 NER | BERT化隐马尔可夫模型用于 ...

  7. 地表最强VLP模型!谷歌大脑和CMU提出极简弱监督模型

    来源:arxiv 编辑:Priscilla 好困&新智元 [导读]谷歌大脑与CMU华人团队提出全新图像+文本预训练模型SimVLM,在最简单的模型结构与训练方式下也能在6个多模态基准领域达到S ...

  8. 论文浅尝 | 融入知识的弱监督预训练语言模型

    论文笔记整理:叶群,浙江大学计算机学院,知识图谱.NLP方向. 会议:ICLR 2020 链接:https://arxiv.org/pdf/1912.09637.pdf Abstract 预训练语言模 ...

  9. embed 标签怎么嵌入pdf_联合Aspect-Sentiment主题嵌入的弱监督的情感分析(2020年10)

    论文: Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding 作者: ...

  10. 程明明:面向弱监督的图像理解

    点击上方"深度学习大讲堂"可订阅哦! 编者按: 若言琴上有琴声,放在匣中何不鸣? 若言声在指头上,何不于君指上听? 苏轼的<琴诗>暗示了全局认知对于场景理解的重要性.而 ...

最新文章

  1. hdu2236 无题II 最大匹配 + 二分搜索
  2. 网络工程学习资料2---IEEE 802 标准集合
  3. 运行时权限框架YPermission开源
  4. vs code编辑器
  5. 『玩具装箱TOY 斜率优化DP』
  6. OpenGL Drawing Commands绘图命令的实例
  7. 【IT笔试面试题整理】反转链表
  8. 不可忽略的apache 的 Keep Alive
  9. linux部署多个tomcat服务,Linux 一台服务器部署多个tomcat
  10. Python图像处理丨基于OpenCV和像素处理的图像灰度化处理
  11. FZU 2122 又见LKity
  12. oracle sql语句加减,Oracle sql 常用加减法
  13. 【零基础学Python】Day12 Python循环语句
  14. 【Linux】git提交三把斧
  15. 【AIS学习】06:AIS缩略语
  16. 认识很浅的云南最后的秘境
  17. 【ThreeJS】基础教学 创建一个立方体
  18. CATIA CAA二次开发专题(四)------创建自己的Addin
  19. Java基础——LinkedList源码分析
  20. PLC控制技术与组态技术实训装置

热门文章

  1. 串口通信校验方式(even,odd,space,mark)UART数据波形分析
  2. 知乎|10个程序员必备免费电子书下载网站
  3. 安卓仿苹果音量调节_安卓不仿苹果静音键?千万别小瞧“静音键”, 功能强悍到无敌!...
  4. 用matlab做一个有刻度的网格,MATLAB已知坐标如何画网格图
  5. 1FN3直线电机基于海德汉光栅尺和SIMOTION的调试
  6. 1997年小学生计算机知识竞赛,2019年中小学优秀传统文化知识竞赛试题(小学组)97题附全答案...
  7. cygwin3下编译redis6.2
  8. python画三维投影图_python之画三维图像
  9. phpcms修改了配置文件之后出现Warning: date() expects parameter 2 to be long..错误
  10. __mian__的作用