前言:

目前深度学习可谓是资本宠儿,各路大牛公司均加入深度学习军备竞赛,百度最早成立人工智能研究院,接着腾讯的AI研究所和阿里的达摩院,均是投入血本进行深度研发,不仅是人才的竞争,还有数据/计算能力和应用项目落地的竞争。大公司在竞争,小公司也不甘示弱,每天都能看到新的AI公司在成立,招兵买马大干一场,这也是一场残酷的战争。

在学习过Udacity和吴恩达的deeplearning课程之后,我对深度学习又有了新的一些看法。确实,深度学习在语音/图像和自然语言方面相比传统算法有长足的进步,很多方面的识别率超过人类水平,于是各路媒体大肆渲染深度学习算法的神奇之处,说着说着就将深度学习算法和人工智能混为一谈,认为再过不久,人类很快就被机器所代替。

其实,这些宣传是非常不谨慎的,计算机确实在某些领域能有很高的准确率,但相比人类来说,它们在逻辑推理,组合,分析方面的能力是远远不够智能的,更不用谈它们能创新创造。在我看来,人类巨大的脑容量所连接的海量神经元绝对是自然赐予人类最宝贵的财富,它的复杂程度比世界上运算量最大的计算机还高出好几个指数级,大脑的学习/思考/分析/创造能力是远非机器所能比拟的,我觉得只有更深入的了解物质组成的本质,比如量子理论和量子计算的发展,才能让计算机比拟人类能力,获得更强大的能力。而目前的深度神经网络只是在结构上借鉴了大脑的神经元结构,但真正具体的神经元工作原理以及如何去实现复杂的分析推理工作连人类自己都不得而知,更谈不上让机器人代替人类做出复杂的决策,让机器人去学习难以用逻辑推理去定义的情感。

之所以说这些想法,是因为太多人谈到深度学习就是人工智能,其实这个发展过程是十分漫长的。研究人工智能,这不仅仅是让人类生活的更轻松,而且还能认识到人类的本质,至少是我们对于自身理性逻辑思维方面的深刻认识,但千万不要太迷信深度学习,也不要将深度学习和人工智能混为一谈

什么是弱监督学习?

一般常常谈到深度学习,就是根据数据特点,选择合适模型(CNN.RNN)等去训练模型,让模型自己寻找数据特征,构造合适损失函数并优化到最小值,得到的模型参数就是我们需要的结果,这个过程一般称为(强)监督学习。而这个过程中有一个问题,在日常生活中会有大量的数据,但给数据都加上标签(label)成本太高,我们得想办法既能降低成本,又能得到更准确的模型,这个时候弱监督学习就闪亮登场了。

弱监督学习是相对于强监督学习和无监督学习来说的,当我们得到的数据集之中只有一部分数据有标签,而另一部分数据没有标签,但我们还是想训练一个不错的模型(穷且傲娇),我们称其为弱监督学习,利用这非常规的数据集来训练模型,到底该咋办呢?

分类

弱监督学习一般可以根据数据类型分为三类:

  • 不完整监督学习(incomplete supervised learning):数据中只有一部分由标记
  • 不确切监督学习(inexact supervised learning):数据中标记数据粗粒度太大
  • 不准确监督学习(inaccurate supervised learning):数据中标签错误

不完整监督学习

数据既然不完整,那我们只能想办法根据这有限的数据来训练模型了,前人学霸们都做了哪些研究呢?我们来瞧一瞧。

主动学习(active learning)

  • 思路:提取数据样本中最有价值的样本进行标记,性价比最高!(我没钱就找几个有用的数据打标签,能提高一点是一点)
    说白了,就是在成本有限的情况下找出模型预测最容易出错的数据打上标签,将打上标签后的数据继续放入模型训练,直到得到满意的模型。

  • 核心问题:如何寻找最有价值标签?通过何种方式标记?

  • 常用方法:最笨——从头开始;第二笨——按顺序给出;第三种——选出易错点,利用熵值或者多样性评判;(说白了,就像小学生复习考试,那些题老是错才值得多花时间练习,如果从头开始复习,可能没多久就去王者荣耀或者吃鸡了,哪还有那闲工夫慢慢磨机)

  • 理论:informativeness (最大程度降低统计分布误差)和representiveness(最大化展现输入数据的模式),前者例如高斯混合模型,但过于依赖模型输入的概率分布方式;后者比如聚类,过于依赖数据的输入模式)

主动学习的思想,是在人类一定的干预之下提高模型的效果,但设计的特征方式均需要人类大量的先验知识,也就是想设计出不错的模型,你可能得是个“砖家”!

这次先记录这么多,其实主动学习属于传统的建模学习方法,相比于深度学习可能没有那么神奇,但将主动学习的思想加入深度学习之中,可能就能有效的解决实际问题,比如CVPR2017会议中这篇论文:https://www.jianshu.com/p/42801f031cfa,很简单的方法但对于实际问题十分有效,更重要的是作者对于问题清晰和准确的定义和分析,不单单是建立一个模型和复杂的损失函数,而是对模型训练中出现的多种情形进行了总结分析,给出了不错的指导意见,十分有效!

下篇接着讲弱监督学习中的半监督学习,这部分涉及方法非常广泛,也非常有趣。

弱监督学习总结(1)相关推荐

  1. 挑战弱监督学习的三大热门问题 AutoWSL2019挑战赛正式开赛

    AutoWSL2019作为11月17-19日亚洲机器学习大会(ACML)主会议竞赛单元之一,由第四范式.ChaLearn.RIKEN和微软联合举办,其中竞赛分享和颁奖将与大会WSL-Workshop共 ...

  2. 超酷炫!Facebook用深度学习和弱监督学习绘制全球精准道路图

    作者 | Saikat Basu等 译者 | 陆离 责编 | 夕颜 出品 | AI科技大本营(ID: rgznai100) 导读:现如今,即使可以借助卫星图像和绘制软件,创建精确的道路图也依然是一个费 ...

  3. 独家 | 2019 ICCV 收录论文:基于弱监督学习的病理影像分析框架

    论文传送门 ▼ 扫描下方二维码,或点击文末"阅读原文" 基于弱监督学习的病理影像分析框架 一.研究背景 恶性肿瘤是全球第二大死因,每年导致近千万人死亡.病理报告是肿瘤临床诊断和治疗 ...

  4. 【深度学习】基于弱监督学习处理图像的应用

    文章目录 1 概述 2 常用的弱监督分割算法 2.1 基于image-level tags的分割算法 2.2 弱监督学习医学图像分割 3 实例分割 4 弱监督图像语义分割文献 1 概述 什么是弱监督学 ...

  5. 挑战弱监督学习的三大热门问题,AutoWSL2019挑战赛正式开赛

    AutoWSL2019 作为 11 月 17-19 日亚洲机器学习大会(ACML)主会议竞赛单元之一,由第四范式.ChaLearn.RIKEN 和微软联合举办,其中竞赛分享和颁奖将与大会 WSL-Wo ...

  6. CVPR 2018论文解读 | 基于域适应弱监督学习的目标检测

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  7. 弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介

    弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介 细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同 ...

  8. 【基于深度学习的细粒度分类笔记2】弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介

    细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部特征信息精确识别图像子类别.细粒度分类是计算机 ...

  9. [读论文]弱监督学习的精确 3D 人脸重建:从单个图像到图像集-Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From

    论文地址:Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From Single Image to Image Set ...

  10. 弱监督学习框架 Detectron2/DRN-WSOD-pytorch 在服务器/windows上配置安装及使用

    最近做弱监督学习研究,进行相关分析.发现Detectron2是一个不错的框架,其中也有model zoo相当多种类的预训练模型可以拿来直接用.但是安装配置使用中碰到了许多坑.跟各位小伙伴们分享. 推荐 ...

最新文章

  1. 行人检测--What Can Help Pedestrian Detection?
  2. SparkSql常用命令操作
  3. html表格点击为编辑框,el-table表格内双击或单击单元格编辑输入框、日期等
  4. WordPress 多语言支持(本地化)
  5. [Java]关于throw,throws,try{}catch(){}
  6. 2017.9.25 社交网络 思考记录
  7. excel文件导出相应数据统计内容
  8. 【前端 · 面试 】HTTP 总结(一)—— HTTP 概述
  9. sessionStorage跨标签取值
  10. paip.杀不死进程的原因--僵尸进程的解决.txt
  11. python时间如何处理_python 时间处理
  12. Neo4j简单构建知识图谱实例
  13. Subclipse更新地址
  14. php怎么上传视频和播放器,新增插件:视频音乐播放器(PHP版)
  15. 无人机底层开发-MPU6050六轴传感器+磁力计初始化
  16. vue禁用浏览器前进后退
  17. ubuntu更新源出现错误
  18. 如何利用Visio来绘制斜线!
  19. performance 优化
  20. 笔记本电脑的应用、维护、采购全攻略

热门文章

  1. MATLAB-图像加密
  2. Android热修复之阿里Sophix的使用详解
  3. balser相机IP设置
  4. vue3前端项目引入iconfont阿里图标
  5. java错误代码1061_求助java大神,看下这是哪里出错了
  6. 如何解除禁用 UAC
  7. Warshall算法求传递闭包
  8. 物联网工程设计与实施
  9. 【IAST安全左移最佳工具】
  10. 核方法概述----正定核以及核技巧(Gram矩阵推导正定核)