图文原创:谭婧

人工智能的江湖,有句笑(定)话(理):“想有多少智能,就得有多少人工。”

这里的“人工”不是高级工程师,而是纯手工,是数据标注所耗费的人力。

别看不上数据,算法也是在解释数据。

别看不上数据标注,你得把答案教给人工智能,它才能做题。

教猫,把猫框起来,写上“猫”。

换到自动驾驶汽车场景,以此类推。

工作不难,可是架不住量大。

人工智能是人类的学生,而且,这种教学已经花费了数万小时。

专业说法是,有监督的机器学习需要有标注的数据集。

原来,学习诚可贵,答案价更高。

一种,

让人工智能自己给自己用的数据做标注,“智能标注”。

另一种,边学边标,提升模型性能。

恭喜你理解了主动学习(Active Learning)。

本次科普结束。

(完)

科普结束了,但是实践不行。

大数据爆发,数据标不完,标不起,相当于,学不完,学费贵。

于是,主动学习登场了。

主动学习是机器学习的一个分支。

话说,人工智能要学习的知识点都在数据里。主动学习就好比那种江湖人称“考试型选手”。

为了考高分,普通人把所有的知识点都学一遍,而学霸是找到考试重点内容,使巧劲。

以前,全靠人类把数据标好了,扔进给模型。

现在,由算法给人类派活,它自己有标准(策略),知道怎么挑。

把高价值样本“挑”出来,虽不认识,但值得认识。

一边,算法在从人类标注的高价值图片(样本)中学习。

另一边,扩充已标注样本集。

人类亲自给标注的数据,相当于单独辅导,那成绩自然上升。

到这里,智能标注的活就干完了,目标就是让算法给数据打上标签。

智能标注的口号就是:边学边标。

专业的说法是,人机融合,迭代演化,“Human-in-the-Loop”。

没错这是一个单词。这里翻译出来是:你们人类也别闲着,欢迎干点活,在链路里。

别记这个单词,太长了。

来看看电商场景,每天新增商品图片20万。(对,是单日新增。)

全量标注得花不少钱,那些高价值图片得被分出来,由人类亲自来标注。

举个例子,纯手工时代,全部标注,时间和金钱成本都挺高。

毛衣毛帽这类保暖用品的图片各1000张,一共2000张。

好消息是人类教会人工智能认识了毛衣,毛帽。

结果,第二天,又新来了10000张图片,全部都是毛手套。

因为之前没教过,不认识毛手套,直接傻眼了。

主动学习一顿操作猛如虎,从新来的一万张图片里面挑出一些,比如,500张,转交给人类。

人类一看这不是毛手套嘛,把正确答案写上,一口气写了500张。

有主动学习的好处是,只用标500张,人工智能就学会了。

没有主动学习,所有图片都得写上答案。

毛手套,就是困难样本,也就是人工智能做不出的题。

于是,要么胡写答案。要么拿不准。

胡写答案时候,指着毛手套说:“这是毛裤。”

拿不准的时候,说:“我看50%概率是毛衣,50%是毛裤。”

看把人工智能给难的,险些变成人工智障。

赶紧让人类给困难样本写上答案。

下一步呢?

回流,而且是必须要回流,回流到机器学习训练系统中。

这是一个多次循序迭代的过程,直到模型性能指标达到目标性能为止。

智能标注是中级玩家,主动学习融入机器学习链路是高级玩家。

主动学习的“变身”一个迭代工作流。

人生是一个过程,主动学习也是一个过程。

专业一点的问法就是,主动学习能不能和模型训练打通?

必须打通。但是打通之后的目标就变了,变为提高模型效果。

(观察数据流,可点击看大图)

本质是,人类写下困难样本的答案,答案可以用于教学(训练),学习了之后,人工智能就更聪明了。

技术亮点之一是如何从几万张图片找出几百张高价值的,只有这些是值得给人类去做手工标注。

追求的结果是把训练样本量降下来,还要提高机器学习模型的准确性,达到全量训练的预期性能指标。

火了这几年,人工智能终于感觉到自己被PUA了:

又想奶牛少吃草,还要奶牛多产奶。

主动学习用在计算机视觉中,还会用在文本理解、音视频等多种模态中。

坦白说,标注数据是一种劳动密集型工作,大公司通常都是外包出去。

成本按业务分,按部门分都可以,谁的标注,谁来出钱。

反正互联网大厂一年花几个亿也正常。

常见物品的图片,标注一个花几分钱。

然而,标出肺结节这种,得加钱,可能几十元到一百块人民币。

更糟糕的还是涉密数据,给外包标注根本不可能。

通常来说,人们花在训练过程中的注意力多,花在数据上的太少。

市场上,少有创业公司推出技术含量高的工具,以便查看和了解人工智能所用的数据的情况。

有的云厂商还处在主动学习的预研阶段。

AWS用上了主动学习技术的产品叫Amazon SageMaker Ground Truth Plus,AWS自称其为“端到端数据标注管理”。

对标美国,国内极少有技术含量的标注公司,大多是纯人力外包标注公司,看上去技术驱动的数据标注赛道还是一片蓝海。

(但这和我没有什么关系,我不搞一级市场投资,快乐都是你们的。)

主动学习已经用在很多方面了,没办法很多领域的数量非常大,亟待减轻标注工作量。

科学领域包括,天文,生物,化学;

工业领域包括,自动驾驶,药物发现,人脸识别,黑产风控,电力系统检测。

还有一个应用之处好玩极了,研究北极冰。

另外,推荐一本好书,《Human-in-the-Loop Machine Learning Active learning and annotation for human-centered AI》这本书的作者在苹果公司任职,可惜没有中文。

(此书封面请自行在推文内寻找。)

他的核心观点之一是,人工智能是人类的学生。

教好学好,教坏学坏。

教得好,科技向善,教得坏,毁灭世界。

所以,你说人和人工智能,磕不磕CP呢?

更多阅读

AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨燎原火,贾扬清(二)

漫画系列

1. 万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛逼症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几?

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML科普:攒钱买个“调参侠机器人”划算吗?

10. AutoML科普:你爱吃的火锅底料,是机器人自动进货丨漫画

11. 强化学习科普:人工智能下象棋,走一步,能看几步?

12. 漫画时序数据库:好险,差一点没挤进工业制造的高端局

DPU芯片系列:

1. 造DPU芯片,如梦幻泡影?丨虚构短篇小说

2. 永远不要投资DPU?

3. DPU加持下的阿里云如何做加密计算?

4. 哎呦CPU,您可别累着,兄弟CIPU在云上帮把手

长文系列:

1. 我怀疑京东神秘部门Y,悟出智能供应链真相了

2. 超级计算机与人工智能:大国超算,无人领航

3. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?

最后,再介绍一下主编自己吧,

我是谭婧,科技和科普题材作者。

为了在时代中发现故事,

我围追科技大神,堵截科技公司。

偶尔写小说,画漫画。

生命短暂,不走捷径。

个人微信:18611208992

原创不易,多谢转发

还想看我的文章,就关注“亲爱的数据”。

漫画主动学习:人工智能居然被PUA了?相关推荐

  1. 【论文汇总】人工智能顶会深度主动学习(Deep Active Learning)相关论文

    汇总2017年至今,ICCV\CVPR\NIPS\ECCV会议上发表的深度主动学习(Deep Active Learning)相关文章,根据原文中report的实验数据集划分为 图像分类 . 语义分割 ...

  2. 主动学习(Active Learning)概述及最新研究

    作者 | 你Sony@知乎 来源 | https://zhuanlan.zhihu.com/p/422180658 编辑 | 极市平台 导读 作者将自己对于主动学习的理解和最新研究的感悟都整理为这篇文 ...

  3. 主动学习(Active learning)简介

    文章目录 Labeling faster vs. labeling smarter 1. 什么是主动学习? 2. 主动学习如何运行? 2.1 Stream-based Active Learning ...

  4. 基线提升至96.45%:2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习

    0.法研杯 LAIC2022 司法人工智能挑战赛犯罪事实实体识别 0.1比赛简介 任务介绍 本赛道由中国司法大数据研究院承办. 犯罪事实实体识别是司法NLP应用中的一项核心基础任务,能为多种下游场景所 ...

  5. 机器学习中在线学习、批量学习、迁移学习、主动学习的区别

    一.批量学习 在监督学习的批量方法中,多层感知器的突出权值的调整在训练样本集合的所有N个例子都出现后进行,这构成了训练的一个回合.换句话说,批量学习的代价函数是由平均误差能量定义的.多层感知器的突触权 ...

  6. 主动学习(active learning)

    主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习.最优实验设计."学习模块"和"选择策略"是主动学习算法的2个基本且重要的模块. ...

  7. Active Learning 主动学习

    最近读了一篇paper,题目是An MRF Model-Based Active Learning Framework for the Spectral-Spatial Classification  ...

  8. 深度主动学习综述(Deep Active Learning)

    原文 Abstract 主动学习试图通过标记最少量的样本使得模型的性能收益最大化.而深度学习则对数据比较贪婪,需要大量的数据供给来优化海量的参数,从而使得模型学会如何提取高质量的特征.近年来,由于互联 ...

  9. 深入学习“主动学习”:如何显著地减少标注代价

    写在前面 这篇博文很早之前就整理好啦,一直想继续完善再发布.但接下来一年的时间,估计会忙于各种事情,毕竟下半年就研三了.再者,最近在阿里实习,因某个业务场景需人工标注数据,借此机会尝试着做了主动学习的 ...

最新文章

  1. STL: set相关算法
  2. 用Jsp来实现文件下载功能的几种方式
  3. 文巾解题 177. 第N高的薪水
  4. Unity运行时检测Altas使用情况
  5. Java中利用MessageFormat对象实现类似C# string.Format方法格式化
  6. 工业交换机的价格为什么有高低之分?
  7. linux 修改jmeter内存溢出,jmeter本机内存溢出如何修改?
  8. 【牛客 - 373A】翻硬币问题(博弈,结论,分析)
  9. Spring中@Async
  10. Python—语法基础(8) 分支、循环结构
  11. ckpt下载 deeplabv3_OpenCV4 部署DeepLabv3+模型
  12. Android程序设计报告总结,Android编程常用技巧实例总结
  13. school_vue操作记录
  14. Mac备份工具:Carbon Copy Cloner Mac支持m1
  15. 正则正数,负数,整数,浮点数校验大全
  16. 短代码 html,WooCommerce 默认提供的简码短代码
  17. 程序员笔试之猿辅导招聘2021 编程题收集整理(八)
  18. Hadoop大数据系列组键-部署
  19. 人力资源管理的现状及发展趋势
  20. PREP 语法笔记 10

热门文章

  1. JavaScript关于exec()函数的理解
  2. 百度云:当AI遇到视频
  3. html文件wps怎么打开,wps怎么打开xlsb文件
  4. RFID-MFRC522射频识别S50白卡
  5. 微信朋友圈怎么发文字?微信怎么发朋友圈只发文字?
  6. 2023年软考高级信息系统项目管理师报名,这里靠谱
  7. C语言编程学习:使用函数必须知道的3点注意事项
  8. reverse()和reverse_copy()用法
  9. android 电池电量广播,Android查看电池电量的方法(基于BroadcastReceiver)
  10. 索引的底层实现原理是什么?