编者按:我们惊叹于机器人可以写诗做赋,“读心术”、“识人术”顺手拈来;我们也为很多技术突破而躁动,无论是语音识别还是卷积神经网络。在人类和机器的共同学习过程中,我们已经可以清楚感知到,人工智能和人类智能都在继续向前发展。

本文是第十九届“二十一世纪的计算”大会精选系列的第一篇,微软亚洲研究院院长洪小文博士立足于学习的命题,分别从机器和人类的角度探讨未来双方互助学习的可能性。更多大会嘉宾演讲内容及演讲视频将于近期陆续上线,敬请期待。

微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士

(以下为洪小文博士分享的精简版文字整理)

人类最了不起的地方在于我们知道怎样去学习。韩愈在《师说》中认为老师这个角色有三种不同的功能:“师者,所以传道受业解惑也”,其中最重要的就是传道。学生得到这个道以后就可以自己去学习,甚至可以终身学习。

心理学领域中有一本书叫做《Growth Mindset》,基本上它把人的自我分成两种,一种叫做fixmindset,另一种叫做growth mindset。前者有点像 know it all,我永远都是第一名,无所不知、无所不晓;后者强调的是learn it all,就算我不是第一名也没有关系,虽然我不能事事精通,但是我可以在学习过程中成长。这和今天的演讲也非常有关,就是讲学习的重要性。我的演讲分成两部分,我们怎么帮助机器学习,机器怎么帮助人类学习。学习的重要性不言而喻,无论是对机器还是人类来说,学习都是一门必修课。机器学习可以说是人工智能的重头戏,无论是深度学习、强化学习、迁移学习,还是其他各种各样的学习,无一例外都是人类发明出来帮助机器学习的方法。如何帮助机器更好地学习这也是一个未来非常广阔的话题。

很多人现在讨论监督学习和非监督学习,监督学习需要大规模的标注数据,相对应的成本也是非常高昂的。为了降低对大规模标注数据的依赖性,我们的研究员提出了一种新的学习范式——对偶学习。

事实上很多任务之间是有一个对偶性,比如机器翻译,从中文到英文和从英文到中文,这就是一种对偶性。探讨对偶性的原因就在于,这些互为对偶的人工智能任务可以形成一个闭环,使从没有标注的数据中进行学习成为可能。还是以机器翻译为例,目前我只有中文的单语语料库,我将一句中文翻译成英文,再用英文把它翻译回来。理论上这两句话应该是一样的,但实际上并非如此。假如说我有办法分辨这两句话相似的程度,我就可以利用它建立学习模型,并且不需要双语的语料库支持。

所以说,对偶学习的最关键一点在于,给定一个原始任务模型,其对偶任务的模型可以给其提供反馈。同样的,给定一个对偶任务的模型,其原始任务的模型也可以给该对偶任务的模型提供反馈,从而这两个互为对偶的任务可以相互提供反馈,相互学习、相互提高。

接下来我们要讲的是传统上我们不认为可以拿DNN来做的东西,比如说3D图形领域。起初,大家都拿DNN来做识别,而我们有时候需要去产生一些东西,而图形领域很多正是这样的问题。在图形领域里面,产生容易、分析困难。比如说图像表观模型(Image Appearance Model),要想知道一张图的纹理、光线和它的平滑程度,需要我们对图片进行拆解,这是典型的分析的问题。一个输入图像(input image),我们如何把它拆成三个这样的东西,然后就可以在各种不同的光源之下做渲染。

现在的做法都是要人工加一些机器去做,非常耗时、耗工。我们就想,能不能拿DNN来做这件事情,因为这本质上还是一个图像分析和识别的问题。但是,这个问题很难做,因为没有训练数据,或者说训练数据非常昂贵。如何解决这个问题?其实这个跟对偶学习很类似,分解图像的对偶任务就是渲染图像,用纹理、光线和平滑程度来合成图像我们是会的。首先,我们用1/10甚至1/20的标记数据进行训练,训练完之后得到CNN1,再用CNN1将一个新的未标记的输入图像分解成对应的纹理、光线和平滑程度,然后再用这些分解得到的数据合成一个新的图像,这样就得到了标定的分解数据和对应的合成图像数据对。我们再用CNN1将合成的图进行分解,得到另一组纹理、光线和平滑程度的分解数据,这跟之前得到的分解数据存在误差,我们利用这个误差来再进行训练(得到下一个迭代的CNN2),利用大量未标定数据按照这一模式迭代下去,直至误差几乎为零。利用这种自增强训练的方法就可以解决由于标定数据规模不够所带来的问题。

我们讨论了如何帮助机器学习,其实人类和机器促进学习的过程是相互的,我们依靠AI能够实现很多新的愿景,AI当然也离不开我们,否则我们根本不知道下一个AI是什么。我之前写过一篇文章叫做《人工智能与人类智能的共进化》,我们现在已经可以看到,AI的某些方面正在启发和刺激人类进步,它可以提供很多和人类学习相关的东西,帮助人类提升自我技能。我们来看几个研究院的具体例子。

第一个例子是微软小英,微软小英是一个能够帮助我们学习英文的机器人。现在很多英语学习者都在面临“哑巴英语”的难题,所以我们就做了微软小英,利用人工智能多种前沿技术来帮助我们学英文。微软小英设置有多种学习模块,比如单词修炼、易混音练习、发音挑战、跟读训练、情景对话和中英互译,几乎运用了微软所有的前沿语音技术,还有自然语言理解、机器翻译、机器学习、大数据分析等等。在微软小英推出的短短一年时间里,我们已经聚集了上百万用户,和很多英语教学相关的单位也都展开了密切合作。未来,我们会把更多技术融入到微软小英中,帮助大家学英文。同时我们也希望在不久的将来推出中文的学习,和更多的机构进行合作。

现在,很多人都在关注AI到底有没有创造力。十年前,微软亚洲研究院就在利用AI做一些创造力方面的工作,比如做对联、猜字谜,而今年我们又做出了一点新东西,我们发现AI还可以写诗、作词。微软小冰今年出版了第一本现代诗集《阳光失了玻璃窗》,它通过提取照片关键词就能够生成一首诗。做歌曲也是如此,我们拿既有的歌曲做训练数据得到新的乐曲,然后将词曲合成就可以做出一首完整的作品。

微软小冰创作诗歌

机器可以唱歌、作诗,同样也可以画画。每个人画画都会经历临摹的阶段,去模仿不同艺术风格,在学术界这叫做风格迁移,工业界也有很多这方面的应用尝试。事实上,他们对于风格迁移的处理普遍存在问题:鲁棒性不够、速度较慢。基于这个问题,我们就提出了一种新的风格迁移算法,这个算法对图像的风格提供了一种显式的表达“风格基元”( StyleBank ),通过对不同风格的图片使用不同的“风格基元”,再用简单的自解码器模型 ( auto-encoder ) 就可以实现不同风格的迁移。我们这样做可以节省30倍的训练量,同时可以节省一倍的运行时间,最关键的是效果也非常出色。微软也做了一款应用——Microsoft Pix,可以做很多处理和风格转换,大家可以自己尝试一下。

除了做图像的风格,视频风格也同样可以。我们的研究员们还提出了一个端到端 (end-to-end) 的在线视频风格迁移模型 ( Coherent Online Video Style Transfer )。这个模型在处理相邻帧的连续性的做法是,对于可追踪的区域,用前一帧对应区域的特征以保证连续性,而对于遮挡区域,则用当前帧的特征,最后得到既连续又没有重影的风格化结果。大家也可以看出来非常自然,而且也不会散动,速度也相当快。

对于更为精确和精致的视觉特征转化问题,微软亚洲研究院的研究员们提出了一种新的算法(Deep Image Analogy)。该算法结合图像对偶技术(Image Analogy)和深度神经网络(DNN),为内容上相关但视觉风格迥异的两张图像之间建立起像素级的对应关系,从而实现精确地视觉特征迁移。

最后,我想强调的一点是,学习永无止境,机器学习最基本的内涵就是在教机器怎么认得更好。对于人类而言,我也相信人是可以用机器来帮助自己学习的,所以未来,让我们和机器一起继续努力学习,互相共勉。

二十一世纪计算|洪小文:帮助机器和人类共同学习相关推荐

  1. 二十一世纪纸会慢慢消失吗?

    21世纪,纸会慢慢消失吗? Gary Starkweather 大家好.很高兴这么多人参加今天的会议.今天我和大家共同讨论一个非常有意思的题目,就是在二十一世纪中,从纸张向电脑显示转换的过程.这不一定 ...

  2. 翻译: 将操作系统架构带入二十一世纪—过去 50 年中 IT 的变化—第一部分

    上次我检查时,外面是 2019 年,但我们仍在使用操作系统,其架构基本上可以追溯到 60 年代后期的 Multics 或 70 年代中期的 VAX VMS(以及 TBH,从 50'000 英尺开始,M ...

  3. 展望二十一世纪第三个十年

    LiveVideoStack有幸生于二十一世纪的第二个十年,接下来聊聊下一个十年. 文 / 包研 距离2019年成为历史只有十几天了,十几天后我们将迎来二十一世纪第三个十年.2019对于LiveVid ...

  4. 二十一世纪最性感的职业:数据科学家

    性感事物方面的权威<哈佛商业评论>宣布,"数据科学家"是二十一世纪最性感的职业.所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么. 不管老板懂不懂数据 ...

  5. 【新书推荐】【2019.12】二十一世纪的人工智能(第三版)

    [2019.12]二十一世纪的人工智能(第三版)Artificial Intelligence in the 21st Century 3rd Edition,共750页. 如果需要电子版,请联系QQ ...

  6. 楼宇烈:对于二十一世纪中国文化建构的思考

    对于二十一世纪中国文化建构的思考(一) 当今不少人都在预言说,二十一世纪是"亚太"的世纪,是"亚洲"的世纪,乃至是"东亚"的世纪,并认为东方 ...

  7. 二十一世纪贫穷人的2008条语录

    流失的是岁月,留不走的是语言的录音-- 二十一世纪贫穷人的2006条语录 随便一条就能记住的:随便一条就能深思的:随便一条就能看下去的:随便一条就是哲理的:随便一条链接起来就是文章的:随便一条就能告诉 ...

  8. OpenCV学习(二十一) :计算图像连通分量:connectedComponents(),connectedComponentsWithStats()

    OpenCV学习(二十一) :计算图像连通分量:connectedComponents(),connectedComponentsWithStats() 1.connectedComponents() ...

  9. 二十一世纪“新元宇宙”奇科幻小说原创作品系列连载【第一部】第二回 登峰时刻

    二十一世纪"新元宇宙"奇科幻小说原创作品系列连载[第一部] <地球人奇游"天球"记> 第二回    登峰时刻 1.静沐"新哲学" ...

  10. 二十一世纪“新元宇宙”奇幻小说作品系列连载

    二十一世纪"新元宇宙"奇幻小说系列连载[第一部] <地球人奇游"天球"记> 第一回 冰雪跨年 1.静沐"新哲学"思想: 水在世间 ...

最新文章

  1. gridview 实现自增加列
  2. ASP调用带参数存储过程的几种方式
  3. I Hate It(线段树)
  4. python treading模块
  5. 二维数组数组名的使用
  6. Flex与javascript通信
  7. Pod在多可用区worker节点上的高可用部署 1
  8. CCF201312-5 I’m stuck
  9. 3d激光雷达开发(voxel滤波)
  10. Apache Flink Meetup 8.7 深圳站改为线上
  11. php session失效
  12. 1.4补充 三态缓存(tristate buffer)与 多路复用器(Multiplexers)
  13. 基于单片机控制的程控有源滤波器电路
  14. jabber服务器搭建
  15. OJ 1168 改写整数
  16. 合力亿捷云客服3.0 开启“全员客服”新时代
  17. vue图片加载完成前增加loading效果
  18. 网口up不起来问题排查
  19. 加拿大海派什么意思,加拿大海派时效多久?
  20. 微服务注册中心:Consul——服务注册

热门文章

  1. 大学计算机考试word实操夏威夷,计算机一级等级考试操作题WORD(4页)-原创力文档...
  2. SQL Server 创建学生管理系统
  3. oracle lob值是什么,oracle LOB介绍
  4. 9.ansible变量之fact
  5. 公式编辑器怎样使用具体图解
  6. IS-IS加快收敛特性
  7. [慈溪2011]电子警察
  8. 机器学习入门之二:一个故事说明什么是机器学习(转载)
  9. 微软bi报表服务器,安装 Power BI 报表服务器
  10. 验证是不是合法的18位身份证号码代码