京东AI研究院何晓冬：将先进的技术和模型落地到产业

本文转载自 Robin.ly 社区，Robin.ly 和 TalentSeer 的创始人 Alex Ren 采访了京东AI研究院的常务副院长何晓冬博士，采访中分享了AI，leadership以及AI落地的心得。

采访视频地址：https://youtu.be/jZPrB_5J7dA

下文是采访的文字整理。

Alex:大家好，我是Alex Ren，是TalentSeer的创始人，也是BoomingStar Ventures的合伙人。Robin.ly平台设置的初衷是为提高广大研究人员和工程师对AI，对Leadership以及entrepreneurship的理解。今天有幸邀请到京东AI研究院的常务副院长，也是深度学习语言语音研究所的主任，何晓冬博士。何博士曾任微软雷德蒙研究院主任研究员，并且担任华盛顿大学兼职教授和博士生导师。在深度学习，自然语言处理，语音识别，计算机视觉等很多领域，建树颇多。尤其对于AI，leadership以及AI落地很有心得，何博士会在这些方面进行分享。

Alex:何博士，你是今年年初加入京东？

何晓冬: 对，我在今年三月份正式加入京东。

Alex: 您读博士时主要研究语音识别，后涉猎了深度学习，CaptionBot，再到Drawing bot，AttnGan，一直到最近在做的情感客服类工作，能否介绍下您的研究兴趣？一路走来，AI从传统方法到深度学习，您的研究路径是什么？

何晓冬: 我做博士的时候是做语音识别。那个时候一般不谈自己做AI，当然语音识别本身是AI的一个核心问题。在清华毕业以后，去中国科学院读硕士研究生的时候，我开始做语音识别。那时候还是用一些统计模型方法，比如像马可夫模型，高斯模型。到美国以后，读博士时就继续了这个方向，用统计方向来做语音识别。语音识别其实是一个很多年的核心问题，大家都在推进展。博士毕业后，我加入微软，进入微软研究院。我也是从语音识别开始做起，希望语音识别能产生一些产业上的帮助，创造价值。语音试别以后，很自然地希望理解它。因为语音识别只是把声学信号变成一连串的文字，但其实计算机并没有真正理解这个话的意思，所以为了理解这个话的意思，我们自然要进入NLP，自然语言处理，包括语言理解。我在微软研究院时候，最开始从机器翻译入手，机器翻译就是一个很核心的NLP问题。举个例子，把中文翻成英文，看似很简单，但是一代又一代科学家做了很多年。

Alex: 其实Geoffrey Hinton关于深度学习的研究，最早的应用主要在自然语言处理方面，而且也是在微软研究院最先完成的，对吧？

何晓冬: 这也是个很有趣的故事。可能现在很多人觉得图像识别很重要，但其实深度学习最开始在核心AI技术上的突破是从大规模的语音识别突破开始的。2008年的时候，我算是第一次认识Hinton。那年邓力和我，我们是同事，在NIPS会上举办了一个叫做“Speech and Language: Learning-Based Methods and Systems”的workshop。我们邀请了Hinton介绍他最新的工作，包括深度学习。2009年 NIPS，邓力，俞栋，Hinton又举办了一个workshop。再后来微软邀请了Hinton去访问。同时开始招收实习生，把项目做起来。大概在2010年左右，看到了深度学习在大规模的语音识别上产生了突破性的进展。

Alex:当时的很多工作还是比较前沿性的研究？后来开始大量应用是2012年吗？

何晓冬: 2010年以后，我们在微软内部看到，深度学习已经在语音识别上取得了很多进展，认为这是一个很有前景的方向。也扭转整个业界对深度学习，特别是对神经网络的看法。在此之前大家都并不认为神经网络是一个很吃香的方向。但是由于微软及业界做出了成果，大家开始转变了观念。从那时候开始，在图像，在自然语言处理方面都有了很多进展。2012年开始，业内以很快的速度实现了很多突破。

Alex: 能否介绍下CaptionBot？

何晓冬: 因为我一直在做语言，语音这一块，包括像2012年开始，与Yoshua Bengio 合作，开始做自然语言理解，Spoken Language Understanding. 后来我们还提出了DSSM模型，也就是深度结构语意模型。然后我们发现可以go beyond the language, 抓住深度学习的契机，把不管是语音语言，还是图像，都可在同一个语义空间用feature vector来表示，叫作embedding feature vector。这样就使得语言和图像这种不搭界的两个问题，可以统一在同一个embedding的空间里，一个语意空间里。再进一步扩展，如果能把图像和文字，按照它们本身的意义和内容，放到同一个空间里去，就可以实现图像和文字的互相转化。所以后来我们在2013年底，提出了这个proposal到微软的一个strategic intern program，开始准备做这个方向。但这不仅是我一个人的想法，也是因为数据差不多积累到合适的状态。那时MSR刚好sponsor了一个名为MS COCO的dataset，对每一个图片都有很多自然语言描述，使得我们的研究有了数据基础。同时还有一些其他的进展，包括端到端的机器学习，包括sequential model，这些深度学习模型都出现了。正好是一个合适的时间点。所以我就把我从语言理解专业又扩到了多模态的领域，具体的说是image captioning领域，并跟同事们一起打造了CaptionBot。

Alex: 后来你又做了一些研究，比如Drawingbot，AttnGAN，能介绍一下什么是AttnGAN吗？

何晓冬: GAN现在可能大家现在比较熟，就是Generative Adversarial Networks, 对抗性生成网络，被应用于生成图像。我们之所以做AttnGAN，是想做CaptionBot的反向，做一个closed loop。CaptionBot是从图片生成它的文字描述。AttnGAN，是GAN的一个扩展，是从文字描述生成一个对应图片。AttnGAN试图引入一种像人一样的attention的机制，使得我们在画图时，在画每一个局部的细节时，能对应到文字里的每一个细节。AttnGAN是专门针对局部对局部的语意对照做的一个模型，让画的图更加精细。基于AttnGAN算法我们开发的一个智能绘画机器人就叫DrawingBot。

Alex:举个例子，如果想画我们Logo的这只鸟，应该如何描述？

何晓冬: 那你可对DrawingBot说，我想画一只鸟，她的脖子是橘色的，肚子是白色的，羽翼是灰色的。Drawing bot 就会画这么一只鸟。

Alex:目前已经有人开始利用技术进行创作了吗？

何晓冬: 现在我们还在讨论阶段。其实在我来硅谷之前，清华美院举办了叫 Art and Design 3.0 Forum的论坛，我在论坛上做了一个小发言，就是展示了一些类似的例子。什么是想象力？我们以前认为只有人才有想象力，机器只有记忆。其实在某些层面上，机器是可以看到很多不同的角度，画出一只全新的鸟。这个鸟可能在这个世界上从来没有存在过，有不同的颜色。甚至我们有一个bug把一只鸟的嘴巴都画成蓝色，这肯定是不存在的。但这也可以看成机器的想象力，就像是小孩子一样，可以想象出一些世界上没出过的东西。本质上生成就是在一个空间内按某种分布采样，想象力可看成在一个合理区间的边缘采样。

Alex: 目前京东把AI的技术运用到线上线下零售领域。这方面的侧重点是什么？

何晓冬: 京东有一个很全的链条，包括厂家采购，到网站做display，交易，到售后服务，做收付款，包括送货，及可能需要的退货处理。京东的链条非常长。在每个环节，AI都可以有很重要的应用，或者促进。举一个简单的例子，比如售后服务。京东有一个智能客服机器人。如果用户买东西有些问题，可以通过聊天来问这个机器人，为什么东西还没到，为什么东西损坏了。chatbot 就是一个经典的AI应用。研究院成立以来，进一步促进了AI的应用，改进了智能客服。其中之一就是在智能客服加入了情感。以前我们的chatbot就事论事的回答用户的问题。后来我们发现，当客户来联系客服的时候，往往带有一些情绪，比如，不高兴，生气或者焦急。所以我们最近的一个工作就是，通过AI把情感智能加入到chatbot中，能够检测到用户的情绪，同时交谈时，也会相应的生成一些安抚性的语言，使用户感受到被关心被关注，更加人性化，温暖的交互使得用户的满意度提高了很多

Alex: 你本身完成了一个transition：从一个很有成就的AI研究人员，到领导京东的AI research。更多涉及AI商业化。你个人在从researcher 到 leader这个transition过程，遇到了什么挑战？什么事情促使你做了这个转变?

何晓冬: 转变可能有两个点。第一，从理论研究到实践。我以前在微软研究院，做研究更多一些。但是京东有这个机会，把AI 进行产业上的应用。比如，刚举的客服的例子。一方面是机会，一方面是挑战。怎么样让AI确实在产业层面产生大规模的impact，更加有影响力。这是挑战也是转变。意味着思考问题的出发点要进行调整。第二，如何进行多重协作。工程上有很多involvement，怎样组织多个工程团队共同工作，从而真正做到一个可大规模推广，大规模应用的程度，而不仅仅局限在实验室里。

Alex: 可以分享下带领团队方面的心得么？

何晓冬: 谈不上太多心得。就是一些个人小小的分享。比如说一个团队做事情，很多时候要给大家讲得很清楚，给大家一个统一的vision。这个事情的意义在什么地方，每个人为什么做这个事情，要让大家感到骄傲。明确purpose 同时feel proud of it. 让每个成员知道你做的这个事情将会很有影响力的。不是无足轻重，而是说目前你所从事的工作，在产业上，在本质上，在thought leadership上都很领先的。像我们的情感客服是业界领先的大规模商用。小规模的可能有，但如此大规模的商用，京东应该是领先的。认识到这一点以后，每个工程师，每个团队成员，就可以更统一起来。

Alex:你觉得中国AI研究的优势在哪里呢？

何晓冬: 中国的优势在于可以很快的放大思想的影响力。中国规模非常大，以京东为例，京东能够服务超过3亿的消费者，他们每天都会在京东这个平台上进行大量的活动，所以算法和模型上的创新，可以很快被放大到整个平台上去。同时，另一方面，用户和算法模型之间的交互比如智能客服，会产生大量数据。这些数据可以刺激新的算法。这个交互循环会非常快，这是在中国做AI的一个优势。

Alex:能说说3-5年内，你的个人目标是什么吗？

何晓冬: 我个人希望看看AI能不能在典型的大规模产业化的基础上，落地并产生影响。大家知道AI经过几次寒冬，也经过几次高潮。我个人对这次的高潮更加乐观。因为AI要真正要落地才能对整个社会产生影响。这也是为什么像京东有那么长的链条，有那么多数据，是一个很好的落地机会。随后三到五年，我希望把研究方面或者技术方面的一些先进的技术和模型，真正的带到产业上进行落地。一方面验证或者促进研究，另一方面是希望提高这个产业本身，并引领产业的一些变革。

Alex:深度学习快速发展了一段时间，已经出现了了很多framework和工具之类的，一些很多软件工程师，或者算法工程师做这些方面的应用技术也更加容易，甚至一些高中生也可以调整参数。既然如此，我们是否还需要昂贵的AI researcher呢？

何晓冬: 会调参数的高中生相当宝贵，如果有，立马把她找过来做我的实习生！从研究方面，我们对研究员提出的要求更高了，不是说把模块，或者神经层，往那一叠，就变成了一个新模型。要在算法上真正有创新。希望研究员们的创新可以带来更多深远的影响。

Alex: 所以现在的工作更多的转向了engineering，理解市场，理解需求？

何晓冬: 对。我现在越来越关注这个方向。同时研究还是希望能继续保持，包括publication和参加学术会议，一方面知道最新的思想发展，另一方面也花一些精力看怎么样有可能在产业上产生影响，在实际过程中产生影响。

Alex: 根据你的经历，你看到深度学习技术本身，或者这个research，未来的研究方向有什么样的变化？

何晓冬: 其实深度学习带来很多AI上的进步，但我们还有很多没有理解的地方。举个例子说，我们从感知，试别语音和图像，进化到认知，做阅读理解。实际上我们没有真正理解，人是怎么理解文字的。这可能还需要从认知(cognition)的角度来看，才能更深的理解这个问题。另一方面，我们也不知道人的大脑到底是怎么工作的，我们说神经网络，神经这个词我们是从大脑借过来的，但是并不知道大脑真正怎么工作。

Alex:所以我们叫Artificial Intelligence嘛。

何晓冬: 所以那么现在可能是个机会，我们能不能真正理解大脑是的工作机制。如果能真正理解，会促进我们技术的提高。

Alex:其实更多的角度是从脑科学，或者cognitive science去借鉴一些方法？

何晓冬: 某些研究领域是这样。但是产业方面，我倒认为，随后看得见的10年之内，深度学习是一个主流的能够推动AI前进的核心方向。这个问题很简单，并不是说深度学习本身有什么magic，而是因为整个过去十年和随后十年，一个很大的趋势是计算力（computation power）在指数级别增长。数据，特别是无结构的文本，图像，也在指数级增长。从这两点，能take这两个benefit的模型，算法和技术，也会有一个指数级增长的机会。所以深度学习就正好有整个特性，有足够大的capacity，能够用到那么大的计算力量，同时又能够把这么多数据消化掉。从一个工程化，或者应用的角度看，这是深度学习的一个优势。从研究看，确实要懂，要理解是怎么回事，理解脑是怎么工作的，那是另外一个研究领域。

Alex: 感谢何博士对AI，深度学习整体的介绍，从introduce到语音识别，自然语言处理，到现在做的在零售领域应用AI，做到情感交互机器人互动等各个领域的介绍。也感谢你分享了个人职业生涯上，从researcher到leader的transition，包括他所做工作的不同transition。希望你在这方面能做出更多的成果，希望京东在AI落地上取得更多成果。

何晓冬: 非常感谢给我机会可以和大家进行交流。

查看原文链接：https://www.robinly.info/blog/no-3-xiaodong-he-robin-ly-ai-talk

京东AI研究院何晓冬：将先进的技术和模型落地到产业相关推荐

中国首个开源基金会成立；京东 AI 研究院获 QuAC 机器阅读理解竞赛冠军
开发者社区技术周刊又和大家见面了,快来看看这周有哪些值得我们开发者关注的重要新闻吧. 京东AI研究院获QuAC机器阅读理解竞赛冠军中国首个开源基金会成立,已有七个项目加入孵化 COVID-19大流行 ...
京东AI研究院梅涛：计算机视觉助力提升服务体验
https://www.toutiao.com/a6675869896380776972/ 京东AI研究院副院长.计算机视觉与多媒体实验室主任梅涛 3月21日,己亥年人工智能春季创新大会在北京国宾酒店 ...
京东AI研究院获QuAC机器阅读理解竞赛冠军，EL-QA模型能力业界领先
来源:机器之心本文约2000字,建议阅读8分钟京东提出的 EL-QA 模型(登顶 QuAC Leaderboard,全部三项指标均获得第一名. [ 摘要 ]近日,在斯坦福大学.华盛顿大学.Alle ...
京东AI研究院计算机视觉实验室招聘研究型实习生
京东京东 AI 研究院计算机视觉实验室致力于计算机视觉与多媒体领域研究的前沿创新.由丰富的京东场景和庞大的京东用户的核心商业需求驱动,专注关于图像.视频的智能分析.目前我们已经在人脸.人体.文字识别 ...
北京内推 | 京东AI研究院计算机视觉实验室招聘三维视觉算法研究型实习生
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 京东 AI 研究院京东 AI 研究院(https://air.jd.co ...
CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽、交互到共生
纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融.这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系:演化至今,我 ...
京东AI研究院8篇论文被AAAI 2019收录，国际顶会彰显京东科技实力
https://www.toutiao.com/a6651795835203879432/ 2019-01-29 20:55:00 美国时间1月27日,AAAI 2019大会在夏威夷正式拉开序幕,AA ...
京东副总裁何晓冬：GPT-3后，人机对话与交互何去何从？| CCF-GAIR 2020
导语:可往知识驱动的复杂任务导向人机对话和超出文本的多模态数据和信息融合两个方向发力~ 8月7日-8月9日,2020年全球人工智能和机器人峰会(简称"CCF-GAIR 2020") ...
岗位推荐 | 京东AI研究院招聘计算机视觉算法实习生
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「pwbot02」. 我们是京东集团-人 ...

京东AI研究院何晓冬：将先进的技术和模型落地到产业

京东AI研究院何晓冬：将先进的技术和模型落地到产业相关推荐

最新文章

热门文章