聚焦CSDN技术主题月：深度学习框架的重构与思考专场回顾

10月15日下午，在北京兆维大厦，由CSDN社区主办的技术主题月系列之——《深度学习框架的重构与思考》活动成功举办。CSDN邀请了用友畅捷通人工智能负责人张俊林、创业公司大数据总监周步恋、亮风台高级算法研究员史信楚、IBM中国研究院高级研究员薛超共同围绕“深度学习”这个热点话题，分享了深度学习方向创业、深度学习如何教机器学会阅读理解、深度学习与AR的结合、分布式深度学习做监测分析以及优化等议题。近200位开发者利用周末参加了本次活动，现场提问踊跃，嘉宾互动很有深度。

CSDN产品运营姚前担任活动主持人

创业公司大数据总监周步恋：深度学习方向创业

开篇周步恋为开发者深入介绍了几个概念：机器学习、深度学习、人工智能。

其中人工智能是最大的概念。这些年来IT届所关注的数据挖掘、深度学习、机器学习、自然语言，各种统计概率，很多机器的高并发，各种运算，其追求的本质可以说就是人工智能。人工智能不是一两天就能达到，有可能要几十年、几百年，甚至能不能达到现在很多人还在论证。

机器学习是实现人工智能最普遍的方法，在这十几年来在搜索中用得比较多，概括来说就是使用算法分析数据、实践、学习，然后对真实的事实做出决策或预测。

深度学习就是机器学习的一种方法。有了深度学习这几年技术突破，人工智能将可能被带向原来教科书上的概念，生活中很多行业，包括医疗、互联网安全，包括搜索、旅游各种服务都会提升。深度学习是最小的范围，但是深度学习可能影响最广大。

接着，周步恋为开发者展示了深度学习的国外创业图谱。

并对以下几点进行浅析：

从资金和数据方面分析了为什么中国创业公司不做Alpha Go这样的深度学习和人工智能。

图像识别是现在是深度学习极有可能突破的一个领域。

情感识别技术可以被用来预防儿童拐卖及提前识别小偷。

当深度学习网络到了百层、千层，在网络安全方面的应用可能是意想不到的。

医疗方面，找一个医生和找十个医生做的结论未必一样，所以深度学习在医疗方向是极有可能突破的。

最后，周步恋对深度学习的未来做了如下几点畅想：

工具一旦开源，深度学习的发展速度会非常快。

人类的知识经验每个人都不一样，深度学习在这个方面还有待突破，远远不够。

推广方面，深度学习极有可能对诈骗、拐卖儿童，或者抑郁症提前进行预判，有了情感识别政府就不用反腐了。

提问环节，周步恋针对样本的获取问题回答开发者的提问：

开发者：您刚才说样本的问题，样本搭建国内有没有提供。
周步恋：样本做不同领域样本可能不一样，现在尤其做数据公司把数据视为核心的资产，现在数据开放在国内基本做不到，因为数据是他的资产，很多公司仅仅是抱着数据就能让自己过得很好。
开发者：现在获得数据源非常少，做深度学习样本非常少。
周步恋：所以现在做深度学习还要在大公司，或者某个领域拿到垂直的数据，拿到医疗创业必须拿到现在医院诊疗数据，如果仅仅去想就没法做。

用友畅捷通人工智能负责人张俊林：深度学习如何教机器学会阅读理解

张俊林首先为开发者分享了他所感兴趣的几个话题：

为什么深度学习相对传统的方法来说有大幅度的提高，原因在哪？

聊天机器人，将来应用的门户的控制形态就是聊天机器人。

阅读理解，实例就是搜索引擎，搜索引擎从工业或者产业角度已经是很成熟的产业了，但是要从产品形态过程和技术发展来说，目前搜索还是比较原始的。

张俊林此次分享主要围绕着第三点，即阅读理解展开。深度剖析了如下几个方面：

什么是机器阅读理解

目前机器做阅读理解常见的三种形态：
人工合成阅读理解：阅读理解是一篇文章，人工合成是说这篇文章不是自然语言人写的，而是人把语言极度简化。用几句话构成的场景，每句话极简化，谁做什么事，对什么物品做什么事，就构成一个场景。“Sam走进了厨房。”“拿起苹果。”“又走进了卧室。”“把苹果放到卧室。”现在机器理解这四句话，问题是苹果在什么位置。这题机器现在可以做对的，会告诉你在卧室。看上去简单，实际不简单。如果用传统方式做有两个地方出现苹果所在的场景，一个是厨房，第二在卧室，如果答不对就是苹果在厨房。正确回答是有推理步骤，先在厨房，后来到了卧室放下苹果，实际没有想象中那么简单。这是一种阅读理解的形态。

新闻的片段阅读理解：给新闻的片段，机器理解片段，给出问题要求机器给出答案。这个有特点的地方是新闻里人名、地名、电影名全部替换掉，用entity12345代替实体，问的问题跟实体有关，告诉我这个位置上应该是哪个实体的正确答案，如果真正理解能够正确推出来这个实体在这个位置。这叫做完形填空任务。

托福听力理解：人参加托福考试，那边播放录音介绍一个故事提问题，从选择里选择正确答案。现在这个例子完全由机器做托福阅读理解，目前准确率还可以，在50%左右。但是跟刚才有点不一样的是这里是选择题。

目前用深度学习是怎么做到让机器能够理解文章的，并介绍了三种表示文章的模型。

文章的三种匹配模型，即一维模型、二维模型、深度学习推理机制。

最后，张俊林对深度学习的阅读理解做了总结与展望：

深度学习做机器阅读理解时间也就一年，可以说进展已经很大了，一年时间出了至少几十个模型出来。但是问题在，首先数据集合有问题，现在数据集合有几类，一类要不规模太小，学习神经网络包含这么多参数的模型一定没办法做复杂模型的。第二很多数据是人工合成的。第二个模型单一，根据刚才归纳就是一维、二维、推理模型。第一二维模型需要更深入探索，二维模型就是Attention，实际你还可以有很多探索做，包括匹配函数，包括二维匹配模型都是非深度的，你可以套深度的用一下。

世界知识的引入，对于人真正想理解一篇文章，世界知识一定要，就是人分男人女人，但是机器是不知道的，刚开始为了简化问题把世界知识排除在外，但是随着像人一样达到阅读理解程度必须把世界知识引入到模型里来。推理机制需要完善，说到底核心就是注意力焦点不断转移，还是比较单一，这还需要有新的机制推出来。

亮风台高级算法研究员史信楚：深度学习与AR的结合

首先，史信楚对亮风台技术及AR/VR技术做了简要的介绍。并着重对AR关键技术的三个部分做了讲解：

3D环境理解：对环境理解就是识别和定位，要知道什么东西在什么地方。识别和地位根据形式可以分为粗定位和细定位，粗定位就是视觉上（比如图像粗定位在什么地方可以给一个形式），细定位要精确到点，或者基于XYZ的坐标，包括角度。粗定位力度和细定位力度都是AR需求，要知道你的产品想做多么精确，或者只是做一个效果。需要强调的是3D环境理解是一个基础，跟深度学习接触最紧密。3D环境理解学术界里主要是计算机视觉，计算机视觉在深度学习驱动下得到迅速发展：显示技术和虚实交互、光场技术、全息投影、语音、手势、触觉、人脸，这些在深度学习里都有很大的应用。

3D物体识别：对3D场景建模，从识别物体扩大到更大的区域：识别场景，知道场景里面有哪些东西和方位。这叫做三维建模和重构，这是AR比较核心的东西。我需要知道物体的位置，而且要知道它是什么。

手势：现在手势AR里应用还没有特别多，这是有些原因的。深度学习在AR里有用是因为其从语意层次上做了区分，AR从技术上来说从普通2D到3D到场景理解，语意逐渐加强的。我们一般通过关键点的匹配，这个深度学习用得就不太多。但是普通的3D识别就可以有很多，比如文字识别、人体检测、表情识别、场景识别、行为识别，比如戴AR眼镜在商店里扫描识别商品文字可以对应出相应宣传或者效果，不管是信息还是AR宣传效果。人体检测也一样，现在也有需求，因为现在以人为中心，商场里如果有人进入可能会首先检测出来相关的效果。总体来说识别和检测特别多，因为识别是看作一个接口，如果识别出来后面可以做很多东西，所以识别是很强的接口，有了这个接口后面AR内容就可以定制了。但是各方面AR里用得不太多，我们也在探索，有些针对AR特点有限制。

IBM中国研究院高级研究员薛超：分布式深度学习做监测分析以及优化

首先，薛超为开发者分析了传统的机器学习与深度学习的不同、分类器、贝叶斯网络、决策树等概念。

简单介绍后，进入巡查哦本次分享的核心问题：分布式如何作为分布式的拓展，并主要介绍在SPARK怎么进行分布式拓展。

这是著名的SPARKNet，如果大家对SPARK稍微知道一点就能明白，很多工作跑着，跟MASTER通信，每次叠加结束之后把数据传给它，master做简单平均分后，发回来再做下一次。这瓶颈是非常大的，因为传输量非常大，而且单点问题比较压力，master压力也非常严重。这种情况下分布式计算跟一台机计算效果如果设不好，还不如一台机计算。所以伯克利做SPARKNet就把传统做了优化，就是别每次都传了，隔一段时间传我一次，但是如果隔一段时间传就是同步和异步的折中，完全异步可能不收敛了，在保证这些东西收敛情况下尽量增大传输间隔。这两个公式可以算最后的时间。于是，给出了测试结果，发现想跑成三倍快的效率需要六台机器，隔多长时间通信一次这里也有说明，大概什么情况下效率最好。这个图看到SPARKNet更为平缓了，如果SPARK做深度学习是首选，开发这个人跟做SPARK是一拨人，未来会不会加入SPARK上也是非常期待值得。但是不可避免瓶颈在SPARK是有的，这跟控制通信的。

并介绍了雅虎的CaffeOnSPARK

很多公司深度学习数据在一起，机器学习数据在一起，数据本身就是并行，而不是算法并行的。这是以前的一个问题，雅虎说，以前数据预处理的时候做准备，数据搬到深度学习上去，把模型算好又回来，这里有来回的数据迁移，大规模应用肯定是很大的瓶颈。说能不能想都用Hadoop存这些数，都用它操作深度学习，当然这个想法是非常好的。那你需要在SPARK支持深度学习，你把它看成应用，跟MLLib一样，试图写这样的库。跟刚才的图是完全不一样的，它避开了单点失效的问题，是用MPI分布式方法，通过互相传输通信。当然了有LMA提高通信速度做同步，它也有自己的方法。这种刚出来大家觉得这个想法非常好，这个东西俨然就是趋势，但是后来也是没有搞成，但是思想还是很值得大家借鉴，没有搞成原因主要因为MPI东西不好管理。SPARK虽然种种不是，但是最大好处是容错，SPARK算错之后可以容错，可以回来，可以再算。但是如果MPI管理怎么管是大问题。第二个因为雅虎公司跟谷歌不一样，所以说维护人员也会变得很少，在推荐下面就渐渐落下风。

接下来，薛超向开发者解读了深度学习的趋势：

异构的计算：不是纯CPU计算，未来会有更多资源融入到深度学习上来，比如PGA。

分布式深度学习的framework

服务：因为深度学习门槛非常低。低的门槛就要求以后深度学习服务跟用户来说交互更为方便，作为一种深度学习服务就是趋势。

最后，薛超向研发者介绍了通过实践所涉及的Hyperparameter的选择。