【问答集锦】从数据中挖掘宝藏，深度学习赋予机器更多“思想”

2020腾讯广告算法大赛专题直播周是由腾讯广告打造的一档大咖直播活动，特邀2020腾讯广告算法大赛的专家评委，针对联邦学习、机器学习、大数据等前沿领域的核心话题进行分享，并为算法爱好者们答疑解惑。我们特此将本次直播周的三期内容提炼成问答集锦，帮助算法爱好者们快速了解直播干货，学习算法知识，加深对前沿技术与应用的全面理解。

直播背景

直播嘉宾

刘鹏
大数据与人工智能专家、科大讯飞副总裁

直播主题

《数据的力量从何而来》

直播内容

以数据的视角，展开前沿技术分享，解读深度学习工作原理以及实践应用。以计算广告为例，纵览人工智能领域的发展和变革。

众所周知，互联网是数据的世界。然而面对大规模的数据量，如何有效的利用数据、挖掘它们的商业价值，成为当下所有企业都将面临的新挑战和新命题，深度学习的应用正是解决此类问题的关键一环。深度学习是如何有效释放数据力量的？在人工智能领域，深度学习又有哪些前沿的实践和应用呢？让我们一起来看看吧。

01 人工智能的热潮从何而来

Q：最近几年人工智能技术非常火热，它是如何产生的？
A：人工智能技术的历史已经超过了60年，其中经历了三次热潮、两次低谷。

人工智能（Artificial Intelligence）概念最早是在1956年的Dartmouth会议上由几位知名学者共同提出。当时他们想把人类会的东西写成各种规则，只要让机器去执行这些规则就可以模仿人类的各种行为。这就是专家系统，这个时期也是人工智能的第一次热潮。

但专家系统的表现非常糟糕，大家很快就发现这种方法是不行的，没有人继续看好人工智能。大多数人也停止了对人工智能的研究，这就形成了1980年前后的第一次人工智能寒冬。

二十世纪90年代，人工智能的第二次热潮爆发。这次不是依靠人给机器写规则，而是让数据教机器如何模仿人类的各种行为。比如在语音识别中，用统计的方法把a、o、e等发音的实际波形描绘出来，通过波形的不同来判断对应的发音，效果也确实比专家系统好很多。但优化后的效果仍然有限，不足以应用于实际场景，所以又迎来了2000年的第二次人工智能寒冬。

如今我们处于以深度学习、神经网络为代表技术的第三次人工智能热潮。在这次热潮里，很多技术都得以落地，进行实际应用、解决实际问题，较之前两次有了质的飞跃。

02 海量数据可以解决业务问题

Q：为什么深度学习这么厉害，能掀起如此大的热潮？
A：深度学习能从海量数据中进行学习，越多的数据就有越好的效果。虽然人工智能第二次热潮和现在的第三次热潮都是从数据学习开始的，但是第二次热潮的数据只有实验室自己采集的少量数据。以科大讯飞为例，2012年科大讯飞语音输入法和开放平台上线，所有使用科大讯飞引擎的人都可以贡献数据。从此开始，科大讯飞的语音识别错误率每年都相对下降30%以上，从2012年的14.3%错误率到了2018年的1.6%错误率。这样的错误率已经是普通用户可以接受的了，也让更多人开始使用语音识别，贡献更多数据。

Q：AlphaGo下围棋能赢柯洁，但AI客服、智能音箱却连最日常的对话都做不好，这是为什么？
A：关键的区别还是在于数据。AlphaGo在训练过程中自己创造了海量的棋局数据，持续从数据中学习，提高棋技。但日常对话涉及到很多常识，比如“爸爸抱不动儿子了，因为他太胖了”和“爸爸抱不动儿子了，因为他太瘦了”这两句话，需要根据常识来理解“他”指代的对象，才能理解句子意思。复杂的、专业性的知识都能找得到文本参考，但常识性的知识只有比较少的文本或数据让AI来学习，所以现阶段的人工智能方法解决不了很多对人类来说很简单的问题。

03 数据可以从业务问题中产生

Q：2020腾讯广告算法大赛中的题目是从真实的业务数据中来的，那么从事互联网广告的相关工作是不是和这次比赛的内容很相似？
A：这两者之间是有区别的。首先，比赛中的数据是给好的、可以直接使用的，但现实中需要考虑数据从哪里来，如何获得大规模的数据让模型学习。另外还有一个更重要的区别，传统上我们是先提出一个问题，然后收集这个问题相关的数据；而如今，搬到互联网上的业务就会天然地产生数据，有了数据后再反过来找能用数据优化的问题，进一步优化它。计算广告和互联网广告的行业遵照的正是“先有数据、再提出问题”的发展路径。谷歌2018年收入1200亿美元，2019年1月份在Facebook上投广告的客户总量达到700万。所以实际工作中，掌握分析数据、提出问题的能力，远比熟悉具体的模型和方法重要。

Q：能不能举例说明“先有数据、再提出问题”是怎么样的？
A：比如你要做一个独立的电商网站卖东西，你会先去大的网购平台上挑选货品，把可能会畅销的东西放在你的电商网站上。在这个过程中，货品的各种特征、说明、实际的销售情况就组成了数据，可以根据这些数据学习一个模型，自动地估计不同商品的畅销程度，从中挑选排名最靠前的就可以。这种做法最大的好处是规模大，选品人员一天只能分析几十、上百种商品，模型一天能分析几百万种商品。

类似的独立电商后续环节，包括多语言化的商品介绍、给哪些商品投放广告、投广告的预算是多少、进行多长时间的投放测试等，这些环节都会产生数据，而且可以用数据持续地优化，让模型自动执行，用很少的人力做到非常大的规模和非常好的效果。

所以，只需要收集整理数据、从已有数据里发现问题，就可以反过来再用数据优化这些问题。这个过程中产生越多的数据，就可以带来越好的优化结果，最终创造更大的价值。

04 “人的判断”和“从数据中学习”孰轻孰重

Q：人有常识、有经验、有逻辑推理能力，模型的优化结果应该很难超越人的判断吧？
A：人的判断也会有出错的时候。经常有人说，“我已经从购物平台购买某件商品，近期不会再买了，为什么还是一直看到同一件商品的广告，是不是算法有问题？”实际上，如果给全体用户推荐这个广告，大多数人可能都对这个商品没有了解、没有兴趣，转化率就很低；但购买过的人，因为了解、感兴趣，转化率可能高出一个数量级。广告推荐算法的优化目标是让“收入减成本”最大化，算法通过演算发现，同样的广告展示次数，购买过的人看到就能带来更高收入，从而做出了和人判断不一样的广告推荐。这也是机器的一个好处，只要程序没有问题，就可以从数据中找到切实有效的优化方向。

Q：现在都说“大数据“，数据会不会多到人类筛选困难，只能依靠机器？
A：这个问题是存在的。独立电商的选品问题就能说明，电商网站上的产品规模极大，可能上千万、上亿的SKU。让一个人在上亿的SKU里找哪些东西最近卖的比较好，根本没有办法解决。人工筛选的过程其实是挂一漏万的，大部分可能热卖的产品都是人想不到的。

但如果用爬虫把所有商品数据都抓下来，就可以用排序模型，通过类似搜索引擎的模式，找出其中的好商品来。对于某个具体商品，可能模型的效果不会比人好，因为人有常识、有自然语言处理能力。但一天的时间，模型可以处理成千上万种商品，人最多也就几百个，大部分好的东西人都会漏掉。所以大规模的问题都要靠机器完成，很难靠人来解决。

常见问题

Q：从库存管理的角度看，数据挖掘学习能预测库存变化、提前补货吗？能预测还没上市产品的销量吗？
A：对于大型电商平台来说，自动预测库存变化、自动补货的系统是有的，而且是规模化使用的。如果平台很小或者只有几件产品在卖，这样销量的波动会非常大，预测也很困难。

Q：互联网广告领域，虚假流量已经非常泛滥，对广告主来说CPL不具有参考价值，广告主是看下单来评估投放效果的。那么像CPC、CPM的结算还有意义吗？按CPL结算会不会反过来遏制流量作弊？
A：建议大家看一下《互联网广告作弊十八般武艺（上）》和《互联网广告作弊十八般武艺（下）》这两篇文章。

改结算方式的思路是好的，但按照CPL、CPA或者CPS这种按效果结算的广告作弊更容易，原理也很简单，就是截别人的数据。无论怎么算归因，一定有很多漏洞。所以有大量的作弊方法，能把原来归因到A渠道的转化放到B渠道，张冠李戴。

自从有广告业务以来作弊情况就一直存在，仅仅依靠使用CPL或CPA结算是无法消除。而且根据实践情况来看，用CPC或CPM结算是当前最好的方法。

关于虚假流量的问题，整个互联网广告领域都非常重视，相信随着各方的努力，未来，虚假流量的问题一定会越来越少。

还想了解更多精彩内容？点击直播链接，观看**《数据的力量从何而来》**直播回放！

拓展阅读

【问答集锦】联邦学习让隐私保护和海量数据学习兼得！
【问答集锦】减少专家依赖，自动化机器学习如何实现AI普惠？