2020腾讯广告算法大赛专题直播周是由腾讯广告打造的一档大咖直播活动,特邀2020腾讯广告算法大赛的专家评委,针对联邦学习、机器学习、大数据等前沿领域的核心话题进行分享,并为算法爱好者们答疑解惑。我们特此将本次直播周的三期内容提炼成问答集锦,帮助算法爱好者们快速了解直播干货,学习算法知识,加深对前沿技术与应用的全面理解。

直播背景

直播嘉宾

刘鹏
大数据与人工智能专家、科大讯飞副总裁

直播主题

《数据的力量从何而来》

直播内容

以数据的视角,展开前沿技术分享,解读深度学习工作原理以及实践应用。以计算广告为例,纵览人工智能领域的发展和变革。

众所周知,互联网是数据的世界。然而面对大规模的数据量,如何有效的利用数据、挖掘它们的商业价值,成为当下所有企业都将面临的新挑战和新命题,深度学习的应用正是解决此类问题的关键一环。深度学习是如何有效释放数据力量的?在人工智能领域,深度学习又有哪些前沿的实践和应用呢?让我们一起来看看吧。

01 人工智能的热潮从何而来

Q:最近几年人工智能技术非常火热,它是如何产生的?
A: 人工智能技术的历史已经超过了60年,其中经历了三次热潮、两次低谷。

人工智能(Artificial Intelligence)概念最早是在1956年的Dartmouth会议上由几位知名学者共同提出。当时他们想把人类会的东西写成各种规则,只要让机器去执行这些规则就可以模仿人类的各种行为。这就是专家系统,这个时期也是人工智能的第一次热潮。

但专家系统的表现非常糟糕,大家很快就发现这种方法是不行的,没有人继续看好人工智能。大多数人也停止了对人工智能的研究,这就形成了1980年前后的第一次人工智能寒冬。

二十世纪90年代,人工智能的第二次热潮爆发。这次不是依靠人给机器写规则,而是让数据教机器如何模仿人类的各种行为。比如在语音识别中,用统计的方法把a、o、e等发音的实际波形描绘出来,通过波形的不同来判断对应的发音,效果也确实比专家系统好很多。但优化后的效果仍然有限,不足以应用于实际场景,所以又迎来了2000年的第二次人工智能寒冬。

如今我们处于以深度学习、神经网络为代表技术的第三次人工智能热潮。在这次热潮里,很多技术都得以落地,进行实际应用、解决实际问题,较之前两次有了质的飞跃。

02 海量数据可以解决业务问题

Q:为什么深度学习这么厉害,能掀起如此大的热潮?
A: 深度学习能从海量数据中进行学习,越多的数据就有越好的效果。虽然人工智能第二次热潮和现在的第三次热潮都是从数据学习开始的,但是第二次热潮的数据只有实验室自己采集的少量数据。以科大讯飞为例,2012年科大讯飞语音输入法和开放平台上线,所有使用科大讯飞引擎的人都可以贡献数据。从此开始,科大讯飞的语音识别错误率每年都相对下降30%以上,从2012年的14.3%错误率到了2018年的1.6%错误率。这样的错误率已经是普通用户可以接受的了,也让更多人开始使用语音识别,贡献更多数据。

Q:AlphaGo下围棋能赢柯洁,但AI客服、智能音箱却连最日常的对话都做不好,这是为什么?
A: 关键的区别还是在于数据。AlphaGo在训练过程中自己创造了海量的棋局数据,持续从数据中学习,提高棋技。但日常对话涉及到很多常识,比如“爸爸抱不动儿子了,因为他太胖了”和“爸爸抱不动儿子了,因为他太瘦了”这两句话,需要根据常识来理解“他”指代的对象,才能理解句子意思。复杂的、专业性的知识都能找得到文本参考,但常识性的知识只有比较少的文本或数据让AI来学习,所以现阶段的人工智能方法解决不了很多对人类来说很简单的问题。

03 数据可以从业务问题中产生

Q:2020腾讯广告算法大赛中的题目是从真实的业务数据中来的,那么从事互联网广告的相关工作是不是和这次比赛的内容很相似?
A: 这两者之间是有区别的。首先,比赛中的数据是给好的、可以直接使用的,但现实中需要考虑数据从哪里来,如何获得大规模的数据让模型学习。另外还有一个更重要的区别,传统上我们是先提出一个问题,然后收集这个问题相关的数据;而如今,搬到互联网上的业务就会天然地产生数据,有了数据后再反过来找能用数据优化的问题,进一步优化它。计算广告和互联网广告的行业遵照的正是“先有数据、再提出问题”的发展路径。谷歌2018年收入1200亿美元,2019年1月份在Facebook上投广告的客户总量达到700万。所以实际工作中,掌握分析数据、提出问题的能力,远比熟悉具体的模型和方法重要。

Q:能不能举例说明“先有数据、再提出问题”是怎么样的?
A: 比如你要做一个独立的电商网站卖东西,你会先去大的网购平台上挑选货品,把可能会畅销的东西放在你的电商网站上。在这个过程中,货品的各种特征、说明、实际的销售情况就组成了数据,可以根据这些数据学习一个模型,自动地估计不同商品的畅销程度,从中挑选排名最靠前的就可以。这种做法最大的好处是规模大,选品人员一天只能分析几十、上百种商品,模型一天能分析几百万种商品。

类似的独立电商后续环节,包括多语言化的商品介绍、给哪些商品投放广告、投广告的预算是多少、进行多长时间的投放测试等,这些环节都会产生数据,而且可以用数据持续地优化,让模型自动执行,用很少的人力做到非常大的规模和非常好的效果。

所以,只需要收集整理数据、从已有数据里发现问题,就可以反过来再用数据优化这些问题。这个过程中产生越多的数据,就可以带来越好的优化结果,最终创造更大的价值。

04 “人的判断”和“从数据中学习”孰轻孰重

Q:人有常识、有经验、有逻辑推理能力,模型的优化结果应该很难超越人的判断吧?
A: 人的判断也会有出错的时候。经常有人说,“我已经从购物平台购买某件商品,近期不会再买了,为什么还是一直看到同一件商品的广告,是不是算法有问题?”实际上,如果给全体用户推荐这个广告,大多数人可能都对这个商品没有了解、没有兴趣,转化率就很低;但购买过的人,因为了解、感兴趣,转化率可能高出一个数量级。广告推荐算法的优化目标是让“收入减成本”最大化,算法通过演算发现,同样的广告展示次数,购买过的人看到就能带来更高收入,从而做出了和人判断不一样的广告推荐。这也是机器的一个好处,只要程序没有问题,就可以从数据中找到切实有效的优化方向。

Q:现在都说“大数据“,数据会不会多到人类筛选困难,只能依靠机器?
A: 这个问题是存在的。独立电商的选品问题就能说明,电商网站上的产品规模极大,可能上千万、上亿的SKU。让一个人在上亿的SKU里找哪些东西最近卖的比较好,根本没有办法解决。人工筛选的过程其实是挂一漏万的,大部分可能热卖的产品都是人想不到的。

但如果用爬虫把所有商品数据都抓下来,就可以用排序模型,通过类似搜索引擎的模式,找出其中的好商品来。对于某个具体商品,可能模型的效果不会比人好,因为人有常识、有自然语言处理能力。但一天的时间,模型可以处理成千上万种商品,人最多也就几百个,大部分好的东西人都会漏掉。所以大规模的问题都要靠机器完成,很难靠人来解决。

常见问题

Q:从库存管理的角度看,数据挖掘学习能预测库存变化、提前补货吗?能预测还没上市产品的销量吗?
A: 对于大型电商平台来说,自动预测库存变化、自动补货的系统是有的,而且是规模化使用的。如果平台很小或者只有几件产品在卖,这样销量的波动会非常大,预测也很困难。

Q:互联网广告领域,虚假流量已经非常泛滥,对广告主来说CPL不具有参考价值,广告主是看下单来评估投放效果的。那么像CPC、CPM的结算还有意义吗?按CPL结算会不会反过来遏制流量作弊?
A: 建议大家看一下《互联网广告作弊十八般武艺(上)》和《互联网广告作弊十八般武艺(下)》这两篇文章。

改结算方式的思路是好的,但按照CPL、CPA或者CPS这种按效果结算的广告作弊更容易,原理也很简单,就是截别人的数据。无论怎么算归因,一定有很多漏洞。所以有大量的作弊方法,能把原来归因到A渠道的转化放到B渠道,张冠李戴。

自从有广告业务以来作弊情况就一直存在,仅仅依靠使用CPL或CPA结算是无法消除。而且根据实践情况来看,用CPC或CPM结算是当前最好的方法。

关于虚假流量的问题,整个互联网广告领域都非常重视,相信随着各方的努力,未来,虚假流量的问题一定会越来越少。

还想了解更多精彩内容?点击直播链接,观看**《数据的力量从何而来》**直播回放!

拓展阅读

【问答集锦】联邦学习让隐私保护和海量数据学习兼得!
【问答集锦】减少专家依赖,自动化机器学习如何实现AI普惠?

【问答集锦】从数据中挖掘宝藏,深度学习赋予机器更多“思想”相关推荐

  1. 论文浅尝 - WWW2020 | 通过对抗学习从用户—项目交互数据中挖掘隐含的实体偏好来用于知识图谱补全任务...

    笔记整理 | 陈湘楠,浙江大学在读硕士. 现有的知识图谱补全方法都在试图设计全新的学习算法,来使用已知的事实信息去推理知识图谱中的潜在语义.但随着知识图谱的广泛使用,知识图谱中的许多实体对应着应用程序 ...

  2. 风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量

    风控建模十二:数据淘金--如何从APP数据中挖掘出有效变量 1.常识知识 2.个例分析 3.分布排查 智能手机的诞生改变了人类的生活方式,智能手机所承载的功能日臻完善.强大,人们在衣.食.住.行.工作 ...

  3. 近期活动盘点:心电数据标注系统和深度学习诊断算法研究、2019年第六届清华大学大数据社会科学讲习班...

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第四期医工结合研讨会:心电数据标注系统和深度学习诊断算法研究 2019年7月11日 7月11日,"医工结合系列研讨会第四期会议: ...

  4. 数据不够怎么训练深度学习模型?不妨试试迁移学习 ——重用神经网络的结构2...

    数据不够怎么训练深度学习模型?不妨试试迁移学习 本质就是这个图!pretrained model就是你截取的部分神经网络模型(迁移学习),而nanonet就是你自己加入的网络层. 随着深度学习技术在机 ...

  5. 深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

    作者 | 车漾(阿里云高级技术专家).顾荣(南京大学 副研究员) 导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7 年的不断开发迭代,支撑大数据处理场景的数 ...

  6. 仿真的数据能否用来深度学习_数字孪生弥合了深度学习的数据鸿沟

    点击上方"蓝色字体",选择 "设为星标" 关键讯息,D1时间送达! 随着企业开始使用可将其数据投入使用的深度学习(DL)项目,他们必须保护这些数据,而数字孪生是 ...

  7. 为何基于树的模型在表格型数据中能优于深度学习?

    为何基于树的模型在表格型数据中能优于深度学习? FesianXu 20220908 at Baidu Search Team 前言 基于树的模型(Tree-based model),比如GBDT,XG ...

  8. 阿里云原生实践:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

    导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟.然而,随着云原生人工智能(Clou ...

  9. 数据异质性会影响深度学习变化检测模型的迁移能力,请列出提升模型迁移性的解决思路...

    数据异质性会导致深度学习变化检测模型的迁移能力降低.可以采用以下解决思路来提升模型的迁移性: 数据预处理: 对于不同类型的数据进行标准化处理,使得模型能够更好的适应不同的数据类型. 模型正则化: 通过 ...

最新文章

  1. oracle emctl
  2. 深入解析Linux中的fork函数
  3. C#项目评审提问问题集锦
  4. 图像 pipeline_多面体优化,Pipeline与深度学习编译器
  5. php怎么在html上得到input值,怎么把一個php頁面的值傳到另一個html表單中的input里面去...
  6. 打游戏时领悟了“向死而生”,这个AI算法真的不虚强化学习
  7. 高可用Redis(四):列表,集合与有序集合
  8. ConstraintLayout 完全解析 快来优化你的布局吧
  9. Mybatis-Plus 自定义 id 生成器
  10. 异数OS 织梦师-纤手(二)-- LPC RPC篇
  11. 51单片机12864液晶显示模块控制
  12. 《软件工程》实验一:可行性分析
  13. Oculus客户端在Win10上面无法安装或者登陆的解决方法
  14. mux decoder selector详解
  15. 数控雕刻机和数控铣床都有什么区别
  16. Excel导出数据 基于注解实现 复制即可用
  17. 【shell案例】CentOS7安装MySQL脚本案例
  18. Matlab使用Usrp进行数据收发
  19. lbaas l7 policy
  20. A1003 Emergency

热门文章

  1. SAP License:无奈的采购处理时间
  2. 前篇|信贷监控报表的设计
  3. Hive与Hbase数据表关联
  4. 天池实验室-Task01-Python入门(上)
  5. 3.深度学习的实用层面
  6. 从你月入2000元开始规划你的人生...
  7. 测开5 - Python(模块、操作数据库、操作Excel、加密)
  8. 'htmlentities(): charset `utf8' not supported, assuming utf-8'
  9. 一句话的设计模式(JAVA版)
  10. 关于excel导出问题