专访腾讯数据平台部总经理蒋杰:腾讯数十亿广告的基础是精准实时推荐

虎嗅注:本文是福布斯中文网“数据大玩家”专栏中的一篇文章。接受提问的蒋杰先生,是腾讯数据平台部总经理,在加入腾讯前,他曾经是支付宝的数据经理。提问的车品觉先生,是中国信息协会大数据分会副会长。
在过去几年,你在腾讯做了什么来推动大数据的应用?
过去三年,我一直在坚持一件事:推动大数据的实时应用。现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力。有了这个能力,就可以做很多商业化行为的模式。
目前腾讯收集的数据已经超过了1万亿条, 计算机规模已经超过了8千8百台。这么庞大的数据如果能实时处理,就能发挥出巨大的商业价值。这个商业价值就是精准推荐。
每年腾讯几十亿的广告,其基础来自于数据的精准推荐。实时数据推荐还可以用于视频的推荐,腾讯音乐推荐,新闻客户端的推荐,游戏道具的推荐,等等。
目前我们做到从数据进来到投放数据,延时不会超过50毫秒。有这个技术基础,腾讯的精准推荐才有了基础。
从内部管理而言,实时也降低了成本。因为实时数据处理可以用足“每一秒”。传统的数据仓库一般从晚上零点到第二天早上八点,做数据截断、抽取和处理,因为早上九点老板就要看数据报告了。数据处理的时间只有一天之中的三分之一,其他时间都是空闲的。
当我们把数据做到实时处理的事后,实际意义是将分析时间成本分摊到全天,成本更低。同时这也有利于控制风险,因为只要一出错马上可以监控,迅速回滚。
所以你将大部分精力放在了“实时”上,你为什么认定“实时”会为腾讯增加更多的商业价值?
数据首先是有时效性的,一秒钟前的行为和一秒钟后的行为有着天差地别。
以往我们通过统计数据,得出规律,找到用户喜好。而现在实时变得更为重要。前一秒你看了母婴内容,那么几秒内就应该推送相关广告,转化率会比较高。如果你还在推送几天前,这个用户看足球的数据信息,这个生意就很难做下去了。
在腾讯,我们分三个领域各自研究精准推荐:数据整理、实时计算、算法研究。我深知,实时计算是关键核心。
在我的脑海中,一切数据必须以消息为中心,实时处理、提炼瓜分。实在解决不了的数据,再做离线分析。
比如一张照片,在数据处理端口肯定首先被实时过滤,这张照片是在哪里拍的?其中几个人,通过什么方式拍摄的?在所有数据收集处理完之后,我可能还需要找这张图片与其他图片的关联关系,这时才会做离线处理。
腾讯基本上90%以上的数据都是在线实时处理。我一直在坚持将腾讯的数据集中起来,放在一个平台体系之下,这其实是来自阿里巴巴的教训。(蒋杰原来在支付宝数据部门工作)阿里巴巴的数据直到今天还是四分五裂。
其实,我对于数据的实时经验也是在支付宝时期积累的。当时我学到的一点是,如果没有搜索引擎的支撑,就根本无法做数据分析。当时很多人都说,没有办法让数据在6秒内被搜索出来,而我坚持认为可以达到。
实际上,现在在腾讯,一万五千个字段,在3秒之内所有的数据交叉都可以实现。这是一个做技术的本分。
在实时这个领域,技术上的难点是什么?
我一直在慢慢弱化数据仓库,逐步走向实时数据仓库。其中最大的问题是,如何实现数据实时获取?
数据实时处理的前提,首先是实时采集。我的办法是一方面和业务部门谈好,另一方面我将数据采集文件部署到所有的机器里,从安装操作系统的时候就写入数据采集文件。这样,腾讯所有40万台机器都可以协同操作。
过去两年,腾讯从原来的一小时响应,到现在一秒钟精准推送,CTR (点击率)能提升20%。规模越大效果越明显。
精准推荐有三大要素,第一是数据,第二是实时,第三是算法。
首先要有强大的数据,如果数据缺失什么都干不了;第二,效果明显的是实时,第三才是优化算法。这是整个精准推荐体系的核心。实时在其中排在第二,我们的实践证明, 在什么都没变的情况下,频率改变带来了整体收入的提升。
在解决了获取数据之后,数据底层所遭遇的最大困难是什么?
眼下的挑战在于深度学习。大数据时代,腾讯有200PB的图片数据,如何去挖掘图片数据的价值?如何去挖掘语音数据的价值?
我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提炼商业价值?这包括了深度学习的DNN和CNN技术,包括如何做文本之间相似度的关系。这都是需要突破的点。
微信所有的语音训练都是深度学习的办法来处理。比如,每当你在用微信放语音的时候,机器自动翻译成文字,就是靠深度学习网络来训练的。但目前,计算能力依然是一个门槛,这个能力并非我们想象这么轻松,需要更多计算技术来改进。
未来数据处理会有剧烈的改变么?
硬件决定了数据的能效。数据规模越大,数据展现的方式会越多,未来实时计算的处理需求会越来越旺盛。相信未来,能贴合更多应用场景的高效计算引擎会出现,这是我对未来的判断。
很明显的是,如果当前一秒的数据没有处理完整,提炼清楚,随后的分析成本就会越来越高,而数据的价值则越来越低。所以,在未来,高效计算引擎和存储引擎的出现,会对大数据发展有突飞猛进的效用。
后记:
在蒋杰看来,没什么比实时更重要。在腾讯,他敏感意识到实时数据对于广告的价值,所以把大部分精力放到实时处理数据以及如何优化广告投放上。
今天很多公司的数据仓库是离线的,也因此数据距离实际业务很遥远,这个距离不仅仅是无法实时反应,更多在于无法保证数据的稳定和质量。
以此而言,数据实时化是业务与数据的结合的关键。
但实时数据并非终点。
每秒都在生产新数据,新数据与既有数据之间的关系如何梳理?假如我们一直通过数据收集、分析得知,电脑前坐着的是一只狗,但假如某天的数据收集显示,它会猫叫。那么我们能判断电脑前的其实是一只猫么?
这不仅仅是数据更新变化这么简单,而关系到我们如何判断和分析。
所以,此时,延时判断变得很重要。
如何在庞大数据面前,做出延时判断?尽管你有实时数据分析的能力。
这可能是下一个更有趣的话题。

腾讯数十亿广告的基础是精准实时推荐相关推荐

  1. 腾讯数十亿广告的秘密武器:利用大数据实时精准推荐

    在过去几年.你在腾讯做了什么来推动大数据的应用? 过去三年.我一直在坚持一件事:推动大数据的实时应用. 如今从国外数据中心的数据,一秒钟能够达到深圳数据中心,这就是腾讯具备的数据能力.有了这个能力.就 ...

  2. 杰克逊追悼会众星致辞献唱 数十亿歌迷痛别

    北京时间8日凌晨1点,杰克逊的追思会在美国洛杉矶斯台普斯体育中心举行,南非前总统曼德拉为其写了悼词,众多明星为其献唱,盛况空前,据美国媒体称是戴安娜王妃去世之后最受瞩目的一场追悼会.   追悼会现场气 ...

  3. Facebook开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形 | 极客头条...

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」全日程揭晓,请扫码咨询 ↑↑↑ 编译 | Major.一一 出品 | AI科技大本营(ID: rgznai100) 有效处理大规模图对于 ...

  4. OpenAI数十亿代码训出Codex:能将英语翻译成代码,给四句话就能写个神经网络...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源:大数据文摘本文约2088字,建议阅读4分钟 本文介绍了Open ...

  5. Facebook如何将QUIC应用于数十亿流量传输

    随着IETF很快完成QUIC标准定稿,越来越多的企业和开发者投入到QUIC开发实现与部署中.阿里巴巴实现了XQUIC:B站.快手在2019年就公开了QUIC的应用实践:Akamai等CDN服务商则很早 ...

  6. 全球数十亿条用户记录被泄露,姓名住址全曝光,Oracle或已引发今年最大的数据安全事件...

    来源 | InfoQ 编译 | 核子可乐.Tina Oracle 的广告技术部门,因服务器处于不安全且未设置密码的状态,导致数据库中全球数十亿人的记录被泄露. Oracle 于 2014 年以超过 4 ...

  7. Facebook 实时聊天架构日均处理数十亿条消息!

    摘要:Facebook 的实时聊天架构每日可处理数十亿条消息. 作者 | shivang 译者 | 弯月,责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 以下为译文: 在这篇文章中,我将 ...

  8. 数十亿红包,正谋杀我们的春节

    作者:Leo刘尊 全文共 3082 字 6 图,阅读需要 7 分钟 ---- / BEGIN / ---- 你可能已是一场"谋杀案"的"受害者",却不自知. 当 ...

  9. 【云周刊】第124期:实时计算来临!阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算

    摘要: 每秒支持数十亿次计算的计算引擎长啥样?阿里下一代数据库技术爆料!把数据库装入容器不再是神话!马云.阿里云和"云上贵州"又有着怎样的故事--更多精彩技术资讯,下滑查看吧! 本 ...

最新文章

  1. 如何确定敏捷是否适合你的团队?
  2. 基于ESP8266WiFi步进电机控制
  3. java tcp client断开重连_ESP8266_12 ESP8266客户端模式下的TCP通信
  4. 【worker】js中的多线程
  5. Net设计模式实例之解释器模式(Interpreter Pattern)
  6. Mac系统安装Aircrack-ng破解wifi密码(2)
  7. 对于get请求是视频,同时将视频流传给前端问题
  8. RocketMQ API使用简介、拉取机制
  9. 今年暑假不AC-贪心
  10. idea中@Data标签getset不起作用
  11. Qt C++ 命名空间namespaces讲解
  12. java入门的注意点_Java基础之Integer使用的注意事项及面试题
  13. java textvaluechanged 全选删除不触发_具有TextChanged事件的AutoCompleteBox未正确选择
  14. android mount --bind挂载目录
  15. python 判断字符串是否为数字_Python核心知识系列:数字与字符串类型
  16. 云端虚拟化技术的应用
  17. 【Android 逆向】Android 中常用的 so 动态库 ( libm.so 数学函数动态库 | liblog.so 日志模块动态库 | libselinux.so 安全模块动态库 )
  18. t00ls.net关闭了
  19. 唐宇迪学习笔记4:Python可视化库——Seaborn
  20. js中避免全局变量冗杂的解决方式

热门文章

  1. 马云谈计算机技术发展趋势,马云谈创业:靠的不是技术而是观念
  2. vue 点击弹出文字_vue事件点击穿透解决大法,看这篇文章就够了
  3. 电脑计算机无法找到脚本文件夹,我的电脑开机为什么出现无法找到脚本呢?
  4. java反射泛型类型,【Java反射】Java 泛型基础
  5. 帧布局 (FrameLayout)
  6. json 反射java 实体_Java 将JSON反射到实体类
  7. java 连接池实例_功能完善的Java连接池调用实例
  8. cuda 编 程(10) cuda 并行加速时间对比
  9. C++中的RAII机制
  10. linux go 安装