本文整理自LiveVideoStack线上分享第三季,第九期,由阿里巴巴资深算法专家,蔡龙军(牧己)为大家详细介绍如何在制作和播出阶段,利用AI和大数据来提升重要环节的确定性,进而提升内容爆款的可能性。

文/阿里巴巴资深算法专家蔡龙军(牧己)整理/LiveVideoStack大家好,我是来自优酷内容智能团队的资深技术专家牧己,主要负责基于大数据和人工智能去解决内容方面的问题。接下来,我将以《长安十二时辰》为例,分享优酷在提升“爆款确定性”中的技术实践。

一、如何定义爆款?

 
优酷有个产品叫北斗星,相当于我们的文娱大脑。一般比较热门的剧集的“北斗星日指数”约50-60W,而《长安十二时辰》的“北斗星日指数”可以达到100W+,并且还带动会员收入的快速攀升。如果大家对北斗星指数没有概念,我再分享一个有趣的数字:雷佳音在剧中吃“水晶柿子”的桥段,使西安水晶柿子的销量增长到往年的6倍。综艺的年度爆款《这就是街舞》是同题材类型精品节目热度的2-3倍。另外,这两档节目除了对18-34岁核心人群有很好的覆盖,对35-49岁的人群上也有一定辐射,可见爆款的影响力有多大。

二、长视频爆款的复杂与挑战:较高不确定性

长视频爆款的复杂和挑战主要来源于不确定性,并且这种不确定性渗透在内容的采集、宣发和投放的所有环节中。第一个不确定叫做延迟满足和信息不完备。长视频通过组织多个有效的事件序列,形成价值转换,刻画出不同人物,最终体现一个或多个价值观,整个过程需要很多剧集逐渐被用户感知。每个用户对于内容的偏好点和关注点不同,获取的只是内容片面的信息,信息的不完备性,导致对于内容理解的偏差。

优酷主要通过NLP/CV/语音的语义理解&KG等技术,进行“内容外延的解构”和“内容内核的创作理解”,获取到内容从外到内的各维度数据,保证相对的确定性。第二个不确定是涉及工种极多的复杂系统工程。需要对复杂过程中的关键点数字化、模式化,对过程进行量化衡量&计算。第三个不确定来自于内容本身的专业技能。如何与流量商业价值相结合,内容人在内容创作过程中会加入各种专业的技术,如在大场景的还原上,镜头语言的处理上,服化道的配置上,画面的构图上等等。但是这些技术,哪些是用户关注的?哪些是用户不在乎的?这很重要,涉及到最终的流量商业价值。所以,优酷要在技术上解决用户理解和用户心理学的问题,洞察用户偏好,将用户和内容做关联。内容产业发展背后的趋势思考商业需要确定性,而内容具有极强的不确定性,如何依靠技术达到平衡?这是内容产业发展所引发的思考。
 在崇尚个性化的当下,爆款也从“全民爆款”演进成“圈层爆款”,非圈层受众对某些内容完全没有感知,与之前万人空巷的气势完全不同。

三、 如何提升?向算法和数据榨取确定性

1、何为北斗星?
从内容的不确定性出发,优酷采取人机结合的系统即北斗星。北斗星是一个具有思考能力的大脑,解决采、投、制、宣、发、放等内容全生命周期的不确定性,提升爆款能力。  2、基础能力:内容创作理解能力繁杂信息处理对于人工智能来说是“小菜一碟”,难点是解决内容创作中的理解、预测和挖掘能力。内容创作理解能力,是对剧本进行智能化的分析和挖掘,提高这部分的确定性。主创班子是一个极强的系统化工程,在上图左侧会基于内容理解做分析和挖掘,而右侧会基于数据对左侧内容理解做量化,从而提供类似大脑的思考和决策能力,提高这部分的确定性。  内容创作有自身规律,内容创作理解就是围绕基于镜头语言和“两千多年的戏剧理论应用价值观”转化为技术能力,即对剧本和视频的智能理解。 以《长安》剧本分析为例,全剧本共有120多个人物,主创戏份评估如下:1)张小敬的戏份占15%,李必占10%,檀棋、龙波、姚汝能分别占5%、4%、3%;2)张小敬和李必在全剧分别贡献了90%以上的人物关系;3)檀棋贡献了80%以上的人物关系,在剧中作为功能性人物推动剧情发展。对《长安十二时辰》剧本的角色交互分析如下:1) 张小敬与檀棋的交互最多;2) 李必与檀棋、徐宾交互较多;3) 相比IP剧本减少了张小敬和李必的交互。 
对《长安》中人物情绪进行分析发现:在前16集中,第3集和第10集出现了情绪表达的高峰,为剧情创造紧张情节。  对于《长安》第一集的成片进行多模态,包括声音与图像。图像综合了演员表情、场景、动作等分析,预测出一条“用户观影情绪曲线”,后续结合用户真实观看情况对数据进行升级优化。3、 采制阶段:预测能力建设
 对于不确定的事情,如果可以计算出不确定性有多强,便可有效提升商业决策效率,提高决策结果的确定性。基于此,建设识别和理解不确定性的预测模型。 
预测中会面临数据、模型和应用三方面问题。数据问题分为数据量不够,数据不干净和信息不完备。模型的问题包括复杂机制很难通过样本进行覆盖、很难深入理解问题本质和很难跨领域进行举一反三学习。从优酷的经验出发,是正确识别应用上的不确定性可以在应用上有很好的改观。 常规解法也分为数据、模型和应用三方面解法。数据量由数据采样和数据生成解决,数据不干净由数据清洗解决,数据不完备由Domain Knowledge&KG解决。应用解法中不确定分析模型有Belief Network等解法。  根据之前解决的问题,解法可以分为四层:第一层是基础层。分为KG&Domain Knowledge/Feature Engineering和学习加速;第二层是数据层。分为数据生成(SMOTE),隶属度变换(高斯隶属度)和半监督学习;第三层是模型层。通过DNN和Relation Net以及MTL相结合,降低过拟合,提高模型的学习能力;第四层是Uncertainty Learning,基于变分推断的框架进行内容不确定性的预测。 SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术。
它是基于随机过采样算法的一种改进方案。由于随机过采样,采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,使得模型学习到的信息过于特别(Specific)而不够泛化(General)。SMOTE算法是对少数类样本进行分析,并人工合成新样本添加到数据集中,新样本的公式为xnew=x+rand(0,1)∗|x−xn|,生成的样本可直接应用到项目中,但提升效果不稳定。优酷得到的结论是:在生成新样本后引入隶属度变换,来计算新样本与真实样本的接近程度。经验证,加入隶属度变换后,效率提升约5%。
 所有模型都会面临过拟合问题,优酷的基本思路是分析预测事件的基本特点,对于不同的特点建立不同的模型,分别有生命周期模型、竞争博弈模型和复杂影响因子。 
对于复杂模型的逻辑:把前面的模型各部分的因素都拆开,复杂因素用DNN去拟合,外部竞争的关系去Relation Net做推理去解决,最后用MTL整合模型,根据实际情况也会加入其它模型。 Relation Net是2016年发表的CNN模型。基本思路是将包含各种圆柱、椭圆等形状的图片,经由CNN网络输出生成feature maps,把图中涉及到形状的object通过通道取出,每两个object配对形成一个对比串,然后与LSTM编码question的embedding向量叠加到一起,输入到一个深度网络中进行学习,最后softmax分类到某个答案词上面,进行正确与否的判断。Uncertainty Learning这块,从2016年开始它逐步热起来,我们也用变分去做了一些事情。
 
这一部分可以在网上参考“贝叶斯Network”,重点看它如何利用“变分”得到最后结果。4、宣发阶段:挖掘能力建设  挖掘能力更多应用于已经发生的事件,使其更具有确定性。上图是《长安》播出后,每一分钟用户的收视状况、复看状况和弹幕状况,再结合每一时间段的剧情内容对用户喜好做更精准的分析,以此来做更好的宣推和挖掘。内容产业是个不确定性非常高的产业,越是爆款就越有不确定性。互联网下半场我们积累了特别多的数据,AI能力也得到了前所未有的发展,我们建立了“文娱大脑”北斗星、AI剧本等内容形式的挖掘能力,和采买不确定性预测的评估能力,以及对于宣发挖掘的能力,都在业务应用上取得了不错的成绩。传统的内容制作领域,依然依赖人的经验,在强人工智能尚遥远的情形下,如何结合机器AI和人工经验是个永恒的主题,例如结合符号主义(计算机学派)和连接主义(仿生学派)的智能。因此,我们将在两个方向发力:1)决策引擎的建设,包括结合人工逻辑规则和机器学习,不确定性分析框架和经久不衰的贝叶斯因果决策,以及神经元化的混合智能计算框架。2)量化的心理学研究也越来越重要,我们也会推进这部分探索。

LiveVideoStack  招募

LiveVideoStack正在招募编辑/记者/运营,与全球顶尖多媒体技术专家和LiveVideoStack年轻的伙伴一起,推动多媒体技术生态发展。同时,也欢迎你利用业余时间、远程参与内容生产。了解岗位信息请在BOSS直聘上搜索“LiveVideoStack”,或通过微信“Tony_Bao_”与主编包研交流。

LiveVideoStackCon 2019北京 音视频技术大会最新日程现已上线,扫描图中二维码或点击【阅读原文】了解大会最新日程。

《长安十二时辰》背后的文娱大脑:如何提升爆款的确定性?相关推荐

  1. 首发!《长安十二时辰背后的技术秘籍》正式公开,速来下载

    一名死囚如何在十二时辰内利用"唐代黑科技",拯救长安百姓于水火中? 这就是<长安十二时辰>的故事,剧中有恢弘的长安美景.让人流口水的水晶柿子/水盆羊肉,还有张小敬和檀棋 ...

  2. LiveVideoStack线上分享第三季(九):《街舞》《长安十二时辰》背后的文娱大脑...

    这个夏天,优酷带来了第一个综艺爆款<街舞>,和年度第一个剧集爆款<长安>,内容的制作.播出是件极为复杂的系统工程,而中间又充满了很多不确定性和模糊性.7月18日 19:30,L ...

  3. 看完《长安十二时辰》惊呆了!难道唐朝就已经有大数据和云计算?

    小枣君不是一个剧迷,平时也很少有时间追剧.不过,这个夏天,我确实被一部国产剧给吸引住了,一口气连追了20多集.没错,这部国产剧,就是最近火爆全网.口碑炸裂的<长安十二时辰>.该剧是一部古装 ...

  4. 《长安十二时辰》,作为程序员,看完我震惊了!涉及通信、云计算、大数据等!...

    前言 今天这篇文章不是讲纯技术的,而是关于皮皮最近在追的一部连续剧中所涉及的IT技术的介绍(剧名为<长安十二时辰>,我还特地去买了个youku的VIP),皮皮看了觉得甚为有趣,分享给大家, ...

  5. 《长安十二时辰》,作为通信人,看完我震惊了!

    点击上方"程序IT圈",选择"置顶公众号" 每天早晨IT圈的推文,进来留言打卡 还记得前几天给大家推荐过的一篇[漫画]程序员是怎么看<长安十二时辰> ...

  6. 看完《长安十二时辰》震惊了!难道唐朝就已经有大数据和云计算?

    作者 | 小枣君 小枣君不是一个剧迷,平时也很少有时间追剧.不过,这个夏天,我确实被一部国产剧给吸引住了,一口气连追了20多集. 没错,这部国产剧,就是最近火爆全网.口碑炸裂的<长安十二时辰&g ...

  7. 震惊了!《长安十二时辰》就是一部深度介绍通信、云计算、大数据的黑科技科普剧...

    来源:鲜枣课堂 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区 小枣君不是一 ...

  8. 技术人看《长安十二时辰》的正确姿势是?

    阿里妹导读:从"叉手礼"."水盆羊汤"."酒晕妆"这些唐朝人的生活细节,到精美的坊间造型.充满意境的诗词歌赋,<长安十二时辰>不 ...

  9. 程序员爬取 3 万条评论,《长安十二时辰》槽点大揭秘!

    作者 | Alfred Wu 责编 | 伍杏玲 本文经授权转载自Alfred数据室(ID:Alfred_Lab) 最近,悄悄上线的<长安十二时辰>在朋友圈被吹爆了:年度最佳古装剧.服道化精 ...

最新文章

  1. __cpuidex读取CPU序列号
  2. mysql创建表对经常要查询的列添加索引或者组合索引
  3. 数据结构——二叉树的递归算法
  4. 用python画一只可爱的皮卡丘_用python画一只可爱的皮卡丘实例
  5. 5g无线网络对电子竞技市场发展影响
  6. 聚类分析(三)Mini Batch KMeans算法
  7. 【Kafka】Kafka 增量 Rebalancing: Support and Policies
  8. 【机器学习】隐马尔可夫模型及其三个基本问题(三)模型参数学习算法及python实现
  9. MySQL数据库数据存放位置修改
  10. 基于P2P终结者的ARP攻击实践(截取数据获取上网账号密码)
  11. 计算机图形化编程命令,第三课图形化编程教学设计
  12. 常用数据库及默认端口
  13. 数据中台数据分层架构
  14. VS Code如何设置背景色
  15. PYQT安装及初始化
  16. 计算机英语教学模式,英语教学模式计算机专业论文
  17. webpack版本和vue版本的冲突问题
  18. STM32生态系统 第三期(一)STM32WB无线协议栈和用户应用升级的准备工作
  19. Datawhale 南瓜书学习
  20. raid配置ssd为缓存_怎么设置固态硬盘为缓存盘

热门文章

  1. Data Lake Analytics: 使用DataWorks来调度DLA任务
  2. 大数据构建模块:选择体系结构和开源框架
  3. 用python写网络爬虫 -从零开始 3 编写ID遍历爬虫
  4. IIS6.0官方技术必读
  5. HDU - 3551 Hard Problem(一般图最大匹配)
  6. CodeForces - 467C George and Job(二维dp)
  7. PAT (Advanced Level) 1004 Counting Leaves(树的遍历)
  8. PyTorch-运算加速
  9. 计算机组成原理模拟试题,计算机组成原理模拟试题及答案
  10. 直接运行内存中的代码