本文整理自LiveVideoStack线上分享第三季,第九期,由阿里巴巴资深算法专家,蔡龙军(牧己)为大家详细介绍如何在制作和播出阶段,利用AI和大数据来提升重要环节的确定性,进而提升内容爆款的可能性。

文/阿里巴巴资深算法专家蔡龙军(牧己)

整理/LiveVideoStack

大家好,我是来自优酷内容智能团队的资深技术专家牧己,主要负责基于大数据和人工智能去解决内容方面的问题。接下来,我将以《长安十二时辰》为例,分享优酷在提升“爆款确定性”中的技术实践。

一、如何定义爆款?

优酷有个产品叫北斗星,相当于我们的文娱大脑。一般比较热门的剧集的“北斗星日指数”约50-60W,而《长安十二时辰》的“北斗星日指数”可以达到100W+,并且还带动会员收入的快速攀升。如果大家对北斗星指数没有概念,我再分享一个有趣的数字:雷佳音在剧中吃“水晶柿子”的桥段,使西安水晶柿子的销量增长到往年的6倍。

综艺的年度爆款《这就是街舞》是同题材类型精品节目热度的2-3倍。另外,这两档节目除了对18-34岁核心人群有很好的覆盖,对35-49岁的人群上也有一定辐射,可见爆款的影响力有多大。

二、长视频爆款的复杂与挑战:较高不确定性

长视频爆款的复杂和挑战主要来源于不确定性,并且这种不确定性渗透在内容的采集、宣发和投放的所有环节中。

第一个不确定叫做延迟满足和信息不完备。长视频通过组织多个有效的事件序列,形成价值转换,刻画出不同人物,最终体现一个或多个价值观,整个过程需要很多剧集逐渐被用户感知。每个用户对于内容的偏好点和关注点不同,获取的只是内容片面的信息,信息的不完备性,导致对于内容理解的偏差。

优酷主要通过NLP/CV/语音的语义理解&KG等技术,进行“内容外延的解构”和“内容内核的创作理解”,获取到内容从外到内的各维度数据,保证相对的确定性。

第二个不确定是涉及工种极多的复杂系统工程。需要对复杂过程中的关键点数字化、模式化,对过程进行量化衡量&计算。

第三个不确定来自于内容本身的专业技能。如何与流量商业价值相结合,内容人在内容创作过程中会加入各种专业的技术,如在大场景的还原上,镜头语言的处理上,服化道的配置上,画面的构图上等等。但是这些技术,哪些是用户关注的?哪些是用户不在乎的?这很重要,涉及到最终的流量商业价值。所以,优酷要在技术上解决用户理解和用户心理学的问题,洞察用户偏好,将用户和内容做关联。

内容产业发展背后的趋势思考

商业需要确定性,而内容具有极强的不确定性,如何依靠技术达到平衡?这是内容产业发展所引发的思考。

在崇尚个性化的当下,爆款也从“全民爆款”演进成“圈层爆款”,非圈层受众对某些内容完全没有感知,与之前万人空巷的气势完全不同。

三、 如何提升?向算法和数据榨取确定性

1、何为北斗星?

从内容的不确定性出发,优酷采取人机结合的系统即北斗星。北斗星是一个具有思考能力的大脑,解决采、投、制、宣、发、放等内容全生命周期的不确定性,提升爆款能力。

2、基础能力:内容创作理解能力

繁杂信息处理对于人工智能来说是“小菜一碟”,难点是解决内容创作中的理解、预测和挖掘能力。内容创作理解能力,是对剧本进行智能化的分析和挖掘,提高这部分的确定性。主创班子是一个极强的系统化工程,在上图左侧会基于内容理解做分析和挖掘,而右侧会基于数据对左侧内容理解做量化,从而提供类似大脑的思考和决策能力,提高这部分的确定性。

内容创作有自身规律,内容创作理解就是围绕基于镜头语言和“两千多年的戏剧理论应用价值观”转化为技术能力,即对剧本和视频的智能理解。

以《长安》剧本分析为例,全剧本共有120多个人物,主创戏份评估如下:

1)张小敬的戏份占15%,李必占10%,檀棋、龙波、姚汝能分别占5%、4%、3%;

2)张小敬和李必在全剧分别贡献了90%以上的人物关系;

3)檀棋贡献了80%以上的人物关系,在剧中作为功能性人物推动剧情发展。

对《长安十二时辰》剧本的角色交互分析如下:

1) 张小敬与檀棋的交互最多;

2) 李必与檀棋、徐宾交互较多;

3) 相比IP剧本减少了张小敬和李必的交互。

对《长安》中人物情绪进行分析发现:在前16集中,第3集和第10集出现了情绪表达的高峰,为剧情创造紧张情节。

对于《长安》第一集的成片进行多模态,包括声音与图像。图像综合了演员表情、场景、动作等分析,预测出一条“用户观影情绪曲线”,后续结合用户真实观看情况对数据进行升级优化。

3、 采制阶段:预测能力建设

对于不确定的事情,如果可以计算出不确定性有多强,便可有效提升商业决策效率,提高决策结果的确定性。基于此,建设识别和理解不确定性的预测模型。

预测中会面临数据、模型和应用三方面问题。数据问题分为数据量不够,数据不干净和信息不完备。模型的问题包括复杂机制很难通过样本进行覆盖、很难深入理解问题本质和很难跨领域进行举一反三学习。从优酷的经验出发,是正确识别应用上的不确定性可以在应用上有很好的改观。

常规解法也分为数据、模型和应用三方面解法。数据量由数据采样和数据生成解决,数据不干净由数据清洗解决,数据不完备由Domain Knowledge&KG解决。应用解法中不确定分析模型有Belief Network等解法。

根据之前解决的问题,解法可以分为四层:

第一层是基础层。分为KG&Domain Knowledge/Feature Engineering和学习加速;

第二层是数据层。分为数据生成(SMOTE),隶属度变换(高斯隶属度)和半监督学习;

第三层是模型层。通过DNN和Relation Net以及MTL相结合,降低过拟合,提高模型的学习能力;

第四层是Uncertainty Learning,基于变分推断的框架进行内容不确定性的预测。

SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术。

它是基于随机过采样算法的一种改进方案。由于随机过采样,采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,使得模型学习到的信息过于特别(Specific)而不够泛化(General)。SMOTE算法是对少数类样本进行分析,并人工合成新样本添加到数据集中,新样本的公式为xnew=x+rand(0,1)∗|x−xn|,生成的样本可直接应用到项目中,但提升效果不稳定。

优酷得到的结论是:在生成新样本后引入隶属度变换,来计算新样本与真实样本的接近程度。经验证,加入隶属度变换后,效率提升约5%。

所有模型都会面临过拟合问题,优酷的基本思路是分析预测事件的基本特点,对于不同的特点建立不同的模型,分别有生命周期模型、竞争博弈模型和复杂影响因子。

对于复杂模型的逻辑:把前面的模型各部分的因素都拆开,复杂因素用DNN去拟合,外部竞争的关系去Relation Net做推理去解决,最后用MTL整合模型,根据实际情况也会加入其它模型。

Relation Net是2016年发表的CNN模型。基本思路是将包含各种圆柱、椭圆等形状的图片,经由CNN网络输出生成feature maps,把图中涉及到形状的object通过通道取出,每两个object配对形成一个对比串,然后与LSTM编码question的embedding向量叠加到一起,输入到一个深度网络中进行学习,最后softmax分类到某个答案词上面,进行正确与否的判断。

Uncertainty Learning这块,从2016年开始它逐步热起来,我们也用变分去做了一些事情。

这一部分可以在网上参考“贝叶斯Network”,重点看它如何利用“变分”得到最后结果。

4、宣发阶段:挖掘能力建设

挖掘能力更多应用于已经发生的事件,使其更具有确定性。上图是《长安》播出后,每一分钟用户的收视状况、复看状况和弹幕状况,再结合每一时间段的剧情内容对用户喜好做更精准的分析,以此来做更好的宣推和挖掘。

内容产业是个不确定性非常高的产业,越是爆款就越有不确定性。互联网下半场我们积累了特别多的数据,AI能力也得到了前所未有的发展,我们建立了“文娱大脑”北斗星、AI剧本等内容形式的挖掘能力,和采买不确定性预测的评估能力,以及对于宣发挖掘的能力,都在业务应用上取得了不错的成绩。

传统的内容制作领域,依然依赖人的经验,在强人工智能尚遥远的情形下,如何结合机器AI和人工经验是个永恒的主题,例如结合符号主义(计算机学派)和连接主义(仿生学派)的智能。因此,我们将在两个方向发力:1)决策引擎的建设,包括结合人工逻辑规则和机器学习,不确定性分析框架和经久不衰的贝叶斯因果决策,以及神经元化的混合智能计算框架。2)量化的心理学研究也越来越重要,我们也会推进这部分探索。

非确定性算法_《长安十二时辰》背后的文娱大脑:如何提升爆款的确定性?相关推荐

  1. 《长安十二时辰》背后的文娱大脑:如何提升爆款的确定性?

    本文整理自LiveVideoStack线上分享第三季,第九期,由阿里巴巴资深算法专家,蔡龙军(牧己)为大家详细介绍如何在制作和播出阶段,利用AI和大数据来提升重要环节的确定性,进而提升内容爆款的可能性 ...

  2. 首发!《长安十二时辰背后的技术秘籍》正式公开,速来下载

    一名死囚如何在十二时辰内利用"唐代黑科技",拯救长安百姓于水火中? 这就是<长安十二时辰>的故事,剧中有恢弘的长安美景.让人流口水的水晶柿子/水盆羊肉,还有张小敬和檀棋 ...

  3. qt怎么输出一个map里的所有键值_《长安十二时辰》里的MapReduce原理

    一 什么是MapReduce MapReduce是一种编程模型,也是一个处理和生成超大数据集的算法模型的相关实现.最早是由谷歌2004年公布的 MapReduce论文,论文描述了大数据的分布式计算方式 ...

  4. python黑客库长安十二时辰 更新_爬取3万+评论,告诉你究竟是哪些人不喜欢《长安十二时辰》?...

    作者:AlfredWu 最近,悄悄上线的<长安十二时辰>在朋友圈被吹爆了:年度最佳古装剧.服道化精致.电影质感.良心剧等赞美的声音不绝于耳.该剧首播时在豆瓣拿到了8.8的高分,但是,随着剧 ...

  5. python黑客库长安十二时辰 更新_程序员爬取 3 万条评论,《长安十二时辰》槽点大揭秘!...

    该剧总体评价如何? 优酷给<长安十二时辰>打出了8.8的高分(首播时为9.0分).该剧在豆瓣.IMDB.时光网等平台分别收获了8.6.8.5.8.4分,这足以说明该剧总体评价还是不错的. ...

  6. webgl限制帧率_从《长安十二时辰》到《Science Advances》:大帧数高帧率超表面动态全息显示新方法...

    2019年秋季的一个夜晚,结束了一天科研任务的高辉博士决定看看最近热播的古装电视剧--由 @马伯庸 老师同名小说改编的<长安十二时辰>--放松一下心情.当主角在长安城中上下翻飞时,高博士却 ...

  7. 多少秒算长镜头_《长安十二时辰》开篇一个长镜头126秒,究竟埋下了多少伏笔?...

    <长安十二时辰>这部良心制造,第一集就用几个非常有代表性的长镜头,把观众带进了大唐长安惊险刺激的那一天 给海米留下最深印象的当属开篇的第一个镜头,时长126秒,然而全剧最有代表性的元素都被 ...

  8. python黑客库长安十二时辰 更新_【Python成长之路】python 从零学爬虫 -- 没时间看《长安十二时辰》电视剧怎么办?直接爬取所有剧情吧!...

    [写在前面] 最近大火的<长安十二时辰>真的是好看,算的是良心网剧了.但是由于平时工作时间较长,经常无法准时追剧,并且又因为不想见到元裁那对挨千刀的(作为演员,演技是值得肯定的,角色演绎的 ...

  9. LiveVideoStack线上分享第三季(九):《街舞》《长安十二时辰》背后的文娱大脑...

    这个夏天,优酷带来了第一个综艺爆款<街舞>,和年度第一个剧集爆款<长安>,内容的制作.播出是件极为复杂的系统工程,而中间又充满了很多不确定性和模糊性.7月18日 19:30,L ...

  10. 《长安十二时辰》,作为程序员,看完我震惊了!涉及通信、云计算、大数据等!...

    前言 今天这篇文章不是讲纯技术的,而是关于皮皮最近在追的一部连续剧中所涉及的IT技术的介绍(剧名为<长安十二时辰>,我还特地去买了个youku的VIP),皮皮看了觉得甚为有趣,分享给大家, ...

最新文章

  1. Linux下配置Golang开发环境
  2. centos7 tmp目录 自动清理规则
  3. 分库分表技术演进最佳实践-修订篇
  4. 【HihoCoder - 1851】D级上司 (树形图,dfs)
  5. Anaconda安装tensorflow遇到的wrapt、load error、Twisted问题
  6. easyui页内跳转
  7. todolist实现删除的功能_使用vue实现删除并输入原因的功能
  8. EPS清华三维软件操作与数据检查常见问题与解决问题
  9. 大数据时代下的网络安全与数据隐私论文
  10. 关键字查询输入%问题
  11. opencv读取16位色深图片
  12. CCPC 1010 YJJ's Salesman
  13. 英语时态:一般、否定疑问句、现表将来(中文练到无停顿)
  14. TP3.2.3到TP5的变化
  15. java.lang.IllegalArgumentException错误,小记一下
  16. 网络安全工程师需具备的5个重要技能
  17. mysql实现vpd_一种存储的VPD信息访问方法及系统与流程
  18. python keras安装_环境安装 安装TensorFlow与Keras
  19. template类的typename详解--龙之介《Effective C++》实验室
  20. 从头开始学习网络-基础知识

热门文章

  1. 人生最要紧的是充实自己
  2. 微信小程序的剪贴板 +复制剪贴,在淘宝中打开就可以获取到商品
  3. 移动端双Token免登录(附代码)
  4. 运维实用篇-查看IP和端口
  5. No package ‘glib-2.0‘ found/No package ‘gobject-2.0‘ found
  6. 据说微软已撤销了测试部门?
  7. Linux ldd时某个依赖库so not found的一种特殊情形
  8. github上开源的UVCCamera为什么不能正常运行
  9. 全网首发:终极解决办法:/usr/bin/ld: libcc.so: no symbol version section for versioned symbol `memcpy@GLIBC_2.0‘
  10. mercurial/hg:大哥什么年代了连续传功能都没有?