什么是多模态检索？

现实生活中常有图搜图，文本搜文本，视频搜视频的应用，这些都是单模态检索。多模态检索就是，不同类别之间的搜索，比如用文本搜图，用图搜文本等，这类情况称为多模态检索。

视频搜索是涉及信息检索、自然语言处理（NLP）、机器学习、计算机视觉（CV）等多领域的综合应用场景，随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求，视频搜索技术的发展在学术和工业界都取得了飞速的发展。

一、视频搜索简介

1.1 业务背景

优酷搜索为整个阿里大文娱提供了一站式搜索服务，范围包括优酷所有搜索入口，如 APP 和 OTT 等，还包括大麦和淘票票。

搜索的内容包括有版权的影、剧、综、漫影视库，用户上传的 UPGC 视频内容，影人库，演出，小说资讯等，这些都是文娱搜索业务需求，优酷搜索为其提供统一的搜索服务。

以优酷为例，我们有数亿视频资源，不仅包括平台购买了版权的 OGC 视频，更多是用户上传的 UPGC 视频。视频的存储、计算以及分发，比文字更具挑战。

1.2 评估指标

搜索排序业务多目标的评估指标，如图所示，可以拆分成4个大类。搜索的用户价值主要体现在2个维度：

一是工具属性。指的是用户将搜索服务作为一个搜索工具，目标是找准找全。这是用户价值的基础，也是搜索的基础属性。从这个维度去评估搜索效果的好坏，主要从体验指标去衡量：跳出率、相关性、时效性、多样性等通用指标。视频搜索可播性是指由于受版权影响，有些视频在平台是不能播放的，能给用户提供更大价值的是那些可播的视频。此外，会用人工评测的方式对搜索的效果做横向纵向的对比，来衡量搜索的满意度。
二是分发属性。能让用户消费更多的内容，主要是视频观看的 VV 和消费时长，这些指标对搜索是非常重要的，是用户满意度的直接体现。搜索能够支持平台的宣发价值和广告会员的商业化价值，前提是服务好用户，用户体验好。

1.3 搜索系统框架

上图是搜索系统的整体框架，在2017年初步完成了搜索引擎相关中间件服务的升级，实现和集团搜索技术的战略拉通。从一个 query 搜索过程来理解各个模块的功能，比如说用户搜"大明风华"，用户在手机上发起这一次请求，接入搜索网关之后，search planer 把这个请求发送到 QP 服务，即 query 理解的一个服务，对 query 做意图判定，成分分析，把这些信息传递到中间的引擎模块去做相应的检索，如粗排和精排的逻辑，将结果返回回来，再到一个 RankService 排序服务。

整个框架中间层是引擎，下面是离线的索引服务，左边是机器学习平台，包括特征的流式计算，模型的在线学习，后面主要介绍排序服务模块。

1.4 搜索算法框架

在引擎端，相关性主要是在 searcher 的精排下实现的，排序模型的介绍主要是预测模型这一层。整个排序服务包括预测模型、模型融合、业务策略，整体上保证了搜索体验和效率。

右图是整个搜索算法的大图，通过这里的介绍希望大家对视频搜索技术有一个全貌的理解，方便大家对后面内容的理解。

意图：对 Query 意图理解，首先要对 Query 做成分分析，标明 Query 各成分是什么，是节目名还是剧集信息。然后要建立细粒度的意图体系，对用户表达的意图去做深层次的意图理解，从而更精准地指导召回、相关性和排序。QP 服务在排序中的作用：首先在意图层面，会把用户意图细粒度的切分出来，对 query 的各个意图做成分分析，比如说 query 是"乡村爱情赵四跳舞"，经过 QP 服务的成分分析后，判断乡村爱情属于一个节目名，赵四属于角色，跳舞是一个动作。
排序层：按照体验和分发等维度，去提升搜索整体体验。排序利用机器学习排序学习的方式，去提升分发效果，此外还要优化体验类目标，如时效性、多样性等，同时也要实验平台的宣发等目标，是典型的多目标优化场景；
相关性：包括基础相关性 / 语义匹配技术；
内容召回：主要是多媒体内容的理解，为什么要做多媒体内容理解，因为视频内容传递的信息非常丰富，不可能用文本标题全面表述，用户在搜索时表达需求差异非常大，存在语义鸿沟，各个业务的搜索都存在语义鸿沟，视频搜索中的鸿沟更大，所以不能把视频当成黑盒直接用标题概述。我们的问题是从什么维度去理解视频？得益于深度学习在各个领域的全面发展，现在有能力做相关技术，包括 OCR/ASR，对话的理解，通过 CV 的技术对人物、动作、物体的元素级的结构识别，视频的指纹，实体关联，比如某个视频是属于哪个 ip ( 电视剧/电影等 )。基于这些相关技术，不仅仅只是做标题的文本匹配，与相关性匹配密切的关联起来，能更好的帮助理解视频和视频间的关联关系。
技术层：在数据基础之上，利用 CV 和 NLP 技术，支撑上层内容召回和相关性、排序，以及对 Query 的意图理解；
数据层：有实体的关系数据，能够通过技术挖掘这种关系；内容组织，通过图谱聚合、时效聚合、内容聚合，把内容聚合成更方便用户浏览的聚合形态。

多媒体内容理解是视频搜索的重点，视频内容传递的信息是非常丰富的，不可能用标题的短短十几个文字描述全面。用户在检索时，表达需求的差别非常大，这就是天然的语义鸿沟。所以我们不能把视频当作黑盒子，需要利用 NLP 能力、CV 的能力以及其他技术能力对视频内容做全面的分析解构。

二、视频搜索的相关性和排序模型

1、搜索相关性

1.1 挑战

1.1 挑战01：内容相关性匹配

下图中前两个 Case 体现出用户表达的 Query 和视频标题不是那么相关，需要通过对内容理解分析，丰富其元信息，建立起内容相关性。

如“变形计 2017 姚金冬”，视频标题中只有“姚金冬”，实际上通过视频内容的理解，可以知道“姚金冬”和“变形计”，并且是 2017 年的。通过内容理解和 IP 指纹，把 IP 周边视频，如切条或二创视频，和 IP 建立起关联关系，能大大丰富视频的元信息，提升内容相关性匹配度。

1.2 挑战02：实体知识匹配

我们要借助于视频标题的结构化去理解，用 NER 方式抽取出来，同时也需要 CV 的技术去辅助 NER 识别的准确率。

比如“法不容情国语”，QP 端理解出“法不容情”是一个节目名，这就是 Query 的成分分析。用户上传的是“公共用地被占私用，法不容情”的社会问题，需要对文档端做结构化的理解，要理解出“法不容情”在上下文中不是节目，而是其他意思，然后在相关性匹配的时候，利用这些先验知识做更好的相关性判断，从而决定相关性匹配度。此外，“中国餐馆电视剧”这个 Case 也类似，用户找的是《中国餐馆》节目，而不是需要检索出“中国餐馆放着抗日神剧”。

1.3 挑战03：语义匹配

当然，通用搜索也有语义匹配问题，一些语义类 /How to 类的知识匹配，要去做语义和更全面的分析，比如利用内容理解和实体知识的辅助补充等，才能做好语义匹配。

1.2 挑战解法

我们整个视频搜索相关性是从四个维度去做：

基础特征。比较通用的是 term weight 和匹配矩阵，通过基础特征能够把文本匹配做的比较好。
知识特征。对于知识特征的匹配需要其他辅助信息的补充才能做好的，首先通过内容理解的方式把 UPGC 视频中的一些元数据补充上去，利用 NER 等技术把视频的标题等成分识别准确。在这些基础之上，我们做 query 和 doc 之间的结构化的知识匹配，这块体验能够做的更好。
后验特征。包括基于 query 点击的应用判断，知识结合做意图判断，意图和 doc 的匹配，Query_Anchor 是从 doc 维度统计的，哪些 query 是和 doc 是有关系的，能做一些文本的补充和意图补充，这种补充不是纯粹的统计，而是基于浏览模型，比如 UBM 和 DBN 等一些点击浏览的模型，去消除文本、吸引度的偏差，提高满意度，后面在相关性特征还会详细的去讲一下。
语义。主要解决语义匹配，视频搜索存在很大的语义鸿沟，DSSM 表征形的 sentence 级别的语义向量去做匹配，这块是会在相关性层面去做。BERT 这一块是做知识蒸馏的方式，这块计算太复杂了，在排序层做的。SMT 不是在相关性和排序层面去使用的，是语义的扩展和 query 的改写，能丰富语义内容的召回。点击行为也是做一些语义层面的改写扩展。

2、相关性数据集构建和特征体系

全面准确地发现问题是解决问题的基础。

构建相关性数据集的目的是给相关性算法提供 Ground Truth，标注是重点。

相关性标注数据集的标注规范较复杂，标注样本量比较大，一般会通过外包进行人工标注，需要重点关注的是标注质量和标注成本。

根据标注规范不仅要去标注样本的等级，对同等级下的样本还需要标注偏序关系，质量的把控特别关键。

对于成本来说，需要有高效的样本挖掘机制和方法。

左图是相关数据集的构建流程，为了衡量相关性的效果，需要标注数据集。

首先要有一个标注规范，主要结合实际业务和用户需求来设定，并没有通用的标准。

数据集我们标注了2、3年，有几十万的数据，通过外包同学去标注，不仅标注相关性的等级，还会对同等级的样本做偏序级的标注。

我们对标注的质量和效率比较关注，左边的方式是采用 active learning 的思想去提升标注效率和质量，降低标注的成本。数据集也分为验证集和训练集，验证集主要针对特定问题去构建，具有一定的针对性，对不同验证集解决完问题之后，不一定对线上体验有正向的效果，因为它会带来对其他维度变差的情况，所以我们需要训练集和回归集的验证。右图是我们相关性算法的主要特征，大家可以参考下。

如图中左侧所示，可以通过 Active Learning 的思想来加快标注的效率提升，同时也能提升标注质量。我们可以基于训练集不断地迭代线上模型，对于线上模型预测不是那么准确的样本，可以提供给外包同学去检测标注，形成一个快速的迭代闭环，提升训练的精度。大家用这种方法去做，能够大大提升整个标注的质量和效率。
右侧是相关性的技术特征，最上层是 Query 相关的特征，有常规类的，非常基础的文本特征；有意图理解输出的特征，比如说人物、节目、宽泛、How to 类意图等；文档端的先验特征包括从文档标题解构出来的特征以及基础文本特征，除了先验特征还会使用前面说的后验特征；最下层是 Query 和 Doc 的匹配类特征，匹配特征也会分基础匹配、意图匹配、语义匹配、知识匹配这几个维度。

3、语义匹配

我们在2017年上线了一个 sentence 级别的语义匹配模型，模型结构比较通用简单，我们尝试迭代的过程比较多，具体参数是和语料相关的，不同业务参数差别比较大。

需要特别指出，语料样本的选择，对语义模型特别关键。

在日志处理过程中，没有点击的日志不能当作语义的负样本，垂直搜索引擎语义类 query 相对还是比较少的，需要借助外部的预料做训练，这和我们集团的一些搜索比如神马搜索，搜索日志对语义搜索效果的提升是非常大的。

表征形的语义模型，有一个好处是，doc 端的特征是可以离线计算的，可以在相关性层面快速高效的去做语义上的计算，确保基本的语义内容能够被召回，能够排到前面去，能够送到上层的重排序服务上，ranking service 上还有比较多的语义内容，能够做一些精细化的语义计算。

4、排序特征体系

排序特征体系，包括各个业务领域类的，基础匹配类的，query 统计类的。有一些是视频平台特有的，比如说实时的动态的处于宣发周期的一些特征，对控制节目的排序，可播性，宣发的效果是特别有帮助的；另外，内容质量的评估对视频平台是非常重要的，优酷的人工智能部有一个非常给力的 CV 团队，提供基于视频这种无参考质量的评价框架，能够对低层次的一些特征，比如对比度，亮度，中等的模糊块效应的失真，并综合各种画面质量去解决 UPGC 视频失真，模糊质量评价的难点，能够从视觉层面去理解视频，还有封面图/标题的质量去评判，可以很好的区分好视频和差视频。

在用户层面，用户行为的表征在很多宽泛搜索里都会应用，比如用户在频道页的搜索排序，OGC 节目宽泛意图的检索场面，用的会比较多。因为在很多通用的搜索中，这种宽泛意图的比率比较大。

搜索词特征组：搜索词以及匹配特征这些特征类别，是搜索领域通用的；
匹配特征组：有一些特征是平台特有的，比如视频的实时播控、内容宣发特征；
视频内容特征组：内容质量对于我们的平台非常重要，因为每天上传视频量非常大，需要做好内容质量的评估，才能更好地指导冷启动的分发。我们人工智能部有一个 CV 团队，负责为我们提供高质量的特征，从封面图、标题、画质 / 图像 / 声音各模态去评估视频质量；
用户特征组：用户行为特征，用户画像及用户行为的表征学习特征主要用在一些宽泛搜索场景。例如频道页的搜索排序、 OTT 宽泛意图排序等。

5、表征学习

第一层是特征预编码的编码层，用视频元素、搜索意图、用户，这3类特征去分析。在用户维度，又划分了用户 id 和用户观看视频的序列；在搜索意图维度，有搜索的 id，搜索词的视频表达和文本编码的表达。在视频层，包括视频统计特征、视频播放点击量、视频文本编码、视频在整个 session 期间和其他视频的关系数据，来构建这些不同的特征域。
第二层和第三层不同特征域间网络结构相互独立，通过稀疏编码优化的全连接层对第一层的高维特征域进行降维，把高维信息投影至低维的向量空间中。
通过第三层全连接层对域内信息进行二次编码，输出域内特征向量。
通过第四层把 concat 层链接起来，对域间的 id 特征向量、行为特征向量、文本特征向量和观看序列特征向量做多模态的特征向量融合。
之后经过两层的全连接网络实现对给定用户和搜索意图下每个视频的排序分值的预测。这个模型是内容分发的一个排序模型，它同时还会结合相关性模型、时效性，以及视频质量等从多维度做模型融合，来决定最后的排序。

整个模型在性能优化后再计算层面是没有什么性能问题的，上线后分发效率提高明显，分发 ts 观看时长增加。

我们在上线后同样看到了一些问题：这种单一目标的排序模型，它的优化目标是 ts，就会忽略一些基本体验。比如，相关性约束对整个体验来说不一定在提高用户体验，可能在头部的一些效果上，我们行为比较多的一些搜索 query 上体验是提升了，但是中长尾的一些效果上其实是比较难以保证的，所以后面我们也是做了不同的尝试，把表征学习和其它的一些维度的排序效果相融合。

6、多目标 Deep LTR

上图为19年在排序方面的一些实践，多目标的深度排序学习。这里的多目标包括：相关性目标，rank 的 loss，entity loss。为什么有这些目标呢？我们其实是做一个整体的目标学习，我们要确保涵盖相关性技术体验的 loss，分发效率的排序 loss，实体匹配上的 loss。相对于表征学习的单一目标，我们这里要实现一个端对端的多目标的。

样本标注方面要综合时长和播放完成比，如果我们按照存点击数据，很多情况是和 ts 目标不一致的。如果只考虑视频时长，那么长视频就会被放在前面，如果只考虑播放完成比，那么短视频就会被放在前面，因为短视频就几十秒，很快就能播放完，长视频几十分钟，有的几个小时，不容易看完。所以我们会综合时长和播放完成比，对时长做分段的处理，在相同时长下作横向比较，形成一个不同时长视频的 label 分级，引导目标去学习。

这里正负样本采样比例1:8，是通过我们不断迭代调整的结果，并没有一个通用的方法。

三、多模态视频搜索实践

1、多模态视频搜索

基于标题和描述等文本信息的检索会遇到很多困难。

首先是单模态信息缺失，用户在上传 UGC 视频的时候，标题是比较简单，很难将丰富的视频内容表达清楚，有时这些文字信息还和视频内容是没有关联关系的；
其次是用户搜索意图越来越多元化，即使是版权视频的搜索也不再集中于节目名字的搜索，社交与互动的需求逐渐增长越来越多；
还有 To B 侧的需求，也就是内容二创的用户，需要去找各种各样的视频片段，视频素材，这部分的需求也需要用多模态技术去支撑。

基于多模态技术的搜索，将语言、语音、文字、图像的各种模块集中起来，综合这些信息来理解，能够方便用户更好地找到所需内容，得到更好的搜索体验。

目前在工业界和学术界对多模态搜索的研究热度都非常高，学术界有很多方案是基于将 Query 和视频映射到一个中间 Concept 的空间，然后在中间维度做相似度的匹配排序。此外，也有 VQA/GQA 等各类基于视频问答的数据集去推动自然语言和图像的关系推理，最近 Video/Visual Bert 的端到端的解决方案也有了很大的突破。

学术界喜欢这种端到端的解决方案，对于短小视频的理解可能确实是不错的方案。但针对长视频，这些方案很难真正做到准确的理解。因为长视频包含的内容信息更多维、更宽泛。此外，工业界的搜索引擎需要有可解释性和可控性，很少采用单一端到端的解决方案。

优酷的多模态搜索采用的技术方案是：

利用 CV 算法技术，将其他模态的信息降维到文本模态；
通过多模态内容检索的技术实现召回；
再从上层通过内容相关性和排序技术，满足用户对内容各维度的检索需求。

例如，基于人脸识别的技术，识别出视频中出现的明星人物，如《这就是街舞》视频中识别出易烊千玺、黄子韬等；通过 OCR/ASR 技术，识别各视频中的对话内容并转化成文本，然后基于文本去做结构化理解。

结构化的文本需要有系统性的理解和组织，可以利用关键词抽取技术把它理解好并形成我们的内容主题；同时我们还会利用音乐识别、动作识别、场景识别、情绪识别等 CV 技术，不断丰富解构内容，进而做到用户做各种组合搜索的时候，我们都能够召回，还能排的比较好。

一个完整的视频可以分出不同的片段，然后形成 shot，关键帧，关键元素，通过对关键元素的分析，可以把动作场景人物做一些识别。举个例子，如上图，通过人脸识别可以识别出这个片段中出现了哪些人，"周六夜现场"能检测出岳云鹏，陈赫；"晓说"能检测出高晓松，通过 OCR/ASR 可以把视频中的对话结构化出来，然后做一些关键词的抽取。

上图是用一个案例来介绍我们在多模态视频搜索时，如何更好地组织内容关键词，视频内容降维成文本之后，怎么做好这些文本内容的组织理解。

首先，这个案例中，内容关键词的词库是非常非常大的，此外内容和关键词属于多对多的关系。我们要通过各种关键词抽取技术来抽取候选的内容关键词，并且要扩大候选词来源的多样性。比如基于“NER”的方法能确保抽取的内容关键词是百科类实体名称，有较广泛的知识内涵；“新词发现”方法会综合 Ngram 以及语言模型（LM）等多种基础能力扩大对未知知识领域的挖掘。

候选关键词是不断扩充的，随着我们在视频内容理解的维度扩大，候选关键词的来源会越来越丰富。在丰富的内容候选关键词基础上，根据内容候选关键词和视频内容相关程度构建分类模型预测不同的等级，最相关的是核心内容关键词，其次是相关内容关键词以及提及内容关键词。然后关键词分级的核心特征除了文本特征之外，还会采用音频 / 视频表征网络生成的一些多模态特征来共同训练，进而提升预测关键词相关度的准确率，把关键词和内容表达的关联度预测得更精准。

这么做存在一些问题，以图中视频为例，该视频主要是讲欧洲瓷器的发展史，但是该视频文本标题是“陶瓷：陶瓷 (六)”，非常简短的描述，对它做内容理解降维成文本后，我们能够利用上面讲到的技术抽取内容关键词“塞夫勒”、“麦森”，但是如何把“塞夫勒”、“麦森”和“欧洲”关联起来，知道这个视频讲的是欧洲瓷器发展史，而不是中国或者日本？此外对于瓷器领域知识实体，“陶器”、“青花瓷”、“高岭土”，怎么把它们和“瓷器”概念关联起来？

2、视频元素级知识图谱

前面是视频理解的方式，如右图视频标题是李健 -《风吹麦浪》( 春晚歌曲 )，但是他是和孙俪一起唱的，标题里没有孙俪，用户经常搜索的内容是"孙俪李健合唱的风吹麦浪"，我们需要通过人物识别的方式把视频中的关键人物识别出来。在视频搜索中，需要多模态信息的辅助的，才能提高搜索准确率。左边是"甄缳传"，通过视频元素级识别，可以把关键人物识别出来，并且可以把人物和角色，人物和 ip 之间的关系获取出来，检索时可以将具体人物出现的关键位置检索出来，以及台词，歌词，内容关键的一个场景的起止时间，如果用户在搜索"甄子丹的打斗视频"，我们有相应的内容视频的聚合数据，用户可以搜到开始打斗的起始时间的。

这些都需要有知识图谱（KG）支撑，这就需要 KG 实体知识库涵盖广泛的领域，需要有全行业的丰富实体，才能帮助我们提取核心内容主题。另外像抽取的内容关键词“伯特格尔”是个人名，但是要用什么技术才能使它和内容主题相关程度识别准确？知识库不一定能收录，单纯通过频次也不一定能理解准确，但是“伯特格尔” 被“他”指代提及多次，算法需要有这种指代推理能力，才能把这样的关系理解出来。有了这些关系的理解，才能基于内容关键词去理解整个内容事件、内容主题，以及内容故事线等不同层级的抽象，才能够更全面地理解视频，然后更好地支撑上层的召回匹配和排序。

3、效果案例

再举几个内容关键词在多模态视频搜索中的应用：当用户搜索“军情解码张召忠”时，排前面的这几个视频内容都是“张召忠”主讲的，但是在标题文本里面其实没有“张召忠”这个名字，我们的算法通过内容理解的方式把它抽取出来了；像“军武次位面虎式坦克”，“虎式坦克”是用户是要找的，但是在视频标题中都是“荣耀之虎”、“虎 P 之腿”，这些视频里面针对“虎式坦克”有详细的内容介绍，通过内容理解能够将用户的需求和内容关联起来，做比较好的召回和排序；
最右边的是高晓松老师的“晓说以色列”，也是同类型。

四、总结

多模态视频搜索的应用场景是非常广泛，目前还没有做到故事级别的理解，这块是需要继续努力的方向。

参考资料：
阿里文娱搜索算法实践与思考
视频搜索太难了！阿里文娱多模态搜索算法实践
阿里在视频搜索领域的探索：多模态搜索算法实践
多模态检索Deep Cross-Modal Hashing
多模态检索论文总结
多模态检索之跨域图像转换
什么是跨模态检索与多模态检索？
解读优酷视频多级多模态搜索引擎的关键技术

搜索：多模态搜索算法实践【工业界：将其他模态（视频、音频）的信息降维到文本模态】【学术界：将所有模型信息映射到公共向量空间】相关推荐