针对上述技术挑战,本文的算法模型设计结合图神经网络GraphSAGE[15]的双塔检索框架,该框架的优点:

  1. 通过图网络构建缓解训练样本稀疏和均衡问题。样本1和样本2有点击Pairs标签,样本3和样本2内容表达一致但没有点击Pairs标签,在图网络中拉近样本1和样本3的特征距离来间接拉近样本2和样本3的特征距离。

  2. 图网络中同模态和跨模态端到端的度量学习进一步保证不同模态的语义一致性和同模态语义的判别性。

  3. 可以实现高效的大规模检索。

该模型主要包括文本编码模型、视频多模态编码模型、图网络算法模型、度量学习模型。

  文本编码

文本编码将主题标签文本转为定长实数向量,该向量能够反映主题内容信息,与视频编码向量进行相似度计算。本文在实验中尝试过通用预训练BERT、淘内预训练RoBert、Transformer等结构,最后综合考虑性能和效率采用了从头开始训练的6层Transformer结构。其首先对query进行分词,每个分词的word embedding初始参数随机;分词长度固定,不足补零,过长直接截断;整个文本所有参数random初始化,和检索模型一起端到端训练参数更新。

  视频编码

视频编码模型主要是将视频多模态数据转化成反映视频内容的特征向量。为了提升训练效率,本文的视频多模态表征向量采用淘内数据预训练的视频多模态预训练模型离线提取的特征,尝试的模型包括双流网络结构LXMERT[3,13]和单流网络结构UniterVideo[4,5,14]。多模态模型输入每个视频帧提取的inception V4图像特征以及视频对应的描述信息,例如视频标题,summary等信息,设计了4个task,Mask Language Model(MLM), Mask Region Model(MRM), Video Text Match(VTM)以及商品类目分类模型(CLS),整体模型结构如下。

LXMERT双流架构

Uniter单流架构

  图网络模型

本文工作在经典双塔模型的技术上嵌入GraphSAGE图神经网络模型,在大规模图上学习结点embedding,集团的GraphLearning图学习框架为本文的算法提供了框架基础。整体的图网络学习框架如下,其中输入特征分别来自文本编码和视频编码的输出特征。

  • 大规模异构图构建

建图的合理性和准确性是影响图结点特征学习的重要因素,从提升结点覆盖率和构边置信度两个目标出发,本文采用先验特征相似和后验点击行为对视频和主题标签构建图网络。

基于用户点击行为建图

  1. 文本-视频 异构图:在云主题搜索、内容搜索、淘宝经验、手淘搜索等搜索场景中用户在主题标签或query下挂的视频列表中触发的点击行为作为文本-视频异构构边的依据。

  2. 文本-文本/视频-视频 同构图:在云主题搜索、内容搜索、淘宝经验、手淘搜索等搜索场景,同一用户在同一query下点击的视频有高度相关的语义,同一用户在聚合主题下点击的外透视频内容也十分类似,这些视频两两构边。同一视频挂靠的主题标签和搜索query也同理构边。

基于语义相似度建图

  1. 文本-文本/视频-视频 同构图:对于新样本和冷启动样本采用文本或视频预训练模型提取的特征计算语义相似度,分别在视频池和语料库中选取相似度最高的TOP10样本构边。对于新样本和冷启动样本采用文本或视频预训练模型提取的特征计算语义相似度,分别在视频池和语料库中选取相似度最高的TOP10样本构边。
  • 邻结点采样

图结点邻居采样的方式常用包括:随机采样,随机广度采度,随机游走采样Random Walk。考虑到经典随机游走算法对于度大节点的偏向性问题,本文采用修正改进版本的游走策略,降低度大节点的游走概率, 结点对邻居结点采样概率为:

其中,表示结点的邻结点集,分别表示结点的度数。

  • 特征聚合

在图结点特征聚合上本文采用pooling聚合,先对每个邻居结点上一层embedding进行非线性转换,再按维度应用 max/mean pooling,捕获邻居集上的显著特征以此表示目标结点embedding。具体pipeline如下:

在特征聚合策略上,考虑跨模态检索的目的是实现不同模态数据在高维空间的语义对齐,消除数据模态差异的存在,因此本文根据聚合邻结点的类型,尝试采用实验了三种不同的聚合策略:

  1. 同构聚合,目标结点只聚合同模态的邻结点

  2. 异构聚合,目标结点只聚合不同模态的邻结点

  3. 混合聚合,目标结点随机聚合邻结点

在第四小节的实验对比可以看出同构聚合策略性能最佳。

  度量学习

  • 正负样本设置

跨模态训练任务的视频-文本异构正样本通过异构边直接获取,异构负样本的选择采用自适应五元组损失AOQ Loss[16]采用Batch内在线难样本挖掘Online Hard Sample和离线难样本挖掘Offline Hard Sample选择在线局部负样本和离线全局负样本。

单模态训练任务的视频-视频、文本-文本的同构正样本分别来自同构边的一跳和二跳游走采样邻结点,负样本在全图进行随机采样。

  • 目标优化函数

本文设计的损失函数包括两部分:

  1. 同模态度量损失和有无边二分类损失。同模态度量损失是距离约束,保证在高维度量空间拉近正样本距离,拉远负样本对距离;有无边二分类损失本质是根据图的结构构建正负样本的相关性约束。

  2. 跨模态自适应五元组度量损失。在线难样本挖掘有两个主要不足:

  3. 负样本选择策略具有局部性、"难度"不足;

  4. 对于正样本对和负样本对的惩罚力度一致,不同难度的样本对应有不同的优化更新力度。

本文采用自适应五元组损失损失,自适应调整正样本对、在线负样本对、离线负样本对的更新权重,达到在相似度方面正样本对>在线负样本对>离线负样本对的目的。

损失公式表达:

同模态度量损失:

同模态有无边二分类损失:

跨模态度量损失:

其中表示文本768维特征向量,表示视频768维特征向量,表示文本正样本,表示视频正样本,表示文本局部负样本,表示视频局部负样本,表示文本全局负样本,表示视频全局负样本,、为超参数,表示文本同构边, 表示文本同构边, 表示指示函数,表示距离间隔,表示负样本数量。

  • 训练细节

整个检索模型以端到端的方式进行训练,训练分两轮。第一轮次训练跨模态部分度量学习仅采用在线难挖掘损失,训练优化过程进行学习率warm up。早期训练容易出现模型崩塌现象,hard triplet loss促使各样本点映射到同一个点,loss收敛到margin。为解决该问题FaceNet采用semi-hard triplet loss可以使模型训练更加稳定、收敛更快,但达不到hard triplet loss的更优解。本文选择在学习率warm up期间采用负样本在线随机采样,模型训练稳定之后采用在线难样本挖掘训练直到收敛。第一轮次训练完成之后,训练样本进行全局语义检索寻找全局难负样本,构建五元组进行第二轮次训练。

在原始训练数据的基础上,本文尝试进一步采用半监督学习的方式进行训练数据的扩量,训练完成的模型在万象城视频库召回更多的伪匹配样本,训练数据的扩量带来更大的性能提升。

实验

  度量学习

检索衡量指标采用检索召回准确率Top1,Top5,Top20 以及Mean Rank值。1K淘宝样本对检索性能如下。基于预训练Roberta文本特征的视频文本-标签文本检索方式与基于多模态特征的视频多模态-标签文本的检索方式性能有明显差距,视频多模态信息的互补增益更好地实现淘宝视频内容理解。视频多模态-标签文本的检索方式在引入图神经网络算法后在Top1准确率上有超过9.0%的性能提升,图结构信息的引入进一步提升了视频和文本结点的语义表征能力。模型在度量学习上结合离线全局负样本采样和在线局部负样本采样的方式在Top1准确率上提升2.0%,采样不同难度的负样本使模型收敛到更优点。本文尝试通过半监督的方式扩量训练集召回更多伪匹配样本,对模型性能有更佳的增益。

  公开数据集实验

本文算法应用于MSCOCO Retrieval数据集做性能测试。MSCOCO Retrieval数据集的5K检索任务性能结果对比如下,其中对比方法主要限定采用双塔模型结构、特征提取无需模态间交互对齐计算、适用于大规模检索的方法。本文工作达到了于同期前沿工作具有竞争力的性能。

  消融对比及可视化

  • 聚合策略

图结点表示的三种不同的聚合策略性能结果对比如表所示,本小节实验结果在模型[Uniter | transformers | GNN]实现,检索衡量指标同样采用检索召回准确率Top1,Top5,Top20 以及Mean Rank值。

异构聚合策略比同构聚合策略在Top1准确率跌落几个百分点,存在的原因有:

  1. 图网络构建准确率还不够高,采样的异构结点与目标结点存在语义不配现象;

  2. 不同模态数据在聚合过程中非线性变换处理没有根据模态差异设置不同的优化参数,目前采用的聚合过程的线性层采用共享参数。

  • 样本可视化

本文抽取部分测试样本,模型提取文本特征和视频特征并进行进行T-SNE处理可视化,如下图所示,其中蓝色表示文本样本,红色表示视频样本,可以看出同内容语义的文本视频来高维空间得到很好的聚类效应,并且同其他不同内容语义的样本保持一定间隔距离。GNN的引入使得同模态正样本之间的距离更加拉近。

  • 主题标签召回示

主题标签在千万级首猜精品视频池进行向量检索,手淘全屏页[3]主题标签召回示例case:

讨论和展望

本文对淘宝内容场景下的文本视频跨模态检索问题进行了研究和讨论,指出跨模态检索当前存在的训练样本稀疏均衡问题、跨模态度量学习的技术挑战和高效检索问题,并对此做出了深入分析,提出了结合GraphSAGE图网络算法的双塔跨模态检索模型,分别对同模态和跨模态进行多目标学习,保证同模态判 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】 别性的同时,实现跨模态特征的对齐,线下实验验证和业务评测验证了本文算法有效性。本文对文本-视频跨模态检索技术的研究主要通过文本和视频全局特征构建双塔度量模型,后续会继续深耕:

淘宝视频的跨模态检索相关推荐

  1. 淘宝视频内容标签的结构化分析和管理

    淘宝视频是如何分类的?又是如何保持不同类别视频样本得到相对均衡?又是如何应用的? 背景介绍 随着5g时代的到来,视频内容形态迸发出勃勃生机,各大短视频app获得的巨大成功.淘宝短视频完成的种草和成交转 ...

  2. 大规模视频内容理解:淘宝视频内容标签的结构化分析和管理

    关注公众号,发现CV技术之美 本文转载自淘系技术. 淘宝视频是如何分类的?又是如何保持不同类别视频样本得到相对均衡?又是如何应用的? 背景介绍 随着5G时代的到来,视频内容形态迸发出勃勃生机,各大短视 ...

  3. 让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘

    背景 随着4G的普及和5G的推出,内容消费的诉求越来越受到人们的重视.2019年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为"行业黑洞"抢夺用 ...

  4. Cross-modal Retrieval(跨模态检索)

    前一篇文章整理了多模态融合Multimodal Fusion,最近看到一篇很好的跨模态检索的文章,这篇博客就来整理几篇博主认为idea还不错的跨模态检索.另,如果有其他idea很好的跨模态论文,希望你 ...

  5. 论文笔记--跨模态检索研究综述-2018

    论文信息: 期刊论文-跨媒体检索研究综述-2018-欧卫华 文末部分参考文献附有论文下载链接,并提供了本论文下载地址 转载本文请添加以下引用: 作者:lingpy 本文链接:https://blog. ...

  6. 破局传统算法痛点,腾讯安全首提基于跨模态检索的二进制代码-源代码匹配

    整理 | 高卫华 出品 | AI科技大本营 头图 | CSDN付费下载自视觉中国 近日,在NeurIPS 2020正式发布的论文入选名单中,腾讯安全科恩实验室聚焦解决二进制安全问题的<CodeC ...

  7. CVPR论文 | 所见所想所找:基于生成模型的跨模态检索

    [小叽导读]:视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域结合的一个热点.对于跨模态检索而言,如何学到合适的特征表达非常关键.本文提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模 ...

  8. ACM MM18 | 用于跨模态检索的综合距离保持自编码器

    作者丨黄澄楷 研究方向丨多媒体信息检索/内容理解 本文是发表在 MM18 上的一篇跨模态检索文章,作者提出了一种采用综合保持距离的自编码器(CDPAE)的新颖方法,用以解决无监督的跨模态检索任务. 之 ...

  9. 2021年淘宝双11跨店满减如何使用?

    2021年淘宝双11跨店满减怎么使用? 前面小编赵一八笔记介绍了天猫双十一活动从几号开始到几号结束,双十一活动期间淘宝的商家也会上线促销活动,其中跨店满减是少不了的环节,大家知道今年淘宝双11满多少减 ...

最新文章

  1. “画中画”效果--谈IFRAME标签的使用
  2. MIT-THU未来城市创新网络即将和你见面!
  3. Hyperledger Fabric SDK Go构建第一个应用
  4. KVM之EPT与影子页表(七)
  5. Python----面向对象---property的使用
  6. c++ socket编程_C/C++中的Socket编程
  7. 【职场】如何才能成功的创业,创业成功的本质是什么
  8. PST文件的读取(待整理)
  9. 防外挂和防木马的通用解决方案
  10. html:(8):span标签和q标签
  11. CVE-2021-3156:隐藏10年之久的 Sudo 漏洞,可使任意用户获得root 权限(详述)
  12. Hadoop权威指南学习笔记一
  13. 湖南师大工学院计算机,张连明-湖南师范大学信息科学与工程学院
  14. google 翻译错误解决方法
  15. UEFI开发探索50 – UEFI与网络2
  16. mellanox在vmware中的切割
  17. 数字信号处理之数字混频
  18. VisualStudio2019 安装时下载不动或者显示下载失败
  19. HTTPS学习笔记:(3)一文彻底了解PKI与证书
  20. 网页视频倍数播放代码

热门文章

  1. 女人啊!你的名字叫坚强
  2. 图网络:从数据处理到DGL模型构建(GCN, GraphSAGE, RGCN)
  3. 【人脸识别】face_recognition 库的使用
  4. 热经-北京中地时空数码科技有限公司-研发工程师(WEBGIS方向)
  5. Argo CD系列视频图文版之安装 argocd 并运行示例
  6. 笔记:C#_对象池_异常代码: c0000005
  7. 想剑网三妹子最多服务器,每当谈论起哪款端游女生玩家多,为什么我们总是会想起剑网3?...
  8. 郑州oracle代理,郑州甲骨文(Oracle)培训OCM直通车
  9. 中国特殊配方奶粉市场销售渠道及营销策略研究报告(2022-2027年)
  10. 三国群英传霸业之王服务器维护,20200901维护公告