干货分享 | TOP3团队参赛经验：知识与实践融合，在试错中成长

导读

在短视频如此迅猛发展背后，侵权问题却也愈发严重，由于互联网信息的开放与共享特性，数字产品很容易进行复制、传播、篡改，一些不法分子利用如今越来越简易的视频编辑软件，把原视频篡改后变为一个新视频发布，这种行为对原视频作者和视频制作公司的相关权益造成了严重侵犯。

本次爱奇艺与CCF联合举办的“2019CCF大数据与计算智能大赛-视频版权检测”赛道，针对侵权行为出现多样化及规模化特点，将考察选手经过复合变换后的短视频关联到对应长视频的算法效果，其中不仅要找到短视频的原始长视频，还要计算出对应的时间段，同时算法模型中图像特征具有一定鲁棒性，并且有较快执行速度和并发能力。

方案策略

本次“视频版权检测”赛道，老梁团队团队获得TOP3的成绩，他们的方案策略是：首先，构建参考视频帧级特征库，之后使用短视频的帧特征在特征库中进行检索通过匹配策略找到长视频，再逐帧比对特征确定侵权段，方案由特征提取、被侵权视频检索，被侵权视频段定位三部分组成。在特征提取阶段中，老梁团队采用Hessian Affine特征提取+SIFT描述子提取局部特征，然后采用Fisher vector将局部特征编码为二进制的全局特征。之前的工作证明，用该方式提取特征具有很好的区分度和鲁棒性。其次，为了排除同时处理多个参考长视频对检测定位精度的影响，老梁将整个版权检测过程分为两个阶段：在第一阶段中，他采用求带权二部图的最大匹配的方式，找到与查询短视频能在一对一帧匹配的约束下，匹配权重和最大的长视频。之后在该长视频中，通过找到在密集匹配约束下的最长递增子序列来精确定位侵权段，即在该阶段匹配帧对时，不仅要求其满足一对一的约束关系，同时要满足匹配在时间上的顺序性和密集性。

实验证明，老梁团队的方案具有良好的性能和检测精度。最终检测精度采用F1-score进行评价，即针对每个待检测侵权视频，如果正确匹配侵权长视频ID，并且起止时间段匹配误差在指定阈值以内，认定为预测结果正确，用TP表示；错误匹配长视频ID或者起止时间段误差超过指定的阈值，认定为预测结果错误，用FP表示；未进行预测数据及预测错误数据，用FN表示。在初赛时匹配误差阈值为5s，复赛时为3秒。通过前面的统计值计算precision和recall，如下式。

再由precision和recall计算出F1-score，如下式。

针对复杂的query短视频帧级变换，老梁团队的方案选取了具有高可区分度、高鲁棒性的特征提取方法。同时在不同阶段采用不同粒度的帧抽样方法，解决丢帧、混剪等视频级变换对检测精度的影响。并且他发现，如果同时处理检索到的多个参考长视频，很难精确的定位侵权段。为了将匹配精度控制在误差范围内，老梁将整个检测过程分为两个阶段，在第一个阶段，逐帧用查询特征在参考特征库中检索相似特征，对所得到的多个长视频序列进行过滤，找出匹配权重和最高的视频序列作为被侵权视频，并在第二阶段中精准定位该视频的被侵权段。最终老梁团队的方案在复赛测试集中取得的最优得分为 0.9086位列第4。

方案介绍

老梁团队的检测系统框架如后文图1所示，更为详细直观的示意图请扫描图中二维码查看。他的检测系统主要包含以下几个过程：

（1）特征提取，分别提取参考视频和查询视频的帧级特征；

（2）建立索引，用于快速检索特征；

（3）被侵权视频检测，在索引库中检测帧特征并计算参考视频id；

（4）侵权段定位，更换特征相似度计算方式，精准定位被侵权视频段。

2.1 特征提取：

老梁团队对视频帧抽样后的每帧用Hessian Affine特征提取+SIFT描述子形成局部特征，然后采用Fisher Vector将局部特征编码为二进制的全局特征描述子。如文献[1]中所述，这种提取特征的方式更具有鲁棒性和区分度。同时，随着深度学习技术的兴起，出现了一些基于深度网络的视频帧特征提取方法，为了避免手工特征存在的语义鸿沟等问题，老梁也尝试了将深度特征（RMAC特征描述符[2]）作为补充，融合两种特征的检索得分。

2.2 被侵权视频检测

为了准确找出被侵权的参考视频段，排除同时处理多个参考视频对定位精度的影响，本方案将整个检测流程分为两个阶段，第一阶段找出被侵权的参考长视频。第二阶段精准的定位被侵权视频段。

图1：版权检测框架

对于第一阶段老梁团队采用faiss[3]在粗粒度（每秒1帧采样）层次对参考视频构建二进制索引，在检索时首先在索引库中查找与当前查询帧汉明距离最小的k（k=10）个参考帧。

然后，使用求带权二部图的最大匹配的思路寻找被侵权视频，即在一对一的帧匹配的限定条件下，对检索到的参考视频集中的每个参考视频段，求其与查询视频段形成的带权二分图中的最大匹配。将匹配权重和最大的参考视频作为被侵权视频。该部分参考了文献[4] 。公式描述如下式：

式中：

：第k个参考视频与查询视频所组成的匹配对集合。

：分别为中的查询视频段和参考视频段。

：为查询视频段的第s帧和参考视频段的第t帧。

：表示和之间的相似度。

：表示和是否为中的匹配对。

：所得到的最大匹配的权重和。

：被侵权的视频id。

采用最小费用最大流（MCMF）解决该问题。

2.3被侵权视频段精准定位

对于第二阶段，要完成对被侵权视频段的精准定位。对第一阶段获得的侵权视频id，提取对应参考视频和查询视频的全局特征描述及相关参数。运用文献[1]中所提出的QAGS（Query-Based Asymmetric GaussianSkipping）的方式计算query与refer各个帧之间的相似度。在实验中老梁发现，该方法比直接采用汉明距离计算相似度的准确率高很多。但同时他也发现该方法随着帧抽样粒度的细化，计算时间会指数倍增加。

之后对每个查询帧获取相似度最高的k个参考帧（k=10），需要注意到的是该阶段在细粒度（5fps）层次进行帧匹配。根据文献[4]，将侵权视频段的精准定位问题视为求二部图的最长递增匹配密集子序列，即在要求视频帧是一对一匹配的基础上，还要保证匹配的时间顺序性和密集性。

首先把当前查询帧检索到的参考帧集，按照时间顺序进行排序，并将其和组合为一个个匹配对，形成当前查询帧的匹配集合，将所有查询帧形成的匹配合并为。然后利用动态规划的方法求出所有可能的最长递增匹配子序列。

即对于中的每个匹配将其视为匹配序列的结束点，需要判定在其之后是否存在一个匹配，使得当前匹配的路径长度。如果存在则将并入到序列当中，即，并更新序列长度以及序列权重和。同时需要注意到，当且时，说明在处找到了一个长度相同但权重更大的匹配，仍然需要更新和。详见文献[4]中Algorithm 1。匹配结果示意图如图2所示。

图2：最长递增匹配子序列示意图

可以看出所得到的匹配序列可能存在一些稀疏的离群匹配，之后通过比较匹配路径中前后匹配之间的时间差排除掉这些匹配。示例如图3所示。实验中老梁发现，该方法一般所得到的匹配段都位于真实的匹配段内部，但是匹配序列长度普遍较短。所以他又对匹配段采用滑动窗口的方式进行双向扫描。在迭代扫描的操作中，每次移动步长，寻找在时间窗口内满足顺序匹配约束的最大权重匹配对，若该匹配权重大于阈值，并将其作为新的起始（或结束）结点。

图3：增加密集约束后所得到的匹配示意图

实验

3.1实验环境及数据集

老梁团队使用亚马逊AWS的c5.4xlarge实例类型完成所有实验，其包含16核3.6GHz Intel Xeon 可扩展处理器、32G内存。比赛数据集由三部分组成，参考视频集包括200个视频，为版权长视频集，格式为mp4；训练查询视频集包括3000个视频，由参考长视频生成；测试查询视频集包括1500个视频，由参考长视频生成。同时老梁随机从训练查询视频集抽取500个短视频，作为验证集。

3.2实验结果

表1为一阶段测试结果，老梁团队分别在验证集上测试Top-1、Top-3和Top-5的视频检测准确度。可以发现他的方案在top-1的准确率已经达到95.8%，并且老梁发现，如果取多个视频进行二阶段定位，虽然最终精度会增加，但是检测时间也会成倍增长。

表1：一阶段实验结果

表2为整个方案流程的测试结果，老梁报告了方案在验证集和测试集上的f1-score以及在测试集上的平均每个短视频的检测时间，其中匹配误差阈值为3s。需要注意到的是，在这里检测时间仅做参照，因为方案的整体检测时间受到了帧抽样粒度、特征维度、参考视频数目等诸多条件的限制，尤其在精准定位时，时间会随着帧抽样粒度的增加指数倍增长，这是未来改进的重点。

表2：整流程测试结果

总结

本方案利用高鲁棒性的特征提取方式提取帧级特征，并将版权检测过程分为两个阶段，利用求二分图匹配的思路获得精确的检测和定位结果。虽然老梁团队的方案最终取得了较好的检测精度，并在比赛中取得了不错成绩，但是在时间和效率方面存在很大的不足，特征融合以及改进二阶段的相似度计算方式或许可以突破本方案在时间上的瓶颈，这有待未来进一步探究。

致谢

在本次比赛中，从一开始的不知所措到慢慢找到状态并晋级决赛，整个过程中让我的专业素养和思考问题的方式都获得了很大的提升。在实际中磨练自己所学的知识，将知识内化为自己的能力并运用是本次比赛中给予我的最宝贵的财富。纸上得来终觉浅，一篇优秀的学术论文并不一定会给应用带来很大的实际提升，但是学会去粗取精，在不同的想法和思路中获得启示，并用实验去验证，不断迭代最终形成最适合解决方案，在不断的试错中逐渐明白学术论文和实际应用之间的共性和差异，这些都是我在平时难以获得的宝贵经验。同时，在比赛中我也发现了自己编程方面的不足，是需要我未来努力加强的。感谢CCF BDCI为我们提供如此优质的平台，感谢爱奇艺各位老师的辛勤付出，感谢为本次赛事默默付出的工作人员，十分倾佩你们认真、严谨的工作态度，希望以后我们还能在比赛中再次相见。

团队简介

TOP3选手，“小贾的老梁”团队，本比赛唯一的一人成团。团队的队长兼队员梁彦军，目前就读北京科技大学计通学院，为计算机技术专业研二年级学生，研究方向为图像处理。

参考

[1]Araujo, A., & Girod,B. (2017). Large-scale video retrieval using image queries. IEEE transactionson circuits and systems for video technology, 28(6), 1406-1420.

[2]Du, S., Saha, A. K.,& Johnson, D. B. (2007, May). RMAC: A routing-enhanced duty-cycle MACprotocol for wireless sensor networks. In IEEE INFOCOM 2007-26th IEEEInternational Conference on Computer Communications (pp. 1478-1486). IEEE.

[3]Johnson, J., Douze, M.,& Jégou, H. (2019). Billion-scale similarity search with GPUs. IEEETransactions on Big Data.

[4]Yang, Y., Tian, Y.,& Huang, T. (2019). Multiscale video sequence matching for near-duplicatedetection and retrieval. Multimedia Tools and Applications, 78(1), 311-336.

也许你还想看

干货分享 | TOP2团队参赛经验：最大收获来自队员支持和鼓励

干货分享 | TOP1团队参赛经验：全面了解研究方向助力获胜

扫一扫下方二维码，更多精彩内容陪伴你！