视频内容相似度算法

随着视频内容越来越多，通过深度模型理解视频，提取视频内容特征，建立视频搜索引擎，已经成为主流。视频内容相似度检索以及视频内容理解能力越发重要。再业务推进过程以及技术积累过程中，对调研尝试过的数据和方法，做简要的整理和剖析。当前北大满哥视频侵权，说明平台在视频内容审核这一块，严格意义上讲，就平台再视频版权这一块，或多或少的都需要人工运维去做支撑（依据没有运用OCR以及语义等初级的文案审核能力对头部流量视频做内容风控）。显然目前互联网企业的初衷，还在我们的"菜篮子"里，未将精力投入的科技的星辰大海，个人观点。

视频相似问题

处理问题规模

常见的算法都需要的对每帧图片内容做编码，单帧（或者视频段）处理速度，对最终的推理耗时影响很大；比如，单帧耗时指视频流拉取至内存以及单帧图片特征提取耗时（视频读取平均一帧，20ms）；

(视频)20000 * 帧数（2*60*25）* 单帧耗时50ms/1000/60/60 ~= 833小时；

常见的视频相似度问题

码率变化，格式变化，添加透明水印（少量），分辨率变化，添加文本，裁剪，明显水印，边界扩充；视频内容存在交集，裁剪，边界扩充问题示例。

这里容易出现起义的问题就是，视频段存在交集（episode 内容copy）；视频内容存在交集(episode 内容趋同，同样的交互内容）；比如最近北大满哥视频抄袭事件，是需要更复杂的语义理解能力，比如语音识别能力，对抄袭文案进行，识别。然当前所有平台再视频版权这一块，或多或少的都需要人工运维去做支撑。如前面所说，目前的互联网企业，还是觊觎我们的"菜篮子"，未将精力投入的科技的星辰大海。

数据集

开源数据集

视频+文本

Microsoft Research Video Description Corpus
(MSVD)：也称为YouTube2Text
dataset，该数据集同样由Microsoft Research提供，地址为 Microsoft
Research Video Description Corpus
。该数据集包含1970段YouTube视频片段（时长在10-25s之间），每段视频被标注了大概40条英文句子。
MSR-VTT (Microsoft Research Video to
Text)：该数据集为ACM
Multimedia 2016 的 Microsoft Research - Video to Text (MSR-VTT)
Challenge。地址为 Microsoft Multimedia Challenge
。该数据集包含10000个视频片段（video
clip），被分为训练，验证和测试集三部分。每个视频片段都被标注了大概20条英文句子。此外，MSR-VTT还提供了每个视频的类别信息（共计20类），这个类别信息算是先验的，在测试集中也是已知的。同时，视频都是包含音频信息的。该数据库共计使用了四种机器翻译的评价指标，分别为：METEOR,
BLEU@1-4,ROUGE-L,CIDEr。
LSMDC (Large Scale Movie Description
Challenge): This dataset
contains 118,081 short video clips extracted from 202 movies. Each
video has a caption, either extracted from the movie script or from
transcribed DVS (descriptive video services) for the visually
impaired. The validation set contains 7408 clips and evaluation is
performed on a test set of 1000 videos from movies disjoint from the
training and val sets.

视频

CC_WEB_VIDEO -
Near-Duplicate Video Retrieval
FIVR-5K, FIVR-200K - Fine-grained
Incident Video Retrieval
EVVE - Event-based Video
Retrieval
ActivityNet - Action Video Retrieval

竞赛视频数据

QQ Browser 2021 Ai Algorithm Competition
也可以在这里下载：https://share.weiyun.com/S7YSt5sp 密码：78u5bw

开放生产数据

VCSL 数据集和评测以及算法代码
https://github.com/alipay/VCSL

业界方案

抖音视频检索能力

https://www.volcengine.com/product/videohighlights

开放能力：通过多模态AI算法提取精彩片段并剪除重复内容，将其浓缩为精华摘要短视频，应用于广告投放、游戏投放、教育等场景。

分析：多模态算法只用于视频片段内去重，不支持大量视频的检索；

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BMSiJgxA-1653990500916)(images\media\image3.png)]

百度视频检索能力

https://cloud.baidu.com/doc/MMS/s/Gkbhphdtw

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aoDgPhYI-1653990500921)(images\media\image4.png)]

阿里云开放视频检索能力

https://retina.aliyun.com/?spm=5176.11914242.J_5253785160.4.57354b57sY8Oed#/DNA/sport

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jyCBHqGB-1653990500923)(images\media\image5.png)]

算法方案

基于视频编码的

https://github.com/MKLab-ITI/visil
Video Similarity and Alignment Learning on Partial Video Copy Detection
https://arxiv.org/pdf/2108.01817v1.pdf
https://pvcd-vsal.github.io/vsal//results/

基于视频画面-文本联合编码

https://github.com/willard-yuan/video-text-retrieval-papers

基于视频画面-语音联合编码

待补充完善

开源方案

https://milvus.io/cn/docs/v2.0.0/video_similarity_search.md

常用算法

一般提取视频特征分成两步：

为视频画面，或者音频片段特征提取；
再获取帧级特征表示后，需要一个时间对齐模，揭示潜在复制视频对之间一个或多个复制片段的相似性和时间范围；

帧级特征获取

从第一步来看，视频检索本质上是对重复画面或者语音片段等的检索识别，从对底层的特征编码能力角度，常见视频相似度查找算法如下；

视频相似度度量方案	方法分类	特点
MD5,SHA-256	哈希算法	只能分析完全相同内容
dHash/aHash/pHash, PDQ	传统图像感知方案	对裁剪、翻转等具有一定的鲁棒性
深度hash 方案	深度hash感知	对裁剪、翻转，灰度化等都具有较强的鲁棒性
RMAC,DINO	基于深度的图像特征编码	对于图像篡改具有较强的鲁棒性
图文预训练模型	深度多模态	指标依赖于数据量
图音预训练模型	深度多模态	待补充

从第二步来看，将上述视频内容进行帧级特征表示，需要分析视频对之间一个或多个复制片段的相似性，并确定时间范围

经典时空建模方法如下

Temporal Hough Voting
graph-based Temporal Network
temporal matching kernel
LAMV

Reference

https://richzhang.github.io/PerceptualSimilarity/index_files/poster_cvpr.pdf
Poullot S , Tsukatani S , Nguyen A P , et al. Temporal Matching Kernel with Explicit Feature Maps[C]// Acm International Conference on Multimedia. ACM, 2015.
L. Baraldi, M. Douze, R. Cucchiara, and H. Jegou. Lamv :Learning to align and match videos with kernelized temporal layers. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7804–7813, 2018. 1, 2, 3**
M. Douze, H. Jegou, and C. Schmid. An image-based approach to video copy detection with spatio-temporal postfiltering. IEEE Transactions on Multimedia, 12(4):257–266,2010. 3, 7
Hung-Khoon Tan, Chong-Wah Ngo, Richard Hong, and TatSeng Chua. Scalable detection of partial near-duplicate videos by visual-temporal consistency. MM ’09, page 145–154, New York, NY, USA, 2009. Association for Computing Machinery. 3, 7

视频内容相似度视频数字版权综述相关推荐

视频内容加密封装技术研究
视频内容加密封装技术研究郭晓霞王磊沈阳 (国家新闻出版广电总局广播科学研究院) [摘要]基于http的动态自适应流媒体技术面向多种智能终端提供视频服务是目前互联网视频服务的主流模式,内容 ...
AAAI 2020 | 时间可以是二维的吗？基于二维时间图的视频内容片段检测
作者 | 彭厚文.傅建龙来源 | 微软研究院AI头条编者按:当时间从一维走向二维,时序信息处理问题中一种全新的建模思路由此产生.根据这种新思路及其产生的二维时间图概念,微软亚洲研究院提出一种新的解 ...
时间可以是二维的？基于二维时间图的视频内容片段检测 | AAAI 2020
作者 | 彭厚文.傅建龙来源 | 微软研究院AI头条(ID: MSRAsia) 编者按:当时间从一维走向二维,时序信息处理问题中一种全新的建模思路由此产生.根据这种新思路及其产生的二维时间图概念,微 ...
web内容如何保护：如何有效地保护 HTML5 格式的视频内容?
文章资料还没有整理完,现在还不通顺,但是可以做笔记看 HTML是用于创建web页面和web应用程序的公开标准的标记语言.HTML文件基本上是纯文本文件,这意味着软件应用程序和普通人可以轻松地创建.读取 ...
网络不良视频内容识别技术初探
网络不良视频内容识别技术初探网络中的图片.视频及音频等多媒体信息具有内容丰富.感观性强等特点,已经逐渐成为不良信息在互联网上传播所采取的主要方式之一.网络中不良多媒体信息的数量与日俱增,所造成的文化 ...
淘宝视频内容标签的结构化分析和管理
淘宝视频是如何分类的?又是如何保持不同类别视频样本得到相对均衡?又是如何应用的? 背景介绍随着5g时代的到来,视频内容形态迸发出勃勃生机,各大短视频app获得的巨大成功.淘宝短视频完成的种草和成交转 ...
大规模视频内容理解：淘宝视频内容标签的结构化分析和管理
关注公众号,发现CV技术之美本文转载自淘系技术. 淘宝视频是如何分类的?又是如何保持不同类别视频样本得到相对均衡?又是如何应用的? 背景介绍随着5G时代的到来,视频内容形态迸发出勃勃生机,各大短视 ...
短视频内容理解与生成技术在美团的创新实践
点击上方"LiveVideoStack"关注我们美团围绕丰富的本地生活服务电商场景,积累了海量视频数据.如何通过计算机视觉技术用相关数据,为用户和商家提供更好的服务,是一项重要的 ...
阿里大文娱：打造更多社会需要的优质原创视频内容
短视频行业随着社会的不断发展,已经有了将近10多年的发展历史.随着近几年来人们足不出户现象的频繁出现,刷短视频的人开始越来越多,人们开始对娱乐方向有了一定的兴趣和习惯.关注短视频的人多,但是并不意味着 ...

视频内容相似度视频数字版权综述

视频内容相似度算法

视频相似问题

处理问题规模

常见的视频相似度问题

数据集

开源数据集

业界方案

抖音视频检索能力

百度视频检索能力

阿里云开放视频检索能力

算法方案

基于视频编码的

基于视频画面-文本联合编码

基于视频画面-语音联合编码

开源方案

常用算法

帧级特征获取

经典时空建模方法如下

Reference

视频内容相似度视频数字版权综述相关推荐

最新文章

热门文章

视频内容相似度视频数字版权 综述

视频内容相似度算法

视频相似问题

处理问题规模

常见的视频相似度问题

数据集

开源数据集

业界方案

抖音视频检索能力

百度视频检索能力

阿里云开放视频检索能力

算法方案

基于视频编码的

基于视频画面-文本联合编码

基于视频画面-语音联合编码

开源方案

常用算法

帧级特征获取

经典时空建模方法如下

Reference

视频内容相似度视频数字版权 综述相关推荐

最新文章

热门文章

视频内容相似度视频数字版权综述

视频内容相似度视频数字版权综述相关推荐