向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程   公众号:datayx

随着移动互联网的发展和智能手机的普及,短视频已经成为重要的信息传播媒介,与此同时也带来了大量针对版权长视频的侵权行为。为了保护视频制作公司及原创者权益,需要通过自动化方式进行针对短视频的侵权行为检测。当前的侵权行为出现多样化及规模化特点,侵权视频多经过复合变换,要求算法模型中图像特征具有一定鲁棒性,并且有较快执行速度和并发能力。

本次任务将考察经过复合变换后的短视频关联到对应长视频的算法效果,其中不仅要找到短视频的原始长视频,还要计算出对应的时间段。过程中可能包括视频解码抽帧、视频或图像特征及指纹、视频相似检索等相关算法及技术方案。

数据简介

本次竞赛使用数据分为两部分:版权长视频和侵权短视频。

版权长视频由爱奇艺自制视频组成,版权归爱奇艺所有,侵权短视频由版权长视频经过变换制作生成。

假设版权长视频集合A,经过截取生成视频片段集合B,将B经过变换,得到视频片段集合B‘,将视频片段集合B‘合成到短视频集合C中,得到侵权短视频数据集合D,其中C和A不相交(A∩C =Ø)

其中短视频变换包括但不限于以下形式:

数据说明

训练数据集分为3个部分:

• query文件夹,其中包括3000个视频,为侵权视频训练集,格式为mp4,文件名为视频id,例如:b394c1e0-afd9-11e9-a9d1-fa163ee49799.mp4,其中b394c1e0-afd9-11e9-a9d1-fa163ee49799为视频id,与文件train.csv中字段对应

• refer文件夹,其中包括200个视频,为版权长视频视频集,格式为mp4,文件名为视频id,例如,2528707200.mp4,2528707200表示视频id,与文件train.csv中字段对应

• train.csv文件,记录侵权视频和版权长视频对应的关系及具体匹配时间,其中每列有8个空格分隔,具体字段说明参见下表:

本文相关代码 项目获取方式:

关注微信公众号 datayx  然后回复  视频检测  即可获取。

AI项目体验地址 https://loveai.tech

当前思路

  1. 提取视频关键帧;

  2. 通过resnet18提取关键帧特征;

  3. 对特征进行PCA降维(失败中)和L2正则化;

  4. 所有视频两两计算得相似度矩阵(余弦相似度);

  5. 对于相似度top-K视频对,进行帧级匹配(按相似度建图,跑最长路)。

一些经验

  1. 特征不宜过细,采用resnet50提取特征的效果比resnet18差10~20个点;

  2. 当前算法对参数比较敏感,目前取相似度前K=20视频进行帧级匹配,帧级匹配阶段,帧间相似度阈值0.85,最大跨度为10帧;

  3. 主要瓶颈在于视频级匹配,只要目标视频落入Top-K视频,基本可以得到正确的帧匹配;

  4. query与refer抽帧密度接近可能较好,也可能是抽帧不易过密。进行了query一秒五帧,refer一秒一帧与它们都一秒一帧两组测试,结果一秒一帧不仅运行速度快,而且得分大大高于另一组。

TODO

  1. 细粒度抽帧(当前1s抽一帧,感觉已经足够了);

  2. 代码重构(还差video_retrieval);

  3. 继续case analysis(不同视频,相同位置、角度与表情的大妈和男生的相似度竟然有85%,特征提取要继续研究)。


阅读过本文的人还看了以下文章:

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

长按图片,识别二维码,点关注


机器学习算法资源社群

不断上传电子版PDF资料

技术问题求解

 QQ群号: 333972581  

长按图片,识别二维码


爱奇艺视频拷贝(版权)检测算法相关推荐

  1. 爱奇艺视频版权保护技术与维权实践

    随着海量多媒体应用内容的产生,对内容的安全性要求也相应提高.爱奇艺技术产品中心高级经理 陈赫从多个方面介绍了爱奇艺在版权保护上的技术探索与维权实践.本文来自陈赫在LiveVideoStack线上交流分 ...

  2. 爱奇艺视频cmd5x解析算法的移植分析和实现Nodejs(2019-08)

    目录 爱奇艺视频cmd5x解析算法的移植分析和实现(2019-08). 什么是cmd5x算法 说明 大概 分析过程 首先 方案 关于调试 如何使用chromium的开发者工具对本地导入的代码进行断点调 ...

  3. 爱奇艺视频wasm转js分析,cmd5x算法脱离环境限制

    爱奇艺视频wasm转js分析,cmd5x算法脱离环境限制 1.js代码扣取 2.ast反混淆,平坦流 3.脱离环境与调用 1.js代码扣取 文献1:XX视频H5解析分析过程 文献2:爱奇艺视频cmd5 ...

  4. 多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记

    [12月公开课预告],入群直接获取报名地址 12月11日晚8点直播主题:人工智能消化道病理辅助诊断平台--从方法到落地 12月12日晚8点直播:利用容器技术打造AI公司技术中台 12月17日晚8点直播 ...

  5. 【机器学习】机器学习在爱奇艺视频分析理解中的实践

    原标题:大规模机器学习在爱奇艺视频分析理解中的实践 AI 前线导读:视频包含了图像.声音.文字等多种信息,可以表达生动.丰富的内容.随着 AI 时代的带来,互联网视频应用高速发展,视频更成为一种人人可 ...

  6. 大规模机器学习在爱奇艺视频分析理解中的实践

    视频包含了图像.声音.文字等多种信息,可以表达生动.丰富的内容.随着AI时代的带来,互联网视频应用高速发展,视频更成为一种人人可生成的内容,数据量暴涨.如何利用机器学习将海量的视频内容充分利用起来,成 ...

  7. 【视频分析】大规模机器学习在爱奇艺视频分析理解中的实践

    原标题:大规模机器学习在爱奇艺视频分析理解中的实践 AI 前线导读:视频包含了图像.声音.文字等多种信息,可以表达生动.丰富的内容.随着 AI 时代的带来,互联网视频应用高速发展,视频更成为一种人人可 ...

  8. AI 在爱奇艺视频广告中的探索

    嘉宾介绍 刘祁跃,爱奇艺科学家. 从事视频分析相关算法和业务落地,其中将 AI 应用于广告是重要工作方向. 导读:本次分享的主题为 AI 在爱奇艺视频广告中的探索.AI 可以对视频内容.广告素材进行理 ...

  9. 公开课 | 多模态人物识别技术及其在爱奇艺视频场景中的应用

    在这期CSDN技术公开课Plus中,爱奇艺科学家路香菊博士为大家分享了多模态人物识别的相关技术,大家可以在公开课笔记中了解.学习到爱奇艺在多模态技术领域中的主要研究工作及在爱奇艺视频中是如何应用这些技 ...

最新文章

  1. 【Flask项目】项目准备之-创建User模型类
  2. Oracle日期格式化问题:to_date(sysdate,'yyyy-MM-dd')与 to_date(to_char(sysdate,'yyyy-MM-dd'),'yyyy-MM-dd')区别
  3. Spring源码导入IDEA
  4. 东北大学软件项目管理与过程改进_工程项目管理信息化实施方案
  5. 字体编辑器_FontLab 7 ——字体编辑器
  6. 字符串2在字符串1中第一次出现的位置strstr()
  7. android read设置超时时间,在Android中的BluetoothSocket inputstream.read()中实现超时
  8. 列出IIS上的虚拟目录和网站信息。
  9. HTML中input是啥意思,HTML中input是什么意思
  10. H5页面适配 iPhoneX
  11. 计算机网络的硬盘组成,大卸八块!编辑为你揭秘硬盘的内部结构
  12. 《设计师要懂心理学》-第九章-人会犯错
  13. php环境用什么服务器好些_PHP环境部署,Linux真的比Windows好吗?
  14. can not be used when making a shared object; recompile with -fPIC
  15. 通过注册表修改键盘映射
  16. Microled简介及关键工艺(巨量转移)
  17. 基于Nginx搭建RTMP-HLS视频直播服务器(推流+拉流)
  18. Android PopupWindow 的方法 弹出窗口方法
  19. opta球员大数据预测胜负_大数据预测简介及使用流程
  20. IDEA(2018.2)的下载、安装及破解

热门文章

  1. FileMaker 的前世今生
  2. 【PaddlePaddle】GAN基础
  3. php怎么改字的大小,请教如何改验证里面字的大小
  4. 2022.3.20 准备工作
  5. APP提交审核-App Review
  6. C#实现QQ消息发送工具
  7. 【Simulator IOS虚拟机】IOS虚拟机设置中文输入
  8. 利用C4D创建啤酒盖模型
  9. R语言绘图:实用脑科学数据可视化包
  10. 优先级队列--大根堆和小根堆