[论文笔记] 视频广告理解的多模态框架
视频广告理解的多模态框架
A Multimodal Framework for Video Ads Understanding
摘要
在社交网络营销平台上投放视频广告 的趋势越来越大,这就需要自动方法来有效理解广告内容。
以2021年TAAC比赛为契机,我们开展了发展 多模态系统 提高了结构化分析的能力广告视频内容。在我们的框架中,我们分解了视频结构分析问题分为两个任务,即 场景分段 和 多模态标签。在场景分割中,我们 建立一个时间卷积模块的时间建模预测相邻帧是否属于同一场景。
在多模态标签,我们首先计算剪辑级的视觉特征使用 NeXt-SoftDBoF 聚合帧级特性。视觉功能进一步与文本功能相补充使用 全局-局部注意力提取机制 导出有用来自OCR(光学字符识别)和ASR的信息(音频语音识别)输出。
介绍
网络视频广告 具有 灵活性强、传播范围广、成本低、交互性强 等优势,是一种有效的营销方式。因此,不同的公司在制作在线视频广告上投入了越来越多的精力,并通过不同的社交平台准确地将其传递给用户。
由于视频广告的重要价值,也有许多研究都与视频广告有关,包括广告推荐、质量监控、中断时间估计、等。随着5G领域的快速发展,视频的数量越来越多广告也迅速增加,因此它是至关重要的
自动有效地理解视频广告的结构。与传统的视频广告分类不同,视频广告结构的真正理解需要模型才能进行细分广告正确地进入不
[论文笔记] 视频广告理解的多模态框架相关推荐
- [论文笔记] 视频广告内容结构的多模态表示学习
视频广告内容结构的多模态表示学习 另,做了5折交叉验证.
- 3d object是什么文件_[单目3D目标检测论文笔记] 3D Bounding Box Estimation
本文是3D Bounding Box Estimation Using Deep Learning and Geometry的论文笔记及个人理解.这篇文章是单目图像3d目标检测的一个经典工作之一.其目 ...
- Towards Transferable Targeted Attack 论文笔记
00 Abstract 作者指出,对抗样本的一个内在属性就是它的可迁移性.而对于无目标攻击,有目标攻击生成可迁移样本更加困难.主要原因有二: 噪声固化现象:在迭代攻击过程中,由于所添加的噪声是每次迭代 ...
- 2020AI顶会的腾讯论文解读 | 多模态学习、视频内容理解、对抗攻击与对抗防御等「AI核心算法」
关注:决策智能与机器学习,深耕AI脱水干货 报道 | 腾讯AI实验室 计算机视觉领域三大顶会之一的 ECCV(欧洲计算机视觉会议)今年于 8 月 23-28 日举办.受新冠肺炎疫情影响,今年的 EC ...
- 网易视频云专家分享:Google Mesa论文笔记
网易视频云是网易公司旗下的视频云服务产品,以Paas服务模式,向开发者提供音视频编解码SDK和开放API,助力APP接入音视频功能.现在,网易视频云的技术专家给大家分享一篇技术性文章:Google M ...
- Deep Learning论文笔记之(五)CNN卷积神经网络代码理解
Deep Learning论文笔记之(五)CNN卷积神经网络代码理解 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但 ...
- 【ACL19 论文笔记】EPAr:探索+提议+组装:多跳阅读理解的可解释模型
Yichen Jiang, Nitish Joshi, Yen-Chun Chen Mohit Bansal ; UNC Chapel Hill Explore, Propose, and Assem ...
- 读周傲英老师的论文:计算广告:以数据为核心的web综合应用笔记
读周傲英老师的论文:计算广告:以数据为核心的web综合应用笔记 原文链接:http://cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf 摘要 涉及学科:数据管 ...
- 【论文笔记】监控视频中异常事件检测及异常事件摘要
论文作者林巍峣做的一次关于其发表在2015 neurocomputing 上的论文的讲座.因为是讲座+后期自己稍微看了一下原文,所以在这的介绍只是一个大概,属于科普方法类论文笔记- 论文链接:Summ ...
- 视频内容理解在Hulu的应用与实践
对于一家在线视频服务公司来讲,理解视频的内容其重要性不言而喻.只有深度理解用户观看的内容到底是什么,才能更好地给用户提供个性化的内容推荐.更好的交互体验等产品服务. Hulu自2016年开始系统性地在 ...
最新文章
- linux 入侵检测
- Unity3d截图两种方式
- Unity3D图形性能优化
- QDoc特殊内容special content
- Spring Cloud综合实战 - 基于TCC补偿模式的分布式事务
- java的decode_Java decode机试题
- 文字超出两行 则显示。。。
- 论文浅尝 | 基于局内去噪和迁移学习的关系抽取
- 《转》安卓P 刘海屏的适配
- 鼠标控制程序,按住shift显示S,按住Ctrl显示C,按键盘显示D,松开键盘显示U
- main方法中调用spring注入bean
- IE10横空出世,一统江湖
- 【小程序入门】注册AppID为开发做准备
- Intel编译器安装WRF-CMAQ
- Cadence Allegro PCB设计88问解析(二) 之 Allegro中Artwork层复用(导入导出)
- AWS KVS(Kinesis Video Streams)之WebRTC移植编译(三)
- 简单公民身份信息API开发
- 嵌入式linux sip电话开发,基于嵌入式Linux和MiniGUI的SIP电话设计
- 微软云计算的六大优势
- node和java 3des加密解密
热门文章
- 最受推荐的10本Python书籍
- 电子相册如何用c语言制作,电子相册怎样制作?
- mysql查询出现ambiguous的问题
- elasticsearch 出现all shards failed异常?
- 迪杰斯特拉算法(图示+C语言实现)
- 【JDBC】操作数据库(CRUD)
- 斯特林公式 ——Stirling公式(取N阶乘近似值)
- 加载elementor时出现问题_Elementor插件无法编辑/加载/空白页 提示“wp-json/elementor/v1/globals”404解决办法...
- T470 Win10下触摸板手势
- 用HTML语言编写下图所示网页,2019-02-21第一章 HTML基础