NetVLAD最初是用于位置识别中聚合空间表达,发现比常规的时间模型(LSTM/GRU)用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高,基于这种特征的大的分类模型需要几百百万的参数。例如,一个Net VLAD网络有128个聚类,特征2048维,那么作为向量就是262144维。后面的全连接层是2048维度的输出,那么将有537M的参数。这种低效的参数将使得模型很难优化,且容易过拟合。

为了解决上述问题,受ResNeXt启发,开发了新的网络结构NeXt VLAD。与NetVLAD不同的是,输入的特征在聚合及编码之前用attention分解成一组相对低纬度的向量。潜在的假设是一个视频帧可能有多个目标,在编码之前分解成帧级特征对模型产生更简单的视频表达是有益的。NeXtVLAD模型收敛更快,且能阻止过拟合。

下面是NeXt VLAD结构图:

输入xi向量先经过线性FC全连接层扩展成λN维度,λ设定为2,波浪表示reshape操作,从(M,λN)到(M,G,λN/G)

其中的G是群组数。

[具体做法可以参考阿里优酷的做法]

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192

语音图像视频深度-学习群

NeXt VLAD多模态视频分类相关推荐

  1. 深度学习核心技术精讲100篇(五十四)-阿里文娱多模态视频分类算法中的特征改进

    前言 类目体系是视频网站运营中的重要工具,也是推荐算法中提升冷启效果的重要手段.因此一套设计合理.准确率.覆盖率高的基础类目必不可少.阿里文娱类目体系建设团队与运营.审核一起建立的一二级类目体系,目前 ...

  2. Matlab数字图像的傅里叶变换(FFT)

    查看全文 http://www.taodudu.cc/news/show-6182241.html 相关文章: 使用matlab对图像进行傅里叶变换 [ MATLAB ]离散傅里叶变换(DFT)以及逆 ...

  3. 内容 AI:建立统一的跨媒体多模态内容理解内核

    作者:zixunsun@tencent.com Jeff Dean 谈 2020 年机器学习趋势:多任务和多模式学习将成为突破口 2019 年下半年,CDG 广告. CSIG 音视频,IEG 内容推荐 ...

  4. NeurIPS2021 MBT:多模态数据怎么融合?谷歌提出基于注意力瓶颈的方法,简单高效还省计算量...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Attention Bottlenecks for Multimodal Fusion』,思考<MBT>多模态数据怎 ...

  5. 深度学习模型实战-深度学习模型在各大公司实际生产环境的应用讲解文章

    仓库地址:https://github.com/DA-southampton/Tech_Aarticle/edit/master/README.md 建这个仓库的是因为工作之后发现生产环境中应用的模型 ...

  6. 让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘

    背景 随着4G的普及和5G的推出,内容消费的诉求越来越受到人们的重视.2019年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为"行业黑洞"抢夺用 ...

  7. 多模态 —— Learnable pooling with Context Gating for video classification

    前言 论文地址:arxiv 代码地址:github 这是视频理解的一篇paper,说是多模态的原因主要是该结构结合了视频embedding,音频embedding等特征做视频分类,可以说就是多模态融合 ...

  8. 多模态为什么比单模态好?第一份严谨证明来了!

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 面试官: 听说你对多模态感兴趣,请问为什么多模态学习要比单模态学习效果好? 候选人: ...

  9. 【星球知识卡片】视频分类与行为识别有哪些核心技术,对其进行长期深入学习...

    大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享视频分类的核心技术点. 作者&编辑 | 言有三 1 3D卷积 视频相对于图像多出了一个维度,而3D卷积正好可以用于处理这个维度,因此也非 ...

最新文章

  1. android 过度绘制
  2. JavaScript 学习笔记— —类型判断
  3. 【知识星球】猫猫狗狗与深度学习那些事儿
  4. 增强型的for循环linkedlist_Java: 增强for循环针对list的时候,是严格按照list的顺序依次遍历的吗?...
  5. StreamWriter类的一般使用方法
  6. python画航线图_Python:如何在地图上绘制飞行轨迹/航线
  7. glm编译错误问题解决 formal parameter with __declspec(align(#39;16#39;)) won#39;t be aligned...
  8. JavaScript 霸榜、TypeScript 爆发、开源吞噬世界,GitHub 年度报告正式发布!
  9. shell脚本一键安装nginx[最终版]
  10. 构建Postfix邮件系统(一) -- postfix+dovecot
  11. Unity动作游戏大全
  12. trilateration三边测距算法及C语言实现(适用stm32)
  13. weka mac安装
  14. python xlwt用法_24.python中xlwt模块用法详解
  15. 如何恢复磁盘中被删除的数据
  16. Excel的写入与读取(openpyxl)
  17. sklearn.metrics.multilabel_confusion_matrix
  18. K分查找时间复杂度推导
  19. SQL之累积计算问题--HQL面试题1
  20. 应Oracle BEA定下每股21美元收购价

热门文章

  1. 抖音==1/2个微信?抖音会是下一个巨头吗?
  2. MathType 6.9嵌入到Office(word)2016中
  3. 核心技术及创新点怎么写
  4. 找回被删除的 Git Stashes
  5. 手机端PDF转换器有哪些  PDF转PPT在手机上怎样操作
  6. 电磁场与仿真软件(24)
  7. 数据元素、数据项、数据对象的概念详解
  8. 前端css样式及选择器
  9. oracle 结果集已耗尽_SQLException:耗尽结果集
  10. Android 如何修改以太网IP