先说下大概的思路,将视频进行特征提取,然后将问题进行特征提取,然后将两种特征进行融合,之后用这个融合的特征去产生答案,用标准答案与之计算损失,反向传播对整个模型进行训练。

然后说下具体的细节:

1.将视频进行特征提取时,可以将视频进行分帧,然后将一帧帧图像送入卷积神经网络,最后得到能够代表这整个视频的n帧图像的特征;也可以将视频分成一个个clip,送入C3D网络(不懂的话自己查)进行特征提取,最后得到能够代表这整个视频的m个clip的C3D特征。

2.将问题进行特征提取时,首先建立一个词典,里面装有你的生成你问题的空间里的所有单词与数字的对应关系,当然反向词典也需要即由数字到单词。先将问题进行数字化,就是用一系列自然数来表示,然后还要获得单词向量(不懂自己查),可以自己训练也可以用别人已经训练好的。之后将这一系列数字变成一系列单词向量,最终得到能够代表整个问题的特征。

3.将最终得到的视频特征与问题特征分别进行线性变换,让它们至少在一个维度上是一致的,然后进行一些运算(简单乘、相加、串联等)得到最终的融合特征。

4.将最终的融合特征送入LSTM等类似的(decoder),刚开始会产生一个单词的概率分布,可以根据这个单词的概率分布去选择单词·,下一个单词的产生可以用上一个单词对应的标准单词的特征去产生,也可以直接用上一个单词的特征去产生,直至产生结束词(由自己制定)。

5.计算损失时可以在每次产生单词分布时与标准单词间计算交叉熵,最后加起来得到最终的损失,当然也许还会有其他的方法。得到损失后,通过反向传播算法来对模型进行更新直至达到预期的目标(将模型在验证集上进行运用,观察指标的变化)。

好了,这是大概的一个最最最naive的思路,其他的细节可以自己多看看论文(Video question answer相关的论文),本人也只是刚刚开始搞这个,有什么问题可以一起交流交流,不罗嗦了,继续看paper,撸代码了,拜拜~

关于VideoQA(视频问答)的基本思路总结相关推荐

  1. 【VideoQA最新论文阅读】第一篇视频问答综述Video Question Answering: a Survey of Models and Datasets

    Video Question Answering: a Survey of Models and Datasets 长文预警!!! p.s.此篇文章于2021年1月25日新鲜出炉,在Springer需 ...

  2. 分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析

    分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析 Hierarchical Conditional Relation Networks for Video Question ...

  3. 视频问答兴起,多跳问答热度衰退,92篇论文看智能问答的发展趋势

    星标/置顶小屋,带你解锁 最萌最前沿的NLP.搜索与推荐技术 文 | 舒意恒(南京大学硕士生,知识图谱方向) 编 |  北大小才女小轶 2019年的时候,舒意恒Y.Shu整理了一份<2019年, ...

  4. 视频播放过程中做视频问答(视频弹题功能)

    视频问答(视频弹题功能) 视频播放到某个时间点,弹出问题卡,学员只有正确回答课件视频中弹出的问题之后才能继续观看视频. 通过互动问答的方式,不仅有利于巩固前边学习的知识点,评估学员的学习效果,也有效避 ...

  5. NLPCC 2023 Shared Task 5:中文医疗教学视频问答任务

    背景介绍 近年来,人们能够轻松的访问互联网上的教学视频,这成为了一种趋势并彻底改变了以往的获取信息或传递知识的方式[1]-[2].许多人意识到在他们完成某项任务之前通过观看教学视频是一种更高效的方式, ...

  6. 计算机音乐runfree,抖音短视频问答:抖音RunFree歌曲歌词完整版

    今天来聊聊一篇关于抖音短视频问答:抖音RunFree歌曲歌词完整版的文章,现在就为大家来简单介绍下抖音短视频问答:抖音RunFree歌曲歌词完整版,希望对各位小伙伴们有所帮助. 抖音<Run F ...

  7. 电子科大(申恒涛团队)京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!...

    本文分享论文『Structured Two-stream Attention Network for Video Question Answering』,由电子科大(申恒涛团队)&京东AI(梅 ...

  8. 视频问答PPT大放送丨中信银行邓琼-GoldenDB分布式数据库研发与应用实践

    7月26日晚,中信银行系统支撑领域CTO.金融级分布式数据库研发负责人邓琼,在墨天轮分享了<GoldenDB 分布式数据库研发与应用实践>,在这里我们共享一下PPT.视频以及现场热门问答, ...

  9. 视频相识度算法思路文献记录

    项目需要做一个判断视频是否相同功能,Google一番,收集了下相关的文章,这里做下记录,方便以后查阅 先对两个文件音频视频采样,视频各取一定数量的帧,音频截取一定长度的数据,分别提取特征,计算相关值, ...

最新文章

  1. Android GPS Location with Listener
  2. boost::units::unscale相关的测试程序
  3. 标准正弦波变频电源调制方式的实现
  4. yum mysql5.7位置_CentOS yum 安装 Mysql5.7
  5. tortoisegit 代码的回滚方式 --两种
  6. Go slice切片的“陷阱”和本质
  7. nginx 配置虚拟机实例
  8. matlab下载(Mac+Linux+Windows)
  9. 求助可移动磁盘显示没有格式化
  10. Word文档如何生成目录?
  11. 【flash】 水果忍者
  12. Crazy Engine 3.0(又名盘古引擎)的技术特性
  13. 树莓派小爱同学、天猫精灵、智能音箱、百度语音极速版、百度语音标准版、语音识别、语音合成终极方案
  14. 2020年起重机司机(限桥式起重机)考试及起重机司机(限桥式起重机)答案解析
  15. 【进程间通信】进程间通信方式汇总
  16. Android中的线程
  17. 软件测试必学内容,你都掌握了吗?
  18. matlab计算abc三相短路电流_手把手教你做FOC电机控制MATLAB仿真
  19. 1. 定义分数类Rational,要求在private部分用整数表示分子和分母,分子和分母以简化形势表示。即24/36表示成2/3的形式,并提供public成员函数实现如下功能: 2. 两个分数相加,
  20. 笔记(二)maxflow

热门文章

  1. 搜狗拼音输入法无法打出汉字
  2. Python之freshman08 Socket
  3. IntelliJ Idea入门教程:如何新建项目
  4. 分享:Babel7的配置
  5. php mysql echarts动态生成图表
  6. 云计算如何从谷歌诞生的?
  7. 从UAP-Studio中导出项目并且部署到服务器上
  8. 忘记Hololens开机密码,重置系统
  9. SF简易IDC系统V1.0免授权
  10. 怎么提高python编程水平_编程新手如何提高编程能力?