周报

本周主要看了visual dialog方面的论文,同时,阅读了两篇SGG领域的论文,引发了一些我对V&L领域的思考,下面详细谈一谈。
1.visual dialog在一定程度上可以视为连续的VQA,但是dialog和question-answer应存在差异性,在dialog领域,AI的answer是否应具有推动后续对话的能力?visual dialog在V&L领域出现的算是比较晚,目前来说,可做的东西也应该更多。但是,这个领域的一些方法和V&L其他领域较为类似,存在一定共通性,值得思考。
2.阅读了两篇SGG领域早些年的论文,一篇出自ECCV2016[1],一篇出自CVPR2017[2],两篇文章均出自李飞飞组。前者在视觉模型的基础上加入了语言模型,后者加入了消息传递机制,通过不断迭代来对相邻节点进行约束,进行特征特征增强。
3.在V&L领域,数据集的标注正在由粗转细,旨在提高模型的可解释性。在captioning领域,是否可以使用一种简单有效的无监督方法,利用更多的无标注数据提升模型的能力,目前还在思考。
下周将继续深入探究visual dialog领域,并继续阅读景师兄推荐的近两年顶会论文的剩余部分,阅读的同时自己也会多思考。

对视觉与语言的理解

对于两位老师和景师兄推荐的京东AI研究院对视觉与语言的理解,我有以下看法:

  • 高层语义信息
    在神经网络中,低层特征图中包含图片的纹理、颜色等简单信息,高层特征图中包含场景、趋势等语义信息。如:图片中有一个人。经过神经网络后,底层特征图中会包含肤色、眼睛、手势等信息,这些即为简单信息。随着感受野的增大,高层特征图中可能会包含表情、情感、动作等信息,这些即为语义信息。我认为,高层语义信息指的那些接近人类理解图片的信息。
  • 语言建模
    指的是建立指定自然语言的语言模型,针对该自然语言的文字系统,了解文字系统的内部结构,构建出词序列的分布。
  • 视觉语言匹配
    对于给定的文本描述,在图像上得到与其匹配的区域。
  • 精细化的视觉语言数据
    指的是标注粒度更细的数据。如VQA领域,A数据集的标注形式为[Question, Image]→[Answer],B数据集的标注形式为[Question, Image]→[Scene Graph]→[Answer],则B数据集的标注较A数据集更加细致。精细化的视觉语言数据可以在训练时从多个角度对模型进行限制,同时也更容易验证模型的可解释性。
  • V&L的核心
    核心是视觉语言匹配,即两种模态的跨模态对齐。只有将文本信息和视觉信息一一对齐,后续的推理和任务结果才具有说服力。
  • 挑战性问题
    1.测试集中出现out-of-vocabulary词汇。2.文本信息和视觉信息存在差异性。3.数据集标注不统一。4.数据集标注不够详细。
  • 研究流派
    可能是我对这个领域的了解不够多,看的论文不够全面。在我看来,目前在V&L领域是“百家齐放”的状态,基于无监督的、基于强化学习的、基于SGG的、基于,但是未见像Fast R-CNN或YOLO那种一系列的文章。许多文章的方法在整体架构上有类似,比如均采用“Encoder-Decoder”模式,但是也不能算是研究流派。
  • 和多模态学习的关系
    V&L属于多模态学习,VQA、Image (Video) Captioning等均可视为“文本-视觉”模态的下游任务。日常生活中,常见的模态有:图像、视频、语音、文本等。V&L任务中主要包含两种模态,即文本和图像(或视频),图像模态和视频模态也可以统称为视觉模态。
  • 和推理的关系
    推理是V&L方法的必要能力,也是实现V&L可解释性的必要手段。在早几年的V&L方法中,其实重视推理的并不多,但是也能在数据集上达到很好的指标,但它们的泛化能力可能不如传统方法。一方面,这暴露了深度学习方法在各个研究领域的存在的通病——学习shortcut。另一方面,也让研究学者们意识到了提高模型可解释性的重要性,而推理正是提高可解释性的重要手段。
  • 可解释的人工智能算法是怎样服务于V&L的
    在V&L任务中,无论是文本,还是图片(或视频),都包含多个物体,物体之间存在关系。如人一样,一个好的方法处理问题应该是循序渐进的、有逻辑的。我目前看到了具有可解释性的V&L领域论文,大多是通过场景图演示模型的推理过程,实现模型的可解释性。

[1]. Visual Relationship Detection with Language Priors
[2]. Scene Graph Generation by Iterative Message Passing

个人周报20200420相关推荐

  1. mysql 函数返回表格_mysql 数据分析如何实现日报、周报、月报和年报?

    推荐阅读: MySQL复习:20道常见面试题(含答案)+21条MySQL性能调优经验 秋招Java面试大纲:Java+并发+spring+数据库+Redis+JVM+Netty等 以天为统计周期,是常 ...

  2. 每天写的叫工作日志,每周写的总结叫周报,每月写的叫月报

    有些时候,老板会突发让您求每天都要写工作周报,什么项目什么任务,完成情况,完成花费的时间等,然后汇总部门周报:也不是写不出,只是不知道有时候重复做一个项目,到底每天有什么好写?不知道大家公司是否写周报 ...

  3. Datawhale组队学习周报(第047周)

    本周报总结了从 2021年01月03日至2022年01月09日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. ...

  4. Datawhale组队学习周报(第041周)

    本周报总结了从 11月22日至11月28日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...

  5. Datawhale组队学习周报(第040周)

    本周报总结了从 11月15日至11月21日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...

  6. Datawhale组队学习周报(第038周)

    本周报总结了从 11月01日至11月07日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 30 期组队学习 ...

  7. Datawhale组队学习周报(第035周)

    希望开设的开源内容 目前Datawhale的开源内容分为两种:第一种是已经囊括在我们的学习路线图内的Datawhale精品课,第二种是暂未囊括在我们的学习路线图内的Datawhale打磨课.我们根据您 ...

  8. Datawhale组队学习周报(第032周)

    希望开设的开源内容 目前Datawhale的开源内容分为两种:第一种是已经囊括在我们的学习路线图内的Datawhale精品课,第二种是暂未囊括在我们的学习路线图内的Datawhale打磨课.我们根据您 ...

  9. Datawhale组队学习周报(第019周)

    本周(06月21日~06月27日),第 25 期组队学习一共有 3 门开源课程,共组建了 3 个学习群,参与的学习者有 292 人,其中 web开发入门教程.数据挖掘实战(异常检测) 已经结营,另外一 ...

最新文章

  1. 十种经典排序算法精粹(c语言版本)
  2. List集合去重的一种方法
  3. Linux的profile与bashrc的分析
  4. Maven插件tomcat7-maver-plugin
  5. 稀疏数据分析:马蹄估计量及其理论性质
  6. 原理图连线有错误提醒_拔罐方法不对=缩短生命,中医提醒,拔火罐警惕三个禁忌...
  7. 1961-Check If String Is a Prefix of Array(检查字符串是否为数组前缀)
  8. 某公司邮件系统的安全检测
  9. Dispatch 方法简介
  10. mysql timestamp 并发_MySQL 实现 EF Code First TimeStamp/RowVersion 并发控制
  11. Luogu 4284 [SHOI2014]概率充电器
  12. 腾讯内部转岗_别了,腾讯微博!
  13. 转: ORA-12560: TNS:protocol adapter error(TNS:协议适配器错误)
  14. Microsoft Office SharePoint Server 2007 Trial Version已经可以下载了
  15. 报错 xxx@1.0.0 dev D:\ webpack-dev-server --inline --progress --configbuild/webpack.dev.conf.js
  16. 天堂2单机版服务器时间修改,如何制作最新L2J天堂2单机版源码服务端教程.doc
  17. 微信小程序 git代码管理使用的详细步骤
  18. 如何在线将flac格式转换成mp3音频
  19. 数独问题(java)
  20. LSD直线检测和霍夫线变换的学习建议

热门文章

  1. 为什么资本主义生产的一般趋势是资本有机构成的提高?2017-12-26
  2. 通俗易懂讲解RBF网络
  3. 根据录入的计算公式计算_工业铝型材承重计算
  4. python数字处理技巧(1): 精度舍入、精确运算、格式化、进制数、大数打包解包、复数、NaN、分数
  5. 技术与管理并重才能走的更远
  6. Delphi中判断控件的详细类型
  7. 需求分析的20条法则
  8. 【内网安全】域横向smbwmi明文或hash传递
  9. Java小游戏 —— 德州扑克
  10. springmvc传递数组参数