周报

本周主要看了visual dialog方面的论文，同时，阅读了两篇SGG领域的论文，引发了一些我对V&L领域的思考，下面详细谈一谈。
1.visual dialog在一定程度上可以视为连续的VQA，但是dialog和question-answer应存在差异性，在dialog领域，AI的answer是否应具有推动后续对话的能力？visual dialog在V&L领域出现的算是比较晚，目前来说，可做的东西也应该更多。但是，这个领域的一些方法和V&L其他领域较为类似，存在一定共通性，值得思考。
2.阅读了两篇SGG领域早些年的论文，一篇出自ECCV2016[1]，一篇出自CVPR2017[2]，两篇文章均出自李飞飞组。前者在视觉模型的基础上加入了语言模型，后者加入了消息传递机制，通过不断迭代来对相邻节点进行约束，进行特征特征增强。
3.在V&L领域，数据集的标注正在由粗转细，旨在提高模型的可解释性。在captioning领域，是否可以使用一种简单有效的无监督方法，利用更多的无标注数据提升模型的能力，目前还在思考。
下周将继续深入探究visual dialog领域，并继续阅读景师兄推荐的近两年顶会论文的剩余部分，阅读的同时自己也会多思考。

对视觉与语言的理解

对于两位老师和景师兄推荐的京东AI研究院对视觉与语言的理解，我有以下看法：

高层语义信息
在神经网络中，低层特征图中包含图片的纹理、颜色等简单信息，高层特征图中包含场景、趋势等语义信息。如：图片中有一个人。经过神经网络后，底层特征图中会包含肤色、眼睛、手势等信息，这些即为简单信息。随着感受野的增大，高层特征图中可能会包含表情、情感、动作等信息，这些即为语义信息。我认为，高层语义信息指的那些接近人类理解图片的信息。
语言建模
指的是建立指定自然语言的语言模型，针对该自然语言的文字系统，了解文字系统的内部结构，构建出词序列的分布。
视觉语言匹配
对于给定的文本描述，在图像上得到与其匹配的区域。
精细化的视觉语言数据
指的是标注粒度更细的数据。如VQA领域，A数据集的标注形式为[Question, Image]→[Answer]，B数据集的标注形式为[Question, Image]→[Scene Graph]→[Answer]，则B数据集的标注较A数据集更加细致。精细化的视觉语言数据可以在训练时从多个角度对模型进行限制，同时也更容易验证模型的可解释性。
V&L的核心
核心是视觉语言匹配，即两种模态的跨模态对齐。只有将文本信息和视觉信息一一对齐，后续的推理和任务结果才具有说服力。
挑战性问题
1.测试集中出现out-of-vocabulary词汇。2.文本信息和视觉信息存在差异性。3.数据集标注不统一。4.数据集标注不够详细。
研究流派
可能是我对这个领域的了解不够多，看的论文不够全面。在我看来，目前在V&L领域是“百家齐放”的状态，基于无监督的、基于强化学习的、基于SGG的、基于，但是未见像Fast R-CNN或YOLO那种一系列的文章。许多文章的方法在整体架构上有类似，比如均采用“Encoder-Decoder”模式，但是也不能算是研究流派。
和多模态学习的关系
V&L属于多模态学习，VQA、Image (Video) Captioning等均可视为“文本-视觉”模态的下游任务。日常生活中，常见的模态有：图像、视频、语音、文本等。V&L任务中主要包含两种模态，即文本和图像（或视频），图像模态和视频模态也可以统称为视觉模态。
和推理的关系
推理是V&L方法的必要能力，也是实现V&L可解释性的必要手段。在早几年的V&L方法中，其实重视推理的并不多，但是也能在数据集上达到很好的指标，但它们的泛化能力可能不如传统方法。一方面，这暴露了深度学习方法在各个研究领域的存在的通病——学习shortcut。另一方面，也让研究学者们意识到了提高模型可解释性的重要性，而推理正是提高可解释性的重要手段。
可解释的人工智能算法是怎样服务于V&L的
在V&L任务中，无论是文本，还是图片（或视频），都包含多个物体，物体之间存在关系。如人一样，一个好的方法处理问题应该是循序渐进的、有逻辑的。我目前看到了具有可解释性的V&L领域论文，大多是通过场景图演示模型的推理过程，实现模型的可解释性。

[1]. Visual Relationship Detection with Language Priors
[2]. Scene Graph Generation by Iterative Message Passing

个人周报20200420相关推荐

mysql 函数返回表格_mysql 数据分析如何实现日报、周报、月报和年报？
推荐阅读: MySQL复习:20道常见面试题(含答案)+21条MySQL性能调优经验秋招Java面试大纲:Java+并发+spring+数据库+Redis+JVM+Netty等以天为统计周期,是常 ...
每天写的叫工作日志，每周写的总结叫周报，每月写的叫月报
有些时候,老板会突发让您求每天都要写工作周报,什么项目什么任务,完成情况,完成花费的时间等,然后汇总部门周报:也不是写不出,只是不知道有时候重复做一个项目,到底每天有什么好写?不知道大家公司是否写周报 ...
Datawhale组队学习周报（第047周）
本周报总结了从 2021年01月03日至2022年01月09日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. ...
Datawhale组队学习周报（第041周）
本周报总结了从 11月22日至11月28日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...
Datawhale组队学习周报（第040周）
本周报总结了从 11月15日至11月21日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...
Datawhale组队学习周报（第038周）
本周报总结了从 11月01日至11月07日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 30 期组队学习 ...
Datawhale组队学习周报（第035周）
希望开设的开源内容目前Datawhale的开源内容分为两种:第一种是已经囊括在我们的学习路线图内的Datawhale精品课,第二种是暂未囊括在我们的学习路线图内的Datawhale打磨课.我们根据您 ...
Datawhale组队学习周报（第032周）
希望开设的开源内容目前Datawhale的开源内容分为两种:第一种是已经囊括在我们的学习路线图内的Datawhale精品课,第二种是暂未囊括在我们的学习路线图内的Datawhale打磨课.我们根据您 ...
Datawhale组队学习周报（第019周）
本周(06月21日~06月27日),第 25 期组队学习一共有 3 门开源课程,共组建了 3 个学习群,参与的学习者有 292 人,其中 web开发入门教程.数据挖掘实战(异常检测) 已经结营,另外一 ...

个人周报20200420

周报

对视觉与语言的理解

个人周报20200420相关推荐

最新文章

热门文章