个人周报20200420
周报
本周主要看了visual dialog方面的论文,同时,阅读了两篇SGG领域的论文,引发了一些我对V&L领域的思考,下面详细谈一谈。
1.visual dialog在一定程度上可以视为连续的VQA,但是dialog和question-answer应存在差异性,在dialog领域,AI的answer是否应具有推动后续对话的能力?visual dialog在V&L领域出现的算是比较晚,目前来说,可做的东西也应该更多。但是,这个领域的一些方法和V&L其他领域较为类似,存在一定共通性,值得思考。
2.阅读了两篇SGG领域早些年的论文,一篇出自ECCV2016[1],一篇出自CVPR2017[2],两篇文章均出自李飞飞组。前者在视觉模型的基础上加入了语言模型,后者加入了消息传递机制,通过不断迭代来对相邻节点进行约束,进行特征特征增强。
3.在V&L领域,数据集的标注正在由粗转细,旨在提高模型的可解释性。在captioning领域,是否可以使用一种简单有效的无监督方法,利用更多的无标注数据提升模型的能力,目前还在思考。
下周将继续深入探究visual dialog领域,并继续阅读景师兄推荐的近两年顶会论文的剩余部分,阅读的同时自己也会多思考。
对视觉与语言的理解
对于两位老师和景师兄推荐的京东AI研究院对视觉与语言的理解,我有以下看法:
- 高层语义信息
在神经网络中,低层特征图中包含图片的纹理、颜色等简单信息,高层特征图中包含场景、趋势等语义信息。如:图片中有一个人。经过神经网络后,底层特征图中会包含肤色、眼睛、手势等信息,这些即为简单信息。随着感受野的增大,高层特征图中可能会包含表情、情感、动作等信息,这些即为语义信息。我认为,高层语义信息指的那些接近人类理解图片的信息。 - 语言建模
指的是建立指定自然语言的语言模型,针对该自然语言的文字系统,了解文字系统的内部结构,构建出词序列的分布。 - 视觉语言匹配
对于给定的文本描述,在图像上得到与其匹配的区域。 - 精细化的视觉语言数据
指的是标注粒度更细的数据。如VQA领域,A数据集的标注形式为[Question, Image]→[Answer],B数据集的标注形式为[Question, Image]→[Scene Graph]→[Answer],则B数据集的标注较A数据集更加细致。精细化的视觉语言数据可以在训练时从多个角度对模型进行限制,同时也更容易验证模型的可解释性。 - V&L的核心
核心是视觉语言匹配,即两种模态的跨模态对齐。只有将文本信息和视觉信息一一对齐,后续的推理和任务结果才具有说服力。 - 挑战性问题
1.测试集中出现out-of-vocabulary词汇。2.文本信息和视觉信息存在差异性。3.数据集标注不统一。4.数据集标注不够详细。 - 研究流派
可能是我对这个领域的了解不够多,看的论文不够全面。在我看来,目前在V&L领域是“百家齐放”的状态,基于无监督的、基于强化学习的、基于SGG的、基于,但是未见像Fast R-CNN或YOLO那种一系列的文章。许多文章的方法在整体架构上有类似,比如均采用“Encoder-Decoder”模式,但是也不能算是研究流派。 - 和多模态学习的关系
V&L属于多模态学习,VQA、Image (Video) Captioning等均可视为“文本-视觉”模态的下游任务。日常生活中,常见的模态有:图像、视频、语音、文本等。V&L任务中主要包含两种模态,即文本和图像(或视频),图像模态和视频模态也可以统称为视觉模态。 - 和推理的关系
推理是V&L方法的必要能力,也是实现V&L可解释性的必要手段。在早几年的V&L方法中,其实重视推理的并不多,但是也能在数据集上达到很好的指标,但它们的泛化能力可能不如传统方法。一方面,这暴露了深度学习方法在各个研究领域的存在的通病——学习shortcut。另一方面,也让研究学者们意识到了提高模型可解释性的重要性,而推理正是提高可解释性的重要手段。 - 可解释的人工智能算法是怎样服务于V&L的
在V&L任务中,无论是文本,还是图片(或视频),都包含多个物体,物体之间存在关系。如人一样,一个好的方法处理问题应该是循序渐进的、有逻辑的。我目前看到了具有可解释性的V&L领域论文,大多是通过场景图演示模型的推理过程,实现模型的可解释性。
[1]. Visual Relationship Detection with Language Priors
[2]. Scene Graph Generation by Iterative Message Passing
个人周报20200420相关推荐
- mysql 函数返回表格_mysql 数据分析如何实现日报、周报、月报和年报?
推荐阅读: MySQL复习:20道常见面试题(含答案)+21条MySQL性能调优经验 秋招Java面试大纲:Java+并发+spring+数据库+Redis+JVM+Netty等 以天为统计周期,是常 ...
- 每天写的叫工作日志,每周写的总结叫周报,每月写的叫月报
有些时候,老板会突发让您求每天都要写工作周报,什么项目什么任务,完成情况,完成花费的时间等,然后汇总部门周报:也不是写不出,只是不知道有时候重复做一个项目,到底每天有什么好写?不知道大家公司是否写周报 ...
- Datawhale组队学习周报(第047周)
本周报总结了从 2021年01月03日至2022年01月09日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. ...
- Datawhale组队学习周报(第041周)
本周报总结了从 11月22日至11月28日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...
- Datawhale组队学习周报(第040周)
本周报总结了从 11月15日至11月21日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 31 期组队学习 ...
- Datawhale组队学习周报(第038周)
本周报总结了从 11月01日至11月07日,Datawhale组队学习的运行情况,我们一直秉承"与学习者一起成长的理念",希望这个活动能够让更多的学习者受益. 第 30 期组队学习 ...
- Datawhale组队学习周报(第035周)
希望开设的开源内容 目前Datawhale的开源内容分为两种:第一种是已经囊括在我们的学习路线图内的Datawhale精品课,第二种是暂未囊括在我们的学习路线图内的Datawhale打磨课.我们根据您 ...
- Datawhale组队学习周报(第032周)
希望开设的开源内容 目前Datawhale的开源内容分为两种:第一种是已经囊括在我们的学习路线图内的Datawhale精品课,第二种是暂未囊括在我们的学习路线图内的Datawhale打磨课.我们根据您 ...
- Datawhale组队学习周报(第019周)
本周(06月21日~06月27日),第 25 期组队学习一共有 3 门开源课程,共组建了 3 个学习群,参与的学习者有 292 人,其中 web开发入门教程.数据挖掘实战(异常检测) 已经结营,另外一 ...
最新文章
- 十种经典排序算法精粹(c语言版本)
- List集合去重的一种方法
- Linux的profile与bashrc的分析
- Maven插件tomcat7-maver-plugin
- 稀疏数据分析:马蹄估计量及其理论性质
- 原理图连线有错误提醒_拔罐方法不对=缩短生命,中医提醒,拔火罐警惕三个禁忌...
- 1961-Check If String Is a Prefix of Array(检查字符串是否为数组前缀)
- 某公司邮件系统的安全检测
- Dispatch 方法简介
- mysql timestamp 并发_MySQL 实现 EF Code First TimeStamp/RowVersion 并发控制
- Luogu 4284 [SHOI2014]概率充电器
- 腾讯内部转岗_别了,腾讯微博!
- 转: ORA-12560: TNS:protocol adapter error(TNS:协议适配器错误)
- Microsoft Office SharePoint Server 2007 Trial Version已经可以下载了
- 报错 xxx@1.0.0 dev D:\ webpack-dev-server --inline --progress --configbuild/webpack.dev.conf.js
- 天堂2单机版服务器时间修改,如何制作最新L2J天堂2单机版源码服务端教程.doc
- 微信小程序 git代码管理使用的详细步骤
- 如何在线将flac格式转换成mp3音频
- 数独问题(java)
- LSD直线检测和霍夫线变换的学习建议