往期回顾:https://zhuanlan.zhihu.com/p/165665242

第三讲:Neuro-Symbolic Visual Concept Learning

主讲:Jiayuan Mao

视频链接:https://youtu.be/3_vLTeDHxas

1. Visual Concept定义: 物体属性(颜色,形状,材质)。其实物体的类别本身也可以看作是一种属性,所以concept这个概念意义非常的广泛。

2. 在VQA(Visual Question Answering)中,属性和推理往往是结合在一起的。比如下图的例子:我们对一个问题的理解,往往需要抽取其中的concept和问题的主干逻辑。 而目前的瓶颈在于,如果想要有监督的学习,我们不仅需要属性部分的标注,还需要大量逻辑推理的标注,后者的成本就非常高了。而且不同标注员对同一个问题,甚至可能构建出不同的推理结构。

3. 为了不通过标注学习concept和推理逻辑,主讲介绍了自己最近的工作NS-CL (ICLR 2019 oral) 在这个工作中,作者把视觉特征和自然语言问题中的名词都看作是concept,并用一个网络学习物体视觉特征和对应文本部分词向量的映射。其实就是将视觉特征和文本特征的映射到同一个特征空间中,从而方便学习他们的关联性(相似度),有了这个关联性,给出任何视觉特征,我们就可以得到其对应的名词(属性)。而推理部分,则通过强化学习,去学习一个推理网络(类似模块化神经网络中的程序生成网络)。如此,就可以让模型自动从数据中学习concept和逻辑推理模块。模型的框架如下:

4. 第二个介绍的工作是UniVSE (CVPR):这个工作做的是图片和文字表述的双向检索。该工作,通过将图片抽象为结构化的concept(其实就是场景图),并直接利用场景图和句子的解析树做匹配,使得匹配更具鲁棒性。作者举了个例子,如果将一个句子中一个名词换了,可能就会导致检索结果大幅下降,但作者提出的利用图结构匹配的算法,下降幅度最低,也就意味着对错误的容忍度更高,即更鲁棒。

5. 此外,主讲还介绍concept和meta-concept的区别,concept就是一个个具体的属性,如红,绿,蓝,圆,方,等等。Meta-concept则是对应的抽象概念,即颜色,形状,纹理等。主讲表示,meta-concept的引入,可以提升concept识别的效果。(这个其实也很好理解,因为引入了额外信息,即一个个互斥的子集。如果没有meta-concept,所有concept都是对等的,但引入了之后,我们就知道某些concept,比如红绿蓝等颜色是互斥的,一个物体只能有一个颜色。)

6. 现有工作的局限:1)识别层的限制,我们目前的物体检测和分割还不完善。2)自然语言理解的歧义。3)向复杂场景和问题迁移时的性能下降。

7. 总结。从识别到认知的层级(自底向上),也可以看作主讲眼中人工智能实现的阶梯吧:1)抽象概况(比如场景图),2)事件推理,3)因果推理,4)物理规律的推理和总结,5)对未来意图的预判。6)构建常识体系。7)规划。


下面两讲因为我觉得和具体的CV研究距离比较远,所以我就整理的水一点。

第四讲:Learning Languages for Visual Programs Synthesis

主讲:Kevin Ellis

视频链接:https://youtu.be/D0bvynLST7M

本来以为是讲模块化网络里的程序生成的。没想到这个视频真的是讲如何用一个图片生成可画出这个图片的程序(如下图)。感兴趣的同学可以看下原视频。

第五讲:Towards Human-like Program Synthesis

主讲:Rishabh Singh

链接:https://youtu.be/8apjJ-xSDB4

人类程序的五个特点:

1. Intuition vs Enumeration (基于直觉的归纳 vs 枚举)

2. Improvements with Experience (随着经验的提升,自我完善)

3. Multi-modal Specifications (跨模态,能同时理解自然语言和视觉)

4. Sub-problems + compositions (分而治之,能将大问题化为可解决的小问题)

5. Mistakes vs completely correct (纠错能力,从错误中学习)


第六讲:Neural Program Synthesis for Navigation and Language Understanding

主讲:Xinyun Chen

链接:https://youtu.be/n7yri4SpzKY

1. 主讲工作 1:Execution-guided neural program synthesis from input-output examples (ICLR 19)。任务描述是给定输入图像和输出图像,表示机器人的两种不同状态,生成一个程序使机器人从输入状态移动到输出状态(如下图所示)。注意生成程序不只是链性代码,同时也包含了条件语句和循环语句。该任务利用的也是类似于captioning的encode-decode框架,不过不同之处在于,利用这个任务本身的特性,在decode程序时每一步都生成新的图像作为额外输入,而非只利用固定的输入输出图像。此外,在这个任务中,模型的ensemble也有了不同的实现,其主要原则为1)永远选择最简短的程序,2)少数服从多数。

2. 主讲工作 2:Neural-symbolic reasoning for reading comprehension (ICLR 20)。阅读理解是个在自然语言处理中非常常见的任务,基本就是高考英语阅读题再现(根据文章给问题选答案)。虽然目前NLP领域中逐渐呈现:Transformer预训练大模型(e.g. BERT等)解决一切的趋势,但研究发现BERT等模型对推理问题仍不能很好处理,比如问题涉及文中某两个数字的加减。而主讲的工作则将推理问题看作一种需要组合并执行特定模块(类似模块化网络)才能回答的问题,而并非可以直接通过隐性特征预测的。那么,如何将问题转化为可执行的模块化程序,就是新的难题。他们先设计若干固定的操作模块(如下图),然后利用LSTM去组合这些模块。而学习这些模块的组合,即生成的程序,则利用了EM算法(细节没有讲,需要参考原文)。同时为了给程序生成器一个更好的初始化,作者预先提供了一些匹配,比如How many对应了COUNT模块。

以上就是CVPR 2020 符号化视觉推理和程序合成 Tutorial 的全部总结了,希望对大家的研究有所启发。

基于tcp的网络程序_【CVPR 2020 Tutorial】基于神经网络的符号化视觉推理和程序合成(2)...相关推荐

  1. TCP/IP网络编程_第6章基于UDP的服务器端/客户端

    6.1 理解 DUP 我们在第4章学习TCP的过程中, 还同时了解了 TCP/IP 协议. 在4层TCP/IP模型中, 上数第二层传输(Transport)层分为TCP和UDP这两种. 数据交换过程可 ...

  2. Java进阶:基于TCP的网络实时聊天室(socket通信案例)

    目录 开门见山 一.数据结构Map 二.保证线程安全 三.群聊核心方法 四.聊天室具体设计 0.用户登录服务器 1.查看当前上线用户 2.群聊 3.私信 4.退出当前聊天状态 5.离线 6.查看帮助 ...

  3. 基于TCP的网络实时聊天室(socket通信案例)

    开门见山 一.数据结构Map 二.保证线程安全 三.群聊核心方法 四.聊天室具体设计 0.用户登录服务器 1.查看当前上线用户 2.群聊 3.私信 4.退出当前聊天状态 5.离线 6.查看帮助 五.聊 ...

  4. 基于TCP的网络聊天室实现(C语言)

    基于TCP的网络聊天室实现(C语言) 一.网络聊天室的功能 二.网络聊天室的结果展示 三.实现思路及流程 四.代码及说明 1.LinkList.h 2.LinkList.c 3.client.c 4. ...

  5. 基于TCP/IP网络的管理结构和标记

    组织:中国互动出版网( http://www.china-pub.com/) RFC文档中文翻译计划( http://www.china-pub.com/compters/emook/aboutemo ...

  6. RFC1155基于TCP/IP网络的管理结构和标记

    组织:中国互动出版网(http://www.china-pub.com/) RFC文档中文翻译计划(http://www.china-pub.com/compters/emook/aboutemook ...

  7. QT学习:基于TCP的网络聊天室程序

    TCP与UDP的差别如图: 一.TCP工作原理 如下图所示,TCP能够为应用程序提供可靠的通信连接,使一台计算机发出的字节流无差错 地送达网络上的其他计算机.因此,对可靠性要求高的数据通信系统往往使用 ...

  8. CVPR 2020丨基于范例的精细可控图像翻译CoCosNet,一键生成你心目中的图像

    编者按:图像翻译是近年来的研究热点,类比于自然语言翻译,它将输入图像的表达转化为另一种表达,在图像创作.图像风格化.图像修复.域自适应学习等领域有着广泛应用.然而现有技术通常仅能产生合理的目标域图像, ...

  9. CVPR 2020丨基于并行点检测和点匹配的单阶段实时HOI Detection方法

    本文转载自知乎,为商汤科技CVPR 2020最新论文解读. https://zhuanlan.zhihu.com/p/144238209 在CVPR2020上,商汤团队联合北京航空航天大学Colab( ...

最新文章

  1. spring MVC - Inteceptors(拦截器)
  2. MySQL The password hash doesn't have the expected format.
  3. 开源实时音视频技术WebRTC中RTP/RTCP数据传输协议的应用
  4. 满足其中一个条件则可_农村分户好处多,但并非人人都可分户!满足这4个条件才可以申请...
  5. 内部类(innerclasses)
  6. 化学方程式作评、数学上成知识百科……那些“别人家的老师”有何特别?
  7. linux远程连接 ipv6,Ansible 配置 IPv6 连接
  8. border-box
  9. 微软 Build 2019 对开发者意味着什么?
  10. Python collections 模块中的 deque(队列)
  11. Linux进程相关的一些笔记
  12. H3C CLI基础笔记(交换机,链路聚合-DHCP)
  13. 安装debian文件管理器
  14. Android 使用低功耗蓝牙简单介绍
  15. 砸蛋程序php,基于JQuery+PHP编写砸金蛋中奖程序
  16. PID系统稳定性和零极点的关系
  17. 网络请求及各类错误代码含义总结(Errors Code)
  18. Java工程师的职业规划(最全版本)
  19. 多行文本展开收起(css)
  20. 【JZ38 字符串的排列】

热门文章

  1. c mysql maxpoolsize_mysql数据库参数innodb_buffer_pool_size和max_connections
  2. 大一计算机应用的实验报告,大一《计算机应用基础》实验报告1.doc
  3. 安卓案例:利用帧动画动态显示时间
  4. Spring Boot热部署
  5. php环境informix,在Nginx + php-fpm(fastcgi)环境下配置informix的连接
  6. closewin关闭无法返回上一层_紧急关闭iOS13,有史以来跳版本关闭系统
  7. win7怎么修改服务器端口,win7服务器端口设置方法
  8. setautocommit(false) 还是自动提交了_Hexo和GitPages搭建博客并自动发布
  9. bzoj2186 莎拉公主的困惑 积性函数
  10. [SDOI2006]二进制方程 并查集