作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨自然语言处理

论文动机

对话系统一直是自然语言理解领域一个重要的研究内容，它可以使人们更便捷的与机器进行交互，多模态的对话系统就是其中非常重要的一个研究方向。

以下图的零售业对话为例，首先多模态对话能够带给顾客更加详细直观的建议，通过加入图片信息，顾客能够更加直接的表达出自己的观点；同时，通过顾客的关注点，例如颜色，样式等，对话机器人能够更清楚的获取顾客的偏好，从而最终为顾客提供符合其要求的推荐内容，提升顾客的满意度。

基于这样的一个想法，本文作者针对任务型对话系统，提出了用户注意力指导的多模态对话系统。

模型

具体而言，在任务型对话系统中，作者希望利用用户的注意力信息实现对产品的层次化选择，在每一个不同的层次关注到不同的产品特点，通过细化的区分实现精准的产品推荐。模型的整体框架图如下：

该框架主要完成两个任务：文本回复生成与图像回复选择。多模态编码器和解码器用于编解码多模态的内容信息，同时由一个高层次的 RNN 控制整个对话进程。接下来，将详细讲述每个部分的相关细节。

多模态编码器

该模块主要用于编码文本信息和图像信息，生成情境感知的语义内容表示。针对文本内容，考虑到不同的文本对最终的语义表达贡献不同，作者在这里使用了基于 CNN 的注意力机制，具体由以下公式实现：

首先为了获取到词之间的序列信息，作者使用了 BI-LSTM 处理每个词，在得到隐层状态之后，作者使用了基于 CNN 的方法计算不同的权重，相比于传统的注意力计算方法，这里针对每个词的权重计算方法考虑了局部信息，也就是说每个词的权重信息不单单是由它自身决定，同时也是由它周围的上下文决定。

当然如果在这里想使用 multi-head 的结构的话，那么也可以考虑使用多个卷积核，这是一个非常有意思的操作。接下来就是对所有的隐层状态做加权和，得到最后的文本语义表示。

针对图像信息，在目前的电子商务中，每个产品都会拥有很多类别属性，并且这些属性可以整合为层次化的树结构。同一类产品会拥有很多相同的特征。因此作者在这里使用了基于分类学的属性树结构表示。

作者首先定义了 N 个常见的属性，然后构建了一个 key-value 的属性树来分析用户的偏好。key 就是属性值，例如颜色，样式，value 就是具体的内容，例如红色，长裤等，具体的模型图如下：

作者首先利用一个残差网络处理输入的图像，然后将得到的特征表示张量输入到基于分类学的属性树中，该树包含了 L 层和 M 个叶节点，每个叶节点表示的一类产品，而该叶节点对应的路径就是属性信息。通过这样的一个形式就可以在属性层次上对图像的特征表示进行不断更新：

最后，这些特征信息就要和文本特征信息进行整合，从而计算出顾客在不同属性上的关注度，进而得到顾客注意力指导的图像语义信息表达：

最后就是多模态信息融合，作者使用 VQA 中常用的一个融合方式 MFB 实现图像和文本信息的融合，并通过池化操作得到本轮对话最后的状态输出，并使用高层的 RNN 控制整个对话进程：

多模态解码器

在 decoder 阶段，作者针对图像和文本使用了两种解码方式，具体的方式如下图：

1. 基于 RNN 的回复生成方式，基于编码阶段高层 RNN 的输出状态，使用一个语言模型用于生成对话系统的机器人的回复：

2. pairwise 的排序方法，基于图像和上下文的相关性，从一系列相关图像中选出最相关的图像，在这里作者使用了 cosin 相似度作为度量标准，并通过非监督的方法进行训练。

以上就是这个模型的细节内容。

实验

作者在一个公开的多模态对话数据集上进行了实验，并使用了 BLUE-N 作为评价标准，在实验结果对比上，作者分别对比了文本生成的效果以及图像选择的效果，具体结果如下：

从实验结果可以看作，作者提出的模型在多个指标上都远远优于 baseline，充分证明了作者模型的有效性，同时为了更好的展示模型效果，作者还展示了相关的例子，如下图：

总结

针对任务型对话系统，作者利用用户的注意力信息，通过从属性角度对商品进行细分，分层的建模顾客的兴趣，从而最终实现精准的推荐；另外加入了图像信息，从而保证了整个交互过程更加的准确高效。这是一篇非常值得学习的文章。

参考文献

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 11

[2] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In Advances in Neural Information Processing Systems, 2017. 2

[3] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8

[4] Matthew Amodio, Smita Krishnaswamy. TraVeLGAN: Image-to-image Translation by Transformation Vector Learning. In CVPR, 2019.2

[5] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018. 1, 2, 3, 4, 5, 6

[6] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. 1, 2, 3, 4, 6, 7, 8

[7] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.

[8] Dongwook Lee, Junyoung Kim, Won-Jin Moon, Jong Chul Ye. CollaGAN: Collaborative GAN for Missing Image Data Imputation. In CVPR, 2019.4

[9] Hao Tang, Dan Xu. Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation.In CVPR, 2019.4

[10] Hongyu Liu, Bin Jiang,Yi Xiao,Chao Yang. Coherent Semantic Attention for Image Inpainting. In ICCV, 2019.7

点击以下标题查看更多往期内容：

SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解
近期值得读的知识图谱论文，这里帮你总结好了
后BERT时代的那些NLP预训练模型
SIGIR 2019 | 结合答案信息的重复问题检测方法
最新综述：对话系统之用户模拟器
神经机器阅读理解最新综述：方法和趋势

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统相关推荐

SIGIR 2019 开源论文 | 结合答案信息的重复问题检测方法
作者丨张琨学校丨中国科学技术大学博士生研究方向丨自然语言处理论文动机社区问答一直是一个非常热门的地方,人们在这里提出问题,寻找答案,例如知乎,Quora 等.但是社区问答一直有一个很严重的问题 ...
SIGIR 2019 开源论文 | 基于图神经网络的协同过滤算法
作者丨纪厚业单位丨北京邮电大学博士生研究方向丨异质图神经网络,异质图表示学习和推荐系统引言协同过滤作为一种经典的推荐算法在推荐领域有举足轻重的地位.协同过滤(collaborative fil ...
图注意力网络_EMNLP 2019开源论文：针对短文本分类的异质图注意力网络
本文同步发表在 PaperWeekly EMNLP 2019开源论文:针对短文本分类的异质图注意力网络mp.weixin.qq.com 本文由北邮和南洋理工联合发表在自然语言处理顶会 EMNLP 2 ...
NeurIPS 2019 开源论文 | 万能的GNN解释器
作者丨纪厚业学校丨北京邮电大学博士生研究方向丨异质图神经网络及其应用本文由斯坦福 Jure 组发表在 NeurIPS 2019 上,一作 Rex Ying 也是著名的 GraphSAGE 的作者 ...
CVPR 2019开源论文 | 基于“解构-重构”的图像分类学习框架
作者丨白亚龙单位丨京东AI研究院研究员研究方向丨表示学习.图像识别基于深度卷积图像识别的相关技术主要专注于高层次图像特征的理解,而对于相似物体之间的细节差异和具有判别意义的区域(discrimi ...
CVPR 2019 开源论文 | 基于空间自适应归一化的图像语义合成
作者丨武广学校丨合肥工业大学硕士生研究方向丨图像生成深度学习在算力的推动下不断的发展,随着卷积层的堆叠,模型的层数是越来越深,理论上神经网络中的参数越多这样对数据的拟合和分布描述就能越细致.然而 ...
CVPR 2019开源论文 | Rob-GAN：生成器、鉴别器以及对抗攻击者
作者丨薛洁婷学校丨北京交通大学硕士生研究方向丨图像翻译研究动机自 2014 年 Goodfellow 等人提出生成式对抗网络 (Generative Adversarial Networks, ...
ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法
作者丨张冠华单位丨腾讯实习生 & 哈工大本科生研究方向丨自然语言处理导读句对匹配 (Natural Language Sentence Matching,NLSM) 任务是指给定两个句 ...
ICCV 2019 开源论文 | ShapeMatchingGAN：打造炫酷动态的艺术字
作者丨杨帅学校丨北京大学博士生研究方向丨图像风格化论文引入当你制作 PPT 时想要打造与背景图片风格一致的标题,当你设计宣传海报时想要一个引人注意的标题,当你发朋友圈时想要更生动地展示文字所传 ...

SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统

论文动机

模型

多模态编码器

多模态解码器

实验

总结

参考文献

SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统相关推荐

最新文章

热门文章