DUET and updated DUET(2016 and 2019)
Learning to Match Using Local and Distributed Representations of Text for Web Search
摘要
DUET由两个独立的深度神经网络组成,一个使用局部表示匹配查询和文档,另一个使用学习的分布式表示匹配查询和文档。这两个网络作为单个神经网络的一部分被联合训练。
Motivation
local 模型进行精确匹配,分布式模型进行 同义词,相关术语或者语义匹配。
讨论
作者提出三个高效IR的属性
- exact match :这是IR的基础
- match positions :相关文档中的查询词匹配比非相关文档中的匹配更具聚类性。
- inexact term matches:解决词汇不匹配问题,exact match 的致命问题是忽略了query的相关词,比如对于query :Australia , 会忽略Sydney’ and ‘koala’ 。这对于IR来说绝对不是一个好的策略
DUET将上述三个高效的IR属性结合:
3.DUET
分布式模型在匹配之前将查询和文档文本投影到嵌入空间中,而本地模型在交互矩阵上操作,将每个查询项与每个文档项进行比较。最终分数是来自本地和分布式网络的分数之和
其中查询和文档都被认为是术语的有序列表
input的fixed:quert:10 ,doc:1000
3.1 Local Model
query 和 document 的term用one-hot表示,然后计算exact match矩阵:
XXX∈∈∈ RRRn^nnd^dd×^××n^nnq^qq (1000×10), 捕获查询和文档的每一个exact match
和 match positions。其中:
然后将矩阵XXX经过一个kenel为ndn_dnd×1(1000×1),步长为1的300个feature maps 的卷积活得3000×10的一个矩阵,然后经过两个全连接层,一个dropout层,再经过最后一个全连接层产生一个单独的实值输出,这些层的所有激活函数都为tanh。
3.2 Distributed Model
这里的输入不再是one-hot计算match矩阵,而是和DSSM一样的n-graph嵌入(现在选择Glove或者EMLo会更好),维度为2000,即对于query:2000×10,文档:2000×1000
然后经过300个kenel大小为2000×3,步长为1的卷积,query生成300×8的features,document生成300×998的features。
接着进行max-pooling,query(1×8):输出维度300,document(1×100):输出维度300×899.注意:doc的max-pooling选择的是窗口max-pooling而不是CDSSM中的全局max-pooling,是因为基于窗口的方法允许模型区分文档不同部分中的匹配项。当处理长文档,尤其是包含许多不同主题的混合文档时,知道匹配位置的模型可能更适合。
query的max-pooling输出经过一个全连接层(维度:300),对于doc的max-pooling的输出(300×899)仍然经过一个卷积处理(滤波器大小为300,kenel为300×1,步长为1,输出为300×899)。这些卷积层和最大池层的结合使分布式模型能够学习合适的文本表示,以实现有效的不精确匹配。
为了执行匹配,对query和doc的输出执行Hadamard积(输出维度:300×899):
3.3 Optimization
每一组训练样本由一个查询QQQ,一个相关文档D∗D^*D∗和一组不相关文档 NNN ={D1D_1D1,…,DND_NDN} 组成。使用softmax函数根据分数计算给定查询的肯定文档的后验概率,然后最大化llloooggg ppp即可:
实验
dataset:
结果
3 The updated Duet model(用于MS MARCO PASSAGES RANKING)
word embeddings
用GloVe取代n-graph嵌入
Inverse document frequency weighting
将查询和文档的exact match 矩阵改变为TF-IDF:
其中,NNN是集合中的总passgaes数,ntn_tnt是术语ttt至少出现一次的passgae数。
Non-linear combination of local and distributed models
与DUET不同(将local 和 分布式模型的得分简单相加),这里采用的是用一个MLP去组合local 和 分布式模型的得分生成相关性估计。
Rectifier Linear Units (ReLU)
用ReLU代替DUET中的tanh
Bagging
使用bagging通过组合多个Duet模型——用不同的随机种子和不同的随机样本训练数据。得到了一些改进。
4 Experiments
与DUET同样的三元组训练,loss为交叉熵
结果
DUET and updated DUET(2016 and 2019)相关推荐
- Windows10 LTSB 2016 LTSC 2019 安装应用商店
win10应用商店独立安装包(一键安装) 由于Win10 LTSB 2016<SC 2019系统,没有应用商店 需要下载应用商店安装包 阿里网盘:https://share.teambit ...
- 电脑服务器能插无线网卡吗,windows的server版本2016,2019等添加开启无线网卡
原创:张荣国 在windows的服务器版本中,安装了操作系统后,Windows为了系统的稳定性,默认状态下是不开启无线网卡wlan和显卡,声音等驱动安装,或者关闭相关的依赖服务.所以,有的朋友想用无线 ...
- 上海交大计算机专业报录比,上海交通大学2016年~2019年考研报录比统计数据分析!...
上海交通大学2019考研拟招人数6600人(包括统考.推免.各类招生计划),其中统考报考人数:18615人,统考录取人数4459人,推免录取人数2480人. 其中统考包括人数最多的专业: 安泰经济与管 ...
- 上海交大计算机考研报录比,上海交通大学2016年至2019年考研报录比统计数据分析...
上海交通大学2019考研拟招人数6600人(包括统考.推免.各类招生计划),其中统考报考人数:18615人,统考录取人数4459人,推免录取人数2480人. 其中统考包括人数最多的专业: 安泰经济与管 ...
- Office 2016、2019 解决“你的 Office 许可证有问题”
方法一: 补丁下载地址:PatchOffice.rar - 蓝奏云 将文件解压到桌面 >>> 右击,以管理员方式运行或双击运行均可 >>> 显示成功,改步去除密钥 ...
- win10 ltsc安装linux,Windows 10 LTSC / Server 2016 (Server 2019 ?) 安装WSL(Linux子系统)
以管理员身份打开PowerShell并执行:Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Windows-Subsystem ...
- Windows server 2008、2012、2016、2019搭建sftp服务(超级简单)
背景: 最近遇到将一个600多M的文件需要从本地电脑上传到Windows server 服务器,但是使用Windows server 自带的IIS中的Ftp搭建起来非常不方便,后来在网上找了一个Cor ...
- 双系统 android 华硕,华硕发布Duet TD300,首款真正Windows+安卓双系统笔记本
拼 命 加 载 中 ... 三星去年年中发布的ATIV Q是首款Windows 8+Android双系统的笔记本,不过Android系统似乎是基于模拟器运行的"附属品".随后华硕也 ...
- vue.js 密码加密_Word2007/2016/2019文档加密的方法
当我们在Word文档中输入一些比较重要的资料时,最安全的方法就是给这些文档进行密码加密.相信很多网友没有使用过给文件加密的功能吧!今天小编就以Word2019文档为例来说明Word2007.2016. ...
最新文章
- 【OpenCV 4开发详解】方框滤波
- Java 添加音频到ppt_Java 添加文本框到PPT幻灯片过程解析
- 应用架构设计原则、模式摘录
- jvm性能调优实战 -56没有WHERE条件的SQL语句引发的OOM MAT 排查步骤
- 第五届蓝桥杯省赛javaB组试题解析
- Increasing or Decreasing 序列 转换
- Android上玩玩Hook?
- ITK:标记连接组件的轮廓
- 具有弹性效果的ListView
- 【LeetCode - 556】下一个更大元素 III(贪心,思维)
- Hashmap扩容时出现循环链表(jdk1.8把头插法换成了尾插法的原因)
- Dijkstra求最短路径例题
- 螃蟹保存方法保存时间_蜂巢蜜应该怎么保存,蜂巢蜜怎么保存的时间更长
- 智慧农业项目建设体系之质量追溯平台建设体系
- android brvah 分组,RecyclerView使用BRVAH完成分组布局效果
- Mat 和 Iplimage* 相互转换
- angular中自定义组件实现双向绑定
- tf data 切换数据集 使用并行提高效率
- 缓冲协议才是Python风靡全球的主要原因
- 新技术又又又又叒叒叒来了
热门文章
- 全国CSM敏捷教练认证将于2023年3月25-26开班,报名从速!
- HitTest 和SubItemHitTest
- 一年时间,从一个浑浑噩噩的测试小人物到测试主管的成长之路
- 又一本宝藏级Python教程,清华大学监制出版,附电子版!
- 【用CSS让单行文本溢出显示省略号】
- 【Git】Git 分支管理 ( 创建并切换分支 | 查看分支 git branch | 合并分支 git merge dev | 删除分支 git branch -d dev )
- 第三天,【1124】接口,注册,登录
- Android的ADB
- java连接高斯数据库,高斯数据库 (gaussDB) - 基于 JDBC 开发 (9)
- 嵌入式系统实用电源管理技术应该如何选择?