DSSM

DSSM的结构

DSSM 最大的卖点在检索场景下 使用点击数据来训练语义层次的匹配,简单的来说,传统检索场景下的匹配主要有:

  1. 字面匹配: TFIDF 、 BM25 
  2. 使用 LSA 类模型进行语义匹配,但是效果不好

而DSSM训练出来之后,检索场景下用户输入query之后,可以根据该query计算各个doc的语义相似度。

这里上图最直接:

上面是 DSSM 训练的架构图:

  1. 输入的是一个 query 和这个query相关的 doc ,这里的输入特征可以是最简单的 one-hot ,而需要 train 的是这个query下各个doc的相关性( DSSM里面使用点击率来代替相关性)
  2. 由于这种 one-hot 的输入可能会有两个问题:

    1. 导致 vocabulary 太大
    2. 会出现 oov 的问题

      因此输入特征之后的第一层是做一个叫做 Word Hashinging 的操作

  3. 接下来就是传统的神经网络了 
    $$l_i=f(W_il_{i-1}+b_i),i = 2,…,N-1 \\ 
    y=f(W_Nl_{N-1}+b_N) $$

    这里的 是激活函数,文中使用$tanh$来计算:$f(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$

  4. 得到的$y$就是语义特征了,query和doc之间的相关性就可以直接使用特想之间的相似性来度量,这里使用cosine来计算 
    $$R(Q,D)=cosine(y_Q,y_D) = \frac{y_Q^Ty_D}{||y_Q||||y_D||}$$
  5. 最终得到的相似度就可以去训练query和doc的相关性了

因此整个结构就可以看做做了一层 Word Hashing 之后去训练 DNN 网络

Word Hashing

Word Hashing 是paper非常重要的一个 trick ,以英文单词来说,比如 good ,他可以写成 #good# ,然后按tri-grams来进行分解为 #go goo ood od# ,再将这个tri-grams灌入到 bag-of-word 中,这种方式可以非常有效的解决 vocabulary 太大的问题(因为在真实的web search中vocabulary就是异常的大),另外也不会出现 oov 问题,因此英文单词才26个,3个字母的组合都是有限的,很容易枚举光。 
那么问题就来了,这样两个不同的单词会不会产出相同的tri-grams,paper里面做了统计,说了这个冲突的概率非常的低,500K个word可以降到30k维,冲突的概率为0.0044%

但是在中文场景下,这个 Word Hashing 估计没有这么有效了 
因为直接使用了word hashing,因为无法记录上下文信息

训练DSSM

上面是前向计算过程,在进行训练的时候需要计算给定 Query 下与 Doc 的相关性: 
$$P(D|Q) = \frac{exp(\gamma R(Q,D))}{\sum_{d_i \in D} exp(\gamma R(Q,D))}$$

最终他需要优化的损失函数为: 
$$L(\Lambda) = - \text{log} \prod_{(Q,D^+)} P(D^+|Q)$$

$D^+$表示被点击的文档,这里就是最大化点击文档的相关性的最大似然

CDSSM

CDSSM (又称 CLSM :Convolutional latent semantic model)在一定程度上他可以弥补 DSSM 会丢失上下文的问题,他的结构也很简单,主要是将 DNN 替换成了 CNN

他的前向步骤主要计算如下: 
1. 使用指定滑窗大小对输入序列取窗口数据(称为 word-n-gram ) 
2. 对于这些 word-n-gram 按 letter-trigram 进行转换构成representation vector(其实就是 Word Hashing 
3. 对窗口数据进行一次卷积层的处理(窗口里面含有部分上下文) 
4. 使用 max-pooling 层来取那些比较重要的 word-n-gram 
5. 再过一次FC层计算语义向量 
6. 他最终输出的还是128维

> 因为使用 CDSSM 来做语义匹配的工作也是比较合适的

## DSSM-LSTM 
既然是为了记录输入句子的上下文,这个无疑是 Lstm 这个模型更为擅长,因此又有了一种 Lstm 来构造的 DSSM 模型

这篇相对于 CDSMM 来说改的更为简单,其实就是将原始 DSSM 的模型替换为了 LSTM 模型…

MV-DSSM

MV-DSSM 里面的 MV 为 Multi-View ,一般可以理解为多视角的 DSSM ,在原始的DSSM中需要训练的有 Query 和 Doc 这两类的embedding,同时里面DNN 的所有权重都是共享的,而 MV-DSSM 他可以训练不止两类的训练数据,同时里面的深度模型的参数是相互独立:

基于 Multi-View 的 DSSM 是的参数变多了,由于多视角的训练,输入的语料也可以变得不同,自由度也更大了,但是随之带来的问题就是训练会变得越来越困难^_^

总结

DSSM 类的模型其实在计算相似度的时候最后一步除了使用Cosine,可能再接入一个MLP会更加好,因为Cosine是完全无参的。

DSSM 的优势:

  1. DSSM 看起来在真实检索场景下可行性很高,一方面是直接使用了用户天然的点击数据,出来的结果可行度很高,另一方面文中的doc可以使用title来表示,同时这个部分都是可以离线进行语义向量计算的,然后最终query和doc的语义相似性也是相当诱人
  2. DSSM 出的结果不仅可以直接排序,还可以拿中间见过做文章: semantic feature 可以天然的作为 word embedding 

DSSM 的劣势:

  1. 用户信息较难加入(不过可以基于 MVDSSM 改造)
  2. 貌似训练时间很长啊

参考

  1. Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM, 2013:2333-2338.
  2. Shen, Yelong, et al. “A latent semantic model with convolutional-pooling structure for information retrieval.” Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. ACM, 2014.
  3. Palangi, Hamid, et al. “Semantic modelling with long-short-term memory for information retrieval.” arXiv preprint arXiv:1412.6629 (2014).
  4. Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. “A multi-view deep learning approach for cross domain user modeling in recommendation systems.” Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015.

DSSM深度语义匹配模型相关推荐

  1. 详解深度语义匹配模型DSSM和他的兄弟姐妹

    一只小狐狸带你解锁NLP/ML/DL秘籍 正文作者:郭耀华 正文来源: https://www.cnblogs.com/guoyaohua/p/9229190.html 前言 在NLP领域,语义相似度 ...

  2. 「NLP-语义匹配」详解深度语义匹配模型DSSM

    2019-12-29 11:05:55 所谓语义匹配,就是在语义上衡量文本的相似度,在产业界有很多的应用需求.例如,在FAQ场景中需要计算用户输入与标问之间的相似度来寻找合适的答案.本文介绍一种经典的 ...

  3. 【NLP-语义匹配】详解深度语义匹配模型DSSM

    所谓语义匹配,就是在语义上衡量文本的相似度,在产业界有很多的应用需求.例如,在FAQ场景中需要计算用户输入与标问之间的相似度来寻找合适的答案.本文介绍一种经典的语义匹配技术,DSSM,主要用于语料的召 ...

  4. 60检索式问答系统的语义匹配模型(神经网络篇)

    slvher 助理来也后端/算法工程师 目前研发方向为多轮对话系统 问答系统可以基于规则实现,可以基于检索实现,还可以通过对 query 进行解析或语义编码来生成候选回复(如通过解析 query并查询 ...

  5. 语义匹配(一)【NLP论文复现】Sentence-BERT 句子语义匹配模型的tensorflow实现以及训练Trick

    Sentence-BERT 句子语义匹配模型的tensorflow实现以及训练trick 论文模型回顾 建模与训练 模型代码部分 数据处理 训练 模型训练Trick trick1 warm up 代码 ...

  6. 智能问答系统:问句预处理、检索和深度语义匹配技术

    更多干货内容敬请关注「平安寿险PAI」(公众号ID:PAL-AI),文末有本期分享内容资料获取方式. 智能问答系统是人机交互的核心技术之一,常见的应用场景主要是智慧客服.通过构建该系统,机器人可以快速 ...

  7. 视频与图片检索中的多模态语义匹配模型 ——原理、启示、应用与展望

    前言 三多前笔者在<万字长文漫谈视频理解>[1]一文中,曾经将自己对视频理解的认识进行过简单总结,幸而获得了朋友们的认可,能让读者认可是笔者最为骄傲的成就.现在看来文中观点有不少纰漏狭隘之 ...

  8. 深度树匹配模型(TDM)

    深度树匹配模型(TDM) 算法介绍 Tree-based Deep Match(TDM)是由阿里妈妈精准定向广告算法团队自主研发,基于深度学习上的大规模(千万级+)推荐系统算法框架.在大规模推荐系统的 ...

  9. 知识图谱-KGE-模型(二):语义匹配模型【RESCAL、DistMult、HoLE、ComplEx、ANALOGY、SNE、NTN、MLP、NAM】

    语义匹配模型:包括RESCAL.DistMult.HoLE.ComplEx.ANALOGY.SNE.NTN.MLP.NAM模型等: 知识图谱怎样入门? - 知乎

最新文章

  1. RTT设备与驱动之PWM
  2. SaltStack实战之数据系统-Grains
  3. 与优秀的人在一起,自己也会优秀起来!高质量技术群等你加入!
  4. 7z001怎么解压在安卓手机上面_安卓手机能打开eif文件吗 手机怎么打开eip文件方法...
  5. python编写程序计算1+2+3+......+100和_Python3:计算两个列表总和为100的所有排列的最有效方法是什么?...
  6. zabbix3.2监控
  7. 利用GAN实现QR Code超分辨率的研究
  8. Linux中的shell正则表达式详解
  9. Hadoop学习笔记目录
  10. 学习 | Node.js 之定时任务
  11. 灵感分享| 实例UI组件的设计风格
  12. c java 语法_java程序员要学的c语法
  13. 电商平台的系统组织架构
  14. Note :提取图像空间频率、色度、亮度、饱和度Python—Opencv
  15. 新司机的黑裙战斗机 篇三:群晖【番外篇】群晖系统崩溃后的数据抢救
  16. ffmpeg 命令转为 avi,mp4,h264, yuv
  17. .gitignore释疑
  18. s8 android 8.0变化,等待很长时间!三星S8系列手机现在可以升级到Android 8.0系统的稳定版本!...
  19. 流媒体协议介绍(rtp/rtcp/rtsp/rtmp/mms/hls)
  20. 写自己的故事,帮别人说话

热门文章

  1. 麒麟710处理器的实际意义
  2. winform控件动画专栏
  3. 深度学习和机器学习的区别
  4. php的取数组长度,php获取数组长度详解
  5. 关于Linux群组问题
  6. unity工程统一管理Pico和oculus项目
  7. 发现了一个有趣的字体:Fira Code字体(Eclipse可用)
  8. CSS或HTML如何实现文字下面加点?
  9. 双敏主板还原精灵 Invalid BOOT.ini file Booting from c:\windows\
  10. zipline中benchmarks.py源码分析