语义匹配技术,在信息检索、搜索引擎中有着重要的地位,在结果召回、精准排序等环节发挥着重要作用。

传统意义上讲的语义匹配技术,更加注重文字层面的语义吻合程度,我们暂且称之为语言层的语义匹配;而在美团这样典型的O2O应用场景下,我们的结果呈现除了和用户表达的语言层语义强相关之外,还和用户意图、用户状态强相关。

用户意图即用户是来干什么的?比如用户在百度上搜索“关内关外”,他的意图可能是想知道关内和关外代表的地理区域范围,“关内”和“关外”被作为两个词进行检索,而在美团上搜索“关内关外”,用户想找的就是“关内关外”这家饭店,“关内关外”被作为一个词来对待。

再说用户状态,一个在北京和另一个在武汉的用户,在百度或淘宝上搜索任何一个词条,可能得到的结果不会差太多;但是在美团这样与地理位置强相关的场景下就会完全不一样。比如我在武汉搜“黄鹤楼”,用户找的可能是景点门票,而在北京搜索“黄鹤楼”,用户找的很可能是一家饭店。

如何结合语言层信息和用户意图、状态来做语义匹配呢?

我们的思路是在短文本外引入部分O2O业务场景特征,融合到所设计的深度学习语义匹配框架中,通过点击/下单数据来指引语义匹配模型的优化方向,最终把训练出的点击相关性模型应用到搜索相关业务中。下图是针对美团场景设计的点击相似度框架ClickNet,是比较轻量级的模型,兼顾了效果和性能两方面,能很好地推广到线上应用。

表示层

对Query和商家名分别用语义和业务特征表示,其中语义特征是核心,通过DNN/CNN/RNN/LSTM/GRU方法得到短文本的整体向量表示,另外会引入业务相关特征,比如用户或商家的相关信息,比如用户和商家距离、商家评价等,最终结合起来往上传。

学习层

通过多层全连接和非线性变化后,预测匹配得分,根据得分和Label来调整网络以学习出Query和商家名的点击匹配关系。

在该算法框架上要训练效果很好的语义模型,还需要根据场景做模型调优:首先,我们从训练语料做很多优化,比如考虑样本不均衡、样本重要度、位置Bias等方面问题。其次,在模型参数调优时,考虑不同的优化算法、网络大小层次、超参数的调整等问题。经过模型训练优化,我们的语义匹配模型已经在美团平台搜索、广告、酒店、旅游等召回和排序系统中上线,有效提升了访购率/收入/点击率等指标。

小结

深度学习应用在语义匹配上,需要针对业务场景设计合适的算法框架,此外,深度学习算法虽然减少了特征工程工作,但模型调优上难度会增加,因此可以从框架设计、业务语料处理、模型参数调优三方面综合起来考虑,实现一个效果和性能兼优的模型。

基于深度学习的语义匹配相关推荐

  1. 基于深度学习实现语义识别和问答判断模型及算法优化-制造业-CSDN公开课-专题视频课程...

    基于深度学习实现语义识别和问答判断模型及算法优化-制造业-1685人已学习 课程介绍         本次课程,邀请IBM研究院讲师就制造业语义识别及判断模型搭建.QA模型.词向量.句子量化.POWE ...

  2. 基于深度学习的语义理解技术在机器翻译中的应用

    作者:禅与计算机程序设计艺术 <基于深度学习的语义理解技术在机器翻译中的应用>技术博客文章 引言 1.1. 背景介绍 随着全球化的推进,跨语言交流需求日益增长,机器翻译技术应运而生.翻译技 ...

  3. 【毕业设计】基于深度学习实现语义分割算法系统 - 机器视觉

    文章目录 0 前言 2 概念介绍 2.1 什么是图像语义分割 3 条件随机场的深度学习模型 3. 1 多尺度特征融合 4 语义分割开发过程 4.1 建立 4.2 下载CamVid数据集 4.3 加载C ...

  4. 基于深度学习的语义分割代码库

    截至: 2018-04-16 Awesome Semantic Segmentation Networks by architecture Semantic segmentation U-Net [h ...

  5. 基于深度学习的OCR-from 美團技術團隊

    https://www.jisuapi.com/api/12 行数据的话 可以参考 https://github.com/wanghaisheng/awesome-ocr/wiki/Training- ...

  6. 语义分割源代码_综述 | 基于深度学习的实时语义分割方法:全面调研

    34页综述,共计119篇参考文献.本文对图像分割中的最新深度学习体系结构进行了全面分析,更重要的是,它提供了广泛的技术列表以实现快速推理和计算效率. A Survey on Deep Learning ...

  7. 基于深度学习的图像语义分割技术概述之背景与深度网络架构

    本文为论文阅读笔记,不当之处,敬请指正.  A Review on Deep Learning Techniques Applied to Semantic Segmentation: 原文链接 摘要 ...

  8. 基于深度学习的FAQ问答系统

    | 导语 问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库.知识图谱或问答知识库返回简洁.准确的匹配答案.相较于搜索引擎,问答系统能更好地理解用户提问的真 ...

  9. 基于深度学习的FAQ检索式问答系统

    问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库.知识图谱或问答知识库返回简洁.准确的匹配答案.相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, ...

最新文章

  1. 多线程:线程池里的队列BlockingQueue
  2. C语言实例第2期:判断某一年是否为闰年
  3. 记一次灵活的模型训练生成的pth转onnx文件失败
  4. 统计文件中有多少个单词amp;c语言实现
  5. Nim游戏的一个扩展——51nod 1661 黑板上的游戏+LA 5059 Playing With Stones
  6. java ajax data_jquery ajax 方法中传递的data参数,如何在java类中获取
  7. 商汤3DAR团队-3D视觉组招聘
  8. 网传字节跳动实习生删除GB以下所有机器学习模型,差点没上头条......
  9. 证明三角形内角和等于180度
  10. web文件服务器1台,WEB服务器及配件1台 - 千里马招标网
  11. 联想7400打印机如何与手机连到一起_想买一台打印机自己印书看,是买激光的还是喷墨的?...
  12. 毕业论文速成指南来了!
  13. r730服务器安装系统蓝屏6,安装系统蓝屏解决解决方法
  14. 上传图片到腾讯云(海外服务器)com.qcloud5.5.4版本
  15. dnf连接服务器黑屏xp系统,windows xp进入桌面后黑屏的解决技巧
  16. 程序员的一天:一寸光阴一寸金
  17. java jcmd,JVM工具_jcmd
  18. MOSFET驱动电路应用实例
  19. 复旦校长官宣:复旦大学即将推出“不升也能留”计划!
  20. [Flutter] 用FontLoader从本地加载字体

热门文章

  1. 浅谈Kafka选举机制
  2. 大三小学期进阶课程第十二课:apollo地图采集方案
  3. html如何绘制热图,R使用笔记: heatmap.2绘制热图
  4. Python 使用摄像头监测心率!这么强吗?
  5. thumbnailator给图片添加水印
  6. 百度地图只显示你想要的部分
  7. iPad越狱失败 越狱恢复
  8. python股票成交明细_Python股票成交价格-买卖额分布图(三)
  9. 企业网络营销分析报告
  10. RDMA send/recv 和 read/write操作