1. 前言

Query理解(QU,Query Understanding),简单来说就是从词法、句法、语义三个层面对query进行结构化解析。这里query从广义上来说涉及的任务比较多,最常见的就是我们在搜索系统中输入的查询词,也可以是FAQ问答或阅读理解中的问句,又或者可以是人机对话中用户的聊天输入。本文主要介绍在搜索中的query理解,会相对系统性地介绍query理解中各个重要模块以及它们之间如何work起来共同为搜索召回及排序模块服务,同时简单总结个人目前了解到业界在各个模块中的一些实现方法。

2. 相关概念

2.1 NLP

自然语言处理(NLP,Natural Language Processing)是集语言学、统计学、计算机科学,人工智能等学科于一体的交叉领域,目标是让计算机能在处理理解人类自然语言的基础上进一步执行结构化输出或语言生成等其他任务,其涉及的基础技术主要有:词法分析、句法分析、语义分析、语用分析、生成模型等。诸如语音识别、机器翻译、QA问答、对话机器人、阅读理解、文本分类聚类等任务都属于NLP的范畴。

这些任务从变换方向上来看,主要可以分为自然语言理解(NLU,Natural Language Understanding)和自然语言生成(NLG,Natural Language Generation)两个方面,其中NLU是指对自然语言进行理解并输出结构化语义信息,而NLG则是多模态内容(图像、语音、视频、结构/半结构/非结构化文本)之间的相互生成转换。

一些任务同时涵盖NLU和NLG,比如对话机器人任务需要在理解用户的对话内容(NLU范畴)基础上进行对话内容生成(NLG范畴),

全面理解搜索Query:当你在搜索引擎中敲下回车后,发生了什么?相关推荐

  1. 搜索-Query理解(全)

    Query 模块: 纠错 分词 紧密度 同义词 词权重 实体词识别 意图识别 长尾 query 的多样性对于搜索系统来说是一个很大的挑战,原因有: ❶ 存在输入错误.例如上图中的错误 query &q ...

  2. python大数据搜索_【大数据搜索】JZSearch大数据搜索引擎

    大数据的特点有四个层面:第一,数据体量巨大.从TB级别,跃升到PB级别:第二,数据类型繁多.网络日志.视频.图片.地理位置信息等等.第三,价值密度低.以视频为例,连续不间断监控过程中,可能有用的数据仅 ...

  3. 如何解决Chrome浏览器多功能搜索框搜索时不能调用百度搜索引擎

    2019独角兽企业重金招聘Python工程师标准>>> 如何解决Chrome浏览器多功能搜索框搜索时不能调用百度搜索引擎 http://www.baidu.com/s?ie=UTF- ...

  4. c语言 在txt文件中搜索关键词_网络推广外包—网络推广外包如何在搜索引擎中体现关键词优化效果...

    在当下的互联网时代中,没有企业愿意远离这种流量获取快.用户需求大.宣传推广能力见效快的搜索引擎,况且通过互联网的帮助下,企业网站能够通过搜索引擎进行关键词优化后获取更多的转化率,增加企业交易额度的提升 ...

  5. 百度搜索引擎中的特殊符号和搜索语句

    2019独角兽企业重金招聘Python工程师标准>>> 一.引号 双引号和书名号都属于精确匹配搜索,如果输入的关键词很长,百度在经过分析后,会将该词拆分搜索.如果您对这种情况不满 意 ...

  6. 技术博客|第16期:个性化视频搜索引擎:排序篇(下)

    模型结构决定了信息提取的效率,在搜广推领域有大量的相关研究.我们借鉴业内排序模型的优秀实践并结合视频搜索的特点,设计了一套以深度编码网络为基础提取信息.适合多目标优化的多任务专家网络以及解决偏差问题的 ...

  7. python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie)...

    python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie) 主要包括两部分内容: (1)利用python中的dict实现Trie: ( ...

  8. 微信搜索引擎中索引的分布式演进

    一.引言 提起分布式,不少人能很清晰的阐述paxos.CAP等理论,但我们在遇到一个具体的分布式问题时,很少有人能知道如何做出一个"好"的设计.对于当前的很多分布式数据系统,包括开 ...

  9. 搜索引擎中同义词的挖掘及使用

    用户在使用搜索引擎过程中,由于表述不清晰或者查询词与索引库描述不一致,为了能召回更多更优质的结果展示给用户.这时就需要对用户查询进行分析,包括词权.同义词.纠错等技术,对原查询进行处理.通常搜索引擎中 ...

  10. 搜索引擎优化基础,第 1 部分: 提高站点在搜索引擎中的排名

    运用白帽技术实现有机 SEO L. Jennette Banks (ljbanks@us.ibm.com), 搜索引擎优化专家, IBM 作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引 ...

最新文章

  1. uniapp中自定义返回和物理返回
  2. 《Head First设计模式》批注系列(一)——观察者设计模式
  3. element-ui表单_每日UI挑战强加-登录表单(分步教程)
  4. vue2.0移除或更改的一些东西
  5. 【数学】MORE XOR
  6. 测试linux系统的程序员,日常测试Linux命令
  7. 设计一款编程语言有多难?Ruby 创始人揭秘
  8. 37.django基础概念
  9. 3.业务架构·应用架构·数据架构实战 --- 战略驱动的业务架构设计
  10. PS使用:利用PS制作旋转水晶球gif图
  11. 远程摄像头软件mjpg-streamer使用指南
  12. pythonATM,购物车项目实战3-视图函数
  13. 教你如何用两个栈实现一个队列
  14. 网站被攻击客户信息被泄露如何解决
  15. 如何调用百度和华为的API?
  16. fatal: unable to access ...: LibreSSL SSL_connnect: Connection reset by peer in connect to... :443
  17. 操作系统与计算机网络
  18. 大米新闻微信小程序和Springboot新闻管理系统项目源码
  19. 【bzoj 1022】 小约翰的游戏John 【SHOI2008】
  20. 线性代数 —— 线性组合与线性表出,线性相关与线性无关

热门文章

  1. python搬运youtube视频_使用Python将YouTube视频下载到某个目录
  2. 从一个简单的main方法执行谈谈JVM工作机制
  3. 码农、程序员、工程师这三者之间有什么区别?
  4. 华为:围绕价值创造展开人力资源管理
  5. 磁珠的串联和并联分析:
  6. 组合模式中的“整体与部分”你真的清楚吗?
  7. 关于app 元素定位
  8. 十六、响应式布局--媒体查询
  9. 全新 16 核神经网络引擎,a13神经网络处理器
  10. EXCEL:如何设置某一列不能修改