搜索一般都会要求具有“搜索推荐”或者叫“搜索补全”的功能，即在用户输入搜索的过程中，进行自动补全或者纠错。以此来提高搜索文档的匹配精准度，进而提升用户的搜索体验，这就是Suggest。

term suggester

term suggester正如其名，只基于tokenizer之后的单个term去匹配建议词，并不会考虑多个term之间的关系。

POST /<index>/_search
{
"suggest": {
"<suggest_name>": {
"text": "<search_content>",
"term": {
"suggest_mode": "<suggest_mode>",
"field": "<field_name>"
}
}
}
}

text：用户搜索的文本
field：要从哪个字段选取推荐数据
analyzer：使用哪种分词器
size：每个建议返回的最大结果数
sort：如何按照提示词项排序，参数值只可以是以下两个枚举：
- score：分数>词频>词项本身
- frequency：词频>分数>词项本身
suggest_mode：搜索推荐的推荐模式，参数值亦是枚举：
- missing：默认值，仅为不在索引中的词项生成建议词
- popular：仅返回与搜索词文档词频或文档词频更高的建议词
- always：根据建议文本中的词项推荐任何匹配的建议词
max_edits：可以具有最大偏移距离候选建议以便被认为是建议。只能是1到2之间的值。任何其他值都将导致引发错误的请求错误。默认为2
prefix_length：前缀匹配的时候，必须满足的最少字符
min_word_length：最少包含的单词数量
min_doc_freq：最少的文档频率
max_term_freq：最大的词频

演示索引的数据类型

"suggest_mode": "missing"，默认值就是missing，意思就是当搜索的文本和索引100%精准匹配的时候，就没有建议的必要了。对于搜索baoqing，可能以为你想要搜索的是baoqiang、baoqian、baoqia；但对于搜索baoqiang来说，和索引100%匹配，以为你就是要搜索baoqiang。

"min_doc_freq": 2，这个是大于的关系，不包含等于。意思是搜索的文本匹配到的文档数要大于2才返回。

"suggest_mode": "popular"，这玩意儿说人话其实就是返回的建议词中不包含搜索词。

"suggest_mode": "always"，对返回的建议词不做任何的限制。

phrase suggester

term suggester可以对单个term进行建议或纠错，不会考虑多个term之间的关系。但是phrase suggester在term suggester基础上会考虑多个term之间的关系，比如是否同时出现一个索引原文中，相邻成都以及词频等。phrase suggester和term suggester相比，对建议的文本会参考上下文，也就是一个句子的其他token，不只是单纯的token距离匹配，它可以基于共生和频率选出更好的建议。

real_word_error_likelihood：此选项的默认值为 0.95。此选项告诉 Elasticsearch 索引中 5% 的术语拼写错误。这意味着随着这个参数的值越来越低，Elasticsearch 会将越来越多存在于索引中的术语视为拼写错误，即使它们是正确的
max_errors：为了形成更正，最多被认为是拼写错误的术语的最大百分比。默认值为 1
confidence：默认值为 1.0，最大值也是。该值充当与建议分数相关的阈值。只有得分超过此值的建议才会显示。例如，置信度为 1.0 只会返回得分高于输入短语的建议
collate：告诉 Elasticsearch 根据指定的查询检查每个建议，以修剪索引中不存在匹配文档的建议。在这种情况下，它是一个匹配查询。由于此查询是模板查询，因此搜索查询是当前建议，位于查询中的参数下。可以在查询下的“params”对象中添加更多字段。同样，当参数“prune”设置为true时，我们将在响应中增加一个字段“collate_match”，指示建议结果中是否存在所有更正关键字的匹配
direct_generator：phrase suggester使用候选生成器生成给定文本中每个项可能的项的列表。单个候选生成器类似于为文本中的每个单独的调用term suggester。生成器的输出随后与建议候选项中的候选项结合打分。目前只支持一种候选生成器，即direct_generator。建议API接受密钥直接生成器下的生成器列表；列表中的每个生成器都按原始文本中的每个项调用。

phrase suggester在使用之前先创建一个特定的mapping

值得注意的是，过滤器使用的是shingle，最小和最大值分别是2和3，测试一下

明明最小值是2，为什么还有一个单词的拆分粒度。因为shingle要求是必须要保持一元组的，就是无论最小值和最大值是多少，一定会有单个单词的拆分。可以通过"output_unigrams": false指定关闭保留一元组，这个强烈建议不要关闭，应该保留。

"highlight": {
"pre_tag": "<em>",
"post_tag": "</em>"
}

使用高亮属性可以将被纠正的词在返回中高亮显示提示用户

首先，返回结果中的"text" : "lucene and elasticsearch"，这个text并不一定就是文档，和存储的数据不一定就是一样的，只是ES认为你可能想要搜索的文本而已。而且对于ES来说，纠正的词越多，他会认为纠正过的词可信度越高，所以越是纠正的多的，纠正的离谱的，就越会被放在前面推荐使用。

completion suggester

前面两个suggester其实使用的频率很低，说到suggester那基本都是completion suggester的天下。completion suggester基于内存而非索引，性能强悍，不过需要结合特定的completion类型，只适合前缀搜索，并不支持中缀和后缀搜索。

completion suggester可以自动补全，自动完成，支持三种查询【前缀查询（prefix）模糊查询（fuzzy）正则表达式查询（regex)】，主要针对的应用场景就是"Auto Completion"。此场景下用户每输入一个字符的时候，就需要即时发送一次查询请求到后端查找匹配项，在用户输入速度较高的情况下对后端响应速度要求比较苛刻。因此实现上它和前面两个Suggester采用了不同的数据结构，索引并非通过倒排来完成，而是将analyze过的数据编码成FST和索引一起存放。对于一个open状态的索引，FST会被ES整个装载到内存里的，进行前缀查找速度极快。但是FST只能用于前缀查找，这也是Completion Suggester的局限所在。

completion：es的一种特有类型，专门为suggest提供，基于内存，性能很高。
prefix query：基于前缀查询的搜索提示，是最常用的一种搜索推荐查询。
- prefix：客户端搜索词
- field：建议词字段
- size：需要返回的建议词数量（默认5）
- skip_duplicates：是否过滤掉重复建议，默认false
fuzzy query
- fuzziness：允许的偏移量，默认auto
- transpositions：如果设置为true，则换位计为一次更改而不是两次更改，默认为true。
- min_length：返回模糊建议之前的最小输入长度，默认 3
- prefix_length：输入的最小长度（不检查模糊替代项）默认为 1
- unicode_aware：如果为true，则所有度量（如模糊编辑距离，换位和长度）均以Unicode代码点而不是以字节为单位。这比原始字节略慢，因此默认情况下将其设置为false。
regex query：可以用正则表示前缀，不建议使用

指定completion suggester的mapping

completion suggester的速度快是通过大量内存换来的，并且只能支持前缀搜索，如果用户输入的不是前缀，召回率可能很低。所以几个suggester应该配合着使用：当使用completion没有结果的时候，应该考虑加入fuzzy参数来纠错，还没有结果的话可以考虑使用term suggester

context suggester

completion suggester通过映射上下文来实现，在索引和查询启用上下文的完成字段时，必须提供上下文。添加上下文呢映射会增加completion的字段的索引大小，并且这一代过程发生在堆中。完成建议者会考虑索引中的所有文档，但是通常来说，我们在进行智能推荐的时候最好通过某些条件过滤，并且有可能会针对某些特性提升权重。

contexts：上下文对象，可以定义多个
- name：context的名字，用于区分同一个索引中不同的context对象。需要在查询的时候指定当前name
- type：context对象的类型，目前支持两种：category和geo，分别用于对suggest item分类和指定地理位置。
- boost：权重值，用于提升排名
path：如果没有path，相当于在PUT数据的时候需要指定context.name字段，如果在Mapping中指定了path，在PUT数据的时候就不需要了，因为 Mapping是一次性的，而PUT数据是频繁操作，这样就简化了代码。

指定context suggester的mapping

定义一个名为 place_type 的类别上下文，其中类别必须与建议一起发送；
定义一个名为 location 的地理上下文，类别必须与建议一起发送。

使用boost增加权重，在返回数据集中优先排序。

【手把手】ElasticSearch的搜索推荐相关相关推荐

基于Elasticsearch实现搜索推荐
在基于Elasticsearch实现搜索建议一文中我们曾经介绍过如何基于Elasticsearch来实现搜索建议,而本文是在此基于上进一步优化搜索体验,在当搜索无结果或结果过少时提供推荐搜索词给用户. ...
ElasticSearch学习29_基于Elasticsearch实现搜索推荐
2019独角兽企业重金招聘Python工程师标准>>> 在基于Elasticsearch实现搜索建议一文中我们曾经介绍过如何基于Elasticsearch来实现搜索建议,而本文是在此 ...
ElasticSearch的搜索推荐(typeahead)
搜索推荐,即typeahead,也就是我们在搜索的时候,比如输入lucene el,这时候会给我一些提示: lucene elasticsearch lucene elasticsearch 区别 l ...
降本提效，贝壳搜索推荐架构统一之路
导语 | 搜索和推荐是用户获取信息的两种主要方式,在贝壳也是帮助客户找到房子的主要手段,那么二者都有哪些相似和不同之处?是否可以使用同一套架构来实现?统一架构之后又能带来哪些收益呢?本文是对贝壳搜索推 ...
自然语言处理技术（NLP）在推荐系统中的应用原2017.06.29人工智能头条作者：张相於，58集团算法架构师，转转搜索推荐部负责人，负责搜索、推荐以及算法相关工作。多年来主要从事推荐系统以及机
自然语言处理技术(NLP)在推荐系统中的应用原2017.06.29人工智能头条作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索.推荐以及算法相关工作.多年来主要从事推荐系统以及机 ...
nsoutlineview 搜索_阿里巴巴搜索推荐广告三位一体的在线服务体系
最近在工作中大量使用到了淘系的在线分发服务体系,可以快速高效的实现个性化内容分发,其技术架构的概览在这里分享给大家. AI·OS(Artificial Intelligence Online Serv ...
干货 | Elasticsearch 可搜索快照深入详解
0.可搜索快照认知前提 Elasticsearch 可搜索快照是 7.10 版本才有的新功能,之前呼声非常高. Elastic 官方网站用一整页面介绍,可见对该功能的重视. https://www.e ...
es 搜索推荐：Suggest
搜索推荐:Suggest 概述搜索一般都会要求具有"搜索推荐"或者叫"搜索补全"的功能,即在用户输入搜索的过程中,进行自动补全或者纠错.以此来提高搜索文档的匹 ...
03 ElasticSearch笔记-搜索技术深入与集群架构原理
回顾: 1.通过term 和 match查询数据时细节点以及数据类型keyword与text区别 1.1 term查询 1.1.1 term查询keyword字段. term不会分词.而keyword ...
淘宝千人千面背后的秘密：搜索推荐广告三位一体的在线服务体系AI·OS
简介:揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践. 作者:阿里巴巴搜索推荐事业部高级研究员沈加翔一.三位一体的在线服务体系AI·OS介绍 AI·OS(Art ...

【手把手】ElasticSearch的搜索推荐相关

term suggester

phrase suggester

completion suggester

context suggester

【手把手】ElasticSearch的搜索推荐相关相关推荐

最新文章

热门文章