ES学习记录10.2——ES分析器3(标记过滤器)

作为分析器三大组成部分的另一部分，标记过滤器(token filters)是非必要的。token filters从标记生成器tokenizer那里接受标记输入流，可以用来修改(如将术语转成小写)、删除(如移除段词)或添加(如同义词)token。ES提供给了很多内置的标记过滤器，这些标记过滤器可以在自定义的分析器中使用。

1. 标准标记过滤器(Standard Token Filter)

standard标记过滤器标准化使用标准标记生成器提取的标记。目前standard标记过滤器啥事儿都没干，如果需要在将来的版本中添加某些过滤功能，它仍然是占位符。

2. ASCII码折叠标记过滤器(ASCII Folding Token Filter)

这标记过滤器名字翻译的怪怪的，asciifolding过滤器将ASCII码不在ASCII表前127内的字母、数字和Unicode符号转换为ASCII等效字符(如果存在的话)。比如：

curl -X PUT "localhost:9200/asciifold_example" -H 'Content-Type: application/json' -d'
{"settings" : {"analysis" : {"analyzer" : {"default" : {"tokenizer" : "standard","filter" : ["standard", "asciifolding"]}}}}
}
'

asciifolding过滤器是可配置的，可接受的参数有：

preserve_original：表示是否保留原始标记以及输出折叠的标记，默认为false；

下面是栗子：

curl -X PUT "localhost:9200/asciifold_example" -H 'Content-Type: application/json' -d'
{"settings" : {"analysis" : {"analyzer" : {"default" : {"tokenizer" : "standard","filter" : ["standard", "my_ascii_folding"]}},"filter" : {"my_ascii_folding" : {"type" : "asciifolding","preserve_original" : true}}}}
}
'

在将preserve_original设置为false后，然后分析文本١٢٣٤٥时并没有转换成相应的ASCII码，返回来的标记还是١٢٣٤٥(待解决)。

3. Flatten Graph Token Filter

注：Lucene中将Flatten Graph Token Filter标记为实验性功能。

4. 长度标记过滤器(Length Token Filter)

length标记过滤器会移除token流中太长或太短的标记，它是可配置的，接受的参数有：

min：表示最小数值，默认为0；
max：表示最大数值，默认为Integer.MAX_VALUE，即2147483647（2^31-1）；

5. 小写标记过滤器(Lowercase Token Filter)

lowercase标记过滤器将标记token规范化为小写，它通过language参数支持希腊语、爱尔兰语和土耳其语小写标记过滤器，下面是栗子：

curl -X PUT "localhost:9200/lowercase_example" -H 'Content-Type: application/json' -d'
{"settings": {"analysis": {// 自定义2个分析器"analyzer": {// 标准分析器"standard_lowercase_example": {"type": "custom","tokenizer": "standard","filter": ["lowercase"]},// 希腊语分析器"greek_lowercase_example": {"type": "custom","tokenizer": "standard","filter": ["greek_lowercase"]}},"filter": {"greek_lowercase": {"type": "lowercase","language": "greek"}}}}
}
'

看到这才知道索引中可以直接放分析器，而不用放文档……所以自定义的分析器的时候可以这么搞。

6. 大写标记过滤器(Uppercase Token Filter)

和lowercase类似，只是将术语转写成大写，参见上一小节。

7. NGram 标记过滤器(Ngram Token Filter)

nGram标记过滤器，可配置，接受的参数有：

min_gram：连词最小长度，默认为1；
max_gram：连词最大长度，默认为2；

索引级别可以使用index.max_ngram_diff参数控制max_gram-min_gram的最大差值，觉得有些鸡肋，如果标记生成器可以设置这些参数，还要在标记过滤器中设置个啥。

8. Edge NGram 标记过滤器(Edge Ngram Token Filter)

edgeNGram标记过滤器(只是锚定首字符)可配置，接受的参数有：

min_gram：连词的最小长度，默认为1；
max_gram：连词的最大长度，默认为2；
side：已弃用；

9. Porter Steam Token Filter

porter_stem标记过滤器根据Porter词干分析算法转换标记流。需要注意的是，给porter_stem标记过滤器的流必须已经转换成小写的，所以必须在之前使用小写标记生成器或小写标记过滤器(文档中将这个预处理操作置于Tokenizer链的下方)。比如当使用自定义的分析器时，确保lowercase标记过滤器位于过滤器列表中的porter_stem标记过滤器之前。

10. Shingle Token Filter

shingle标记过滤器将标记流构造带状，换而言之，它用单个标记创建了混合标记，比如please divide this sentence into shingles可以被标记为please divide、divide this、this sentence、sentence into和into shingles。shingle标记过滤器通过插入填充标记(使用带有下划线_的术语文本)来处理> 1的位置增量，它不处理位置增量为0的情况，这个过滤器是可配置的，接受参数有：

max_shingle_size：shingle的最大大小，默认为2；
min_shingle_size：shingle的最小大小，默认为2；
output_unigrams：表示输出是否包含输入标记以及shingles，默认为true；
output_unigrams_if_no_shingles：如果output_unigrams是false，如果没有可获取的shingles输出将会包含输入的标记(单字组)；注意如果output_unigrams是true，那output_unigrams_if_no_shingles参数设置就没有意义，默认为false；
token_separator：表示连接相邻标记以形成shingle时使用的字符串，默认为空格；
filler_token：表示用于替换流中没有实际标记的每个位置的字符串。例如，当stop过滤器与shingle过滤器一起使用时，如果位置增量大于1，则使用该参数设置的字符串，默认为_；

索引级别可设置index.max_shingle_diff参数以控制max_shingle_size和min_shingle_size两者之间的差值。

11. 段词标记过滤器(Stop Token Filter)

stop类型标记过滤器可以将段词从标记流中移除，它是可配置的，接受的参数有：

stopwords：一个包含段词的数组，默认是_english_(内置的英语段词)；
stopwords_path：一个段词配置文件的路径(（相对于ES的配置文件config的位置，或直接写成绝对路径)，每个段词应该在自己的“行”中(使用“行”进行分割)，段词配置文件必须是UTF-8编码类型；
ignore_case：设置为true以首先小写所有单词，默认为false；
remove_trailing：将其设置为false以不忽略搜索的最后一个术语(如果最后一个术语是段词的话)，这对于完整的suggester在搜索时非常有用的(即使基本移除段词，像green a还是可以被扩展为green apple的)，默认为true；

下面是栗子：

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d'
{"settings": {"analysis": {"filter": {"my_stop": {"type":       "stop","stopwords": ["and", "is", "the"]}}}}
}
'

上述是自定义了段词为and、is和the就这三个，ES也内置了很多了段词，比如_english_就是其中一种(收录了常用英语段词)，当然除此之外还有很多：_arabic_, _armenian_, _basque_, _bengali_, _brazilian_, _bulgarian_, _catalan_, _czech_, _danish_, _dutch_, _english_, _finnish_, _french_, _galician_, _german_, _greek_, _hindi_, _hungarian_, _indonesian_, _irish_, _italian_, _latvian_, _norwegian_, _persian_, _portuguese_, _romanian_, _russian_, _sorani_, _spanish_, _swedish_, _thai_, _turkish_，挑着用，如果不像移除任何段词，即为空，需要将stopwords指定为\_none_。

12. 单词分隔符标记过滤器(Word Delimiter Token Filter)

word_delimiter标记过滤器将单词拆分为子词并对子词组执行可选的转换，将单词分割为子单词需要遵守下面的原则：

直接按自带的分隔符分割(默认将所有非字母、数字字符看作分隔符，如WI-FI–>WI和FI)；
按大小写转换分割(即驼峰分割，比如PowerShot–>Power和Shot)；
按字母、数字分割(如SD500–>SD和500)；
忽略每个子字上的前导和尾随字的内分隔符(如//hello---there, dude → hello、there、dude)；
每个子词都删除尾随的's(如O’Neil’s → O、Neil)；

word_delimiter标记过滤器是可配置的，接受的参数有：

generate_word_parts：表示是否分割单词，默认为true(就是是否分割单词为子词，如PowerShot–>Power和Shot)；
generate_number_parts：表示是否分割数字，默认为true(如500-42–>500、42)；
catenate_words：表示是否将单词部件的大部分被连接(如：wi-fi–>wi、fi)，默认为false；
catenate_numbers：表示是否将数字部件的最大运行被连接(如：500-42–>50042)，默认为false；
catenate_all：表示是否将所有分割得到的子词连接起来(如："wi-fi-4000–>wifi4000)，默认为false；
split_on_case_change：表示是否在大、小写转换处分割(如PowerShot–>Power、Shot)，默认为true；
preserve_original：表示是否分割的结果是否将原始文本包含在里面(如500-42–>500、42、500-42)，默认为false；
split_on_numerics：表示是否在数字处分割(如j2se–>j、2、se)，默认为true；
stem_english_possessive：表示是否为每个子字删除尾随的's，默认为true；

高级可选参数：

protected_words：表示一个包含受保护的单词不是分隔符的列表，可以是一个数组[xx, xx]，也可以设置protected_words_path，即配置了受保护字的文件（每行一个）路径，如果存在，则自动解析为基于ES的配置文件config/的位置路径；
type_table：表示一个自定义的类型映射，比如当使用type_table_path配置时：

# Map the $, %, '.', and ',' characters to DIGIT
# This might be useful for financial data.
$ => DIGIT
% => DIGIT
. => DIGIT
\\u002C => DIGIT# in some cases you might not want to split on ZWJ
# this also tests the case where we need a bigger byte[]
# see http://en.wikipedia.org/wiki/Zero-width_joiner
\\u200D => ALPHANUM

注：当使用standard标记过滤器时可能会干扰catenate_*和preserve_original参数，因为原始的字符串可能在标记生成器中生成token的过程中丢失了标点符号，这种情况应该考虑使用whitespace标记生成器。

【注】

后续还有很多标记过滤器，用到的时候可以参考研读Token Filter。