ElasticSearch之term vector
Termvector会获取document中的某个field内的各个term的统计信息。
一 term的基本信息
# term_freq:在在该字段中的频率
# position:词在该字段中的位置
# start_offset:从什么偏移量开始的
# end_offset: 到什么偏移量结束
二 term的统计信息
如果启用了term的统计信息,即term_statistics设为true,那么有哪些统计信息呢?
# doc_freq: 该词在文档中出现的频率
# ttf:total term frequency的缩写,一个term在所有document中出现的频率
三 字段的统计信息
如果启用了字段统计信息,即field_statistics设为true,那么有哪些统计信息呢?
# sum_doc_freq: 一个字段中所有term的文档频率之和
# doc_count: 有多少个文档包含这个字段
# sum_ttf:sum total term frequency的缩写,一个字段中的每一个term的在所有文档出现之和
term statistics和field statistics并不精准,不会被考虑有的doc可能被删除了
四 采集term信息的方式
采集term信息的方式有两种:index-time 和 query-time
4.1 index-time方式
需要在mapping配置一下,然后建立索引的时候,就直接生成这些词条和文档的统计信息
PUT /website{"mappings": {"article":{"properties":{"text":{"type": "text","term_vector": "with_positions_offsets","store": "true","analyzer" : "fulltext"}}}},"settings": {"analysis": {"analyzer": {"fulltext":{"type": "custom","tokenizer": "whitespace","filter": ["lowercase","type_as_payload"]}}}}}
4.2 query-time方式
即之前没有在mapping里配置过,而是通过查询的方式产生这些统计信息
POST /ecommerce/music/1/_termvectors{"fields":["desc"],"offsets":true,"payloads":true,"positions":true,"term_statistics":true,"field_statistics" : true}
五 手动指定analyzer来生成termvector
我么可以通过指定per_field_analyzer设置一个分词器对该字段文本进行分词。
POST /ecommerce/music/1/_termvectors{"fields":["desc"],"offsets":true,"payloads":true,"positions":true,"term_statistics":true,"field_statistics" : true,"per_field_analyzer":{"text":"standard"}}
六 过滤term的统计信息
我们可以根据term的统计信息,过滤出我么想看的统计结果,比如过滤掉一些出现频率过低的term,比如我要过滤出该字段最多只有10个term,而且那些term在该字段中出现的频率为2.
POST /ecommerce/music/1/_termvectors{"fields":["desc"],"offsets":true,"payloads":true,"positions":true,"term_statistics":true,"field_statistics" : true,"filter":{"max_num_terms":10,"min_term_freq" : 2,"min_doc_freq" : 1}}
ElasticSearch之term vector相关推荐
- Elasticsearch term vector
Elasticsearch term vector 一. 概念 二. term vector数据的出现时机 三. 数据探查 3.1 最基本的数据探查 3.2 探查指定term的term vector ...
- ElasticSearch教程——基于term vector深入探查数据的情况
ElasticSearch汇总请查看:ElasticSearch教程--汇总篇 一.term vector介绍 获取document中的某个field内的各个term的统计信息. 1.term的基本信 ...
- 【ElasticSearch】ElasticSearch immense term错误
1.概述 ElasticSearch immense term错误 在使用ElasticSearch的过程中遇到了一个immense term的异常报错,调研了一下出现的原因,又学习到些新东西,见到记 ...
- Elasticsearch实战 | term: xxx was completely eliminated by analyzer
Elasticsearch实战 | term: xxx was completely eliminated by analyzer 1. 前言 2. 详细报错 3. 解决 1. 前言 本博文浅记一个小 ...
- Elasticsearch学习---Term query和Match query
前言 在Elasticsearch中Term query和Match query都可以用来对文档中的数据进行检索,但是在检索结果上会稍有不同,本文通过案例对两者的差异进行说明. 数据准备 建立一个索引 ...
- Elasticsearch 避免term对text字段使用查询
Elasticsearch 避免term对text字段使用查询 起源: 使用term查询Elasticserach中province字段为北京市的文档.term查询对text字段使用,结果为空. # ...
- ElasticSearch immense term错误
参考 http://rockybean.info/2015/02/09/elasticsearch-immense-term-exception ElasticSearch immense term错 ...
- (ElasticSearch)关于term搜索不到指定数据的问题
一.问题描述: 为什么term搜索"狂"有数据,而"狂神"没有呢? 二.情况描述: mapping如下: 三.分析 分词器刚开始就会把你的狂神拆分成了狂和神,t ...
- elasticsearch中term与match
分词器.字符串类型.倒排索引 在说term和match之前,需要先了解一下这三个概念 分词器 es默认的分词器是standard analyzer,该分词器的特点是:将所有英文字符串的大写字母转换成小 ...
最新文章
- css y轴溢出滚动条,x轴溢出显示
- 御剑情缘服务器维护,御剑情缘7月27日更新维护内容及活动详解介绍
- JAVA中list.contains()方法,要重写equals(),hashcode()方法
- AccuREST Stub Runner发布
- PropertyGrid 控件使用方法
- Python应用实战-LUX在pandas中智能可视化分析
- Lintcode 51.上一个排列[Medium]
- linux目录蓝色,前言linux系统默认目录颜色是蓝色的,在黑背景下看不清楚,可以通过以下2种方法修改ls查看的颜色。方法:1、拷贝/etc/DIR_COLORS文件为...
- 植物大战僵尸的java源代码_植物大战僵尸java源码
- ECharts绘制中国地图、广西地图
- excel做ns流程图_NS流程图是什么图?用这款软件轻松画NS流程图
- 达州中学高考2021成绩查询,2020达州高考成绩揭晓,恭喜恭喜!另附成绩统计表...
- 2021计算机考研科目时间表,2021计算机考研科目408有哪些?
- element+后台管理系统数据导出为excel+进度条导出
- 轮询查找连接电脑设备IP地址
- BuddyPress
- 晨曦记账本收支图表的查看方式
- 超级搜索 v1.0.1(附带 插件开发模板)
- lower/upper_bound
- AFLA深度学习外观检测自学习人工智能软件
热门文章
- map分组后取前10个_hive中分组取前N个值的实现
- php框架大全图解_PHP框架汇总 - 鱼煎的个人空间 - OSCHINA - 中文开源技术交流社区...
- mysql 子查询代替_MySQL查询优化:用子查询代替非主键连接查询
- Visual Studio 2019报4996错误的解决办法
- php链接文字变色,Linux_不断变色的文字,不断变色的文字效果,漂亮而 - phpStudy...
- 按量收费云盘_如何自动同步财务系统数据至云盘分享?
- 高考填报志愿计算机操作技巧,填报高考志愿技巧和方法有哪些
- idea修改完jdbc文件后没有更新_JDBC+MySQL入门案例
- hdc mfc 画扇形图_canvas画扇形、饼图
- 解决docker中运行scrapy使用chrome selenium报错InvalidSessionIdException: Message: invalid session id