Termvector会获取document中的某个field内的各个term的统计信息。

一 term的基本信息

# term_freq:在在该字段中的频率

# position:词在该字段中的位置

# start_offset:从什么偏移量开始的

# end_offset: 到什么偏移量结束

二 term的统计信息

如果启用了term的统计信息,即term_statistics设为true,那么有哪些统计信息呢?

# doc_freq: 该词在文档中出现的频率

# ttf:total term frequency的缩写,一个term在所有document中出现的频率

三 字段的统计信息

如果启用了字段统计信息,即field_statistics设为true,那么有哪些统计信息呢?

# sum_doc_freq: 一个字段中所有term的文档频率之和

# doc_count: 有多少个文档包含这个字段

# sum_ttf:sum total term frequency的缩写,一个字段中的每一个term的在所有文档出现之和

term statistics和field statistics并不精准,不会被考虑有的doc可能被删除了

四 采集term信息的方式

采集term信息的方式有两种:index-time 和 query-time

4.1 index-time方式

需要在mapping配置一下,然后建立索引的时候,就直接生成这些词条和文档的统计信息

PUT /website{"mappings": {"article":{"properties":{"text":{"type": "text","term_vector": "with_positions_offsets","store": "true","analyzer" : "fulltext"}}}},"settings": {"analysis": {"analyzer": {"fulltext":{"type": "custom","tokenizer": "whitespace","filter": ["lowercase","type_as_payload"]}}}}}

4.2 query-time方式

即之前没有在mapping里配置过,而是通过查询的方式产生这些统计信息

POST /ecommerce/music/1/_termvectors{"fields":["desc"],"offsets":true,"payloads":true,"positions":true,"term_statistics":true,"field_statistics" : true}

五 手动指定analyzer来生成termvector

我么可以通过指定per_field_analyzer设置一个分词器对该字段文本进行分词。

POST /ecommerce/music/1/_termvectors{"fields":["desc"],"offsets":true,"payloads":true,"positions":true,"term_statistics":true,"field_statistics" : true,"per_field_analyzer":{"text":"standard"}}

六 过滤term的统计信息

我们可以根据term的统计信息,过滤出我么想看的统计结果,比如过滤掉一些出现频率过低的term,比如我要过滤出该字段最多只有10个term,而且那些term在该字段中出现的频率为2.

POST /ecommerce/music/1/_termvectors{"fields":["desc"],"offsets":true,"payloads":true,"positions":true,"term_statistics":true,"field_statistics" : true,"filter":{"max_num_terms":10,"min_term_freq" : 2,"min_doc_freq" : 1}}

ElasticSearch之term vector相关推荐

  1. Elasticsearch term vector

    Elasticsearch term vector 一. 概念 二. term vector数据的出现时机 三. 数据探查 3.1 最基本的数据探查 3.2 探查指定term的term vector ...

  2. ElasticSearch教程——基于term vector深入探查数据的情况

    ElasticSearch汇总请查看:ElasticSearch教程--汇总篇 一.term vector介绍 获取document中的某个field内的各个term的统计信息. 1.term的基本信 ...

  3. 【ElasticSearch】ElasticSearch immense term错误

    1.概述 ElasticSearch immense term错误 在使用ElasticSearch的过程中遇到了一个immense term的异常报错,调研了一下出现的原因,又学习到些新东西,见到记 ...

  4. Elasticsearch实战 | term: xxx was completely eliminated by analyzer

    Elasticsearch实战 | term: xxx was completely eliminated by analyzer 1. 前言 2. 详细报错 3. 解决 1. 前言 本博文浅记一个小 ...

  5. Elasticsearch学习---Term query和Match query

    前言 在Elasticsearch中Term query和Match query都可以用来对文档中的数据进行检索,但是在检索结果上会稍有不同,本文通过案例对两者的差异进行说明. 数据准备 建立一个索引 ...

  6. Elasticsearch 避免term对text字段使用查询

    Elasticsearch 避免term对text字段使用查询 起源: 使用term查询Elasticserach中province字段为北京市的文档.term查询对text字段使用,结果为空. # ...

  7. ElasticSearch immense term错误

    参考 http://rockybean.info/2015/02/09/elasticsearch-immense-term-exception ElasticSearch immense term错 ...

  8. (ElasticSearch)关于term搜索不到指定数据的问题

    一.问题描述: 为什么term搜索"狂"有数据,而"狂神"没有呢? 二.情况描述: mapping如下: 三.分析 分词器刚开始就会把你的狂神拆分成了狂和神,t ...

  9. elasticsearch中term与match

    分词器.字符串类型.倒排索引 在说term和match之前,需要先了解一下这三个概念 分词器 es默认的分词器是standard analyzer,该分词器的特点是:将所有英文字符串的大写字母转换成小 ...

最新文章

  1. css y轴溢出滚动条,x轴溢出显示
  2. 御剑情缘服务器维护,御剑情缘7月27日更新维护内容及活动详解介绍
  3. JAVA中list.contains()方法,要重写equals(),hashcode()方法
  4. AccuREST Stub Runner发布
  5. PropertyGrid 控件使用方法
  6. Python应用实战-LUX在pandas中智能可视化分析
  7. Lintcode 51.上一个排列[Medium]
  8. linux目录蓝色,前言linux系统默认目录颜色是蓝色的,在黑背景下看不清楚,可以通过以下2种方法修改ls查看的颜色。方法:1、拷贝/etc/DIR_COLORS文件为...
  9. 植物大战僵尸的java源代码_植物大战僵尸java源码
  10. ECharts绘制中国地图、广西地图
  11. excel做ns流程图_NS流程图是什么图?用这款软件轻松画NS流程图
  12. 达州中学高考2021成绩查询,2020达州高考成绩揭晓,恭喜恭喜!另附成绩统计表...
  13. 2021计算机考研科目时间表,2021计算机考研科目408有哪些?
  14. element+后台管理系统数据导出为excel+进度条导出
  15. 轮询查找连接电脑设备IP地址
  16. BuddyPress
  17. 晨曦记账本收支图表的查看方式
  18. 超级搜索 v1.0.1(附带 插件开发模板)
  19. lower/upper_bound
  20. AFLA深度学习外观检测自学习人工智能软件

热门文章

  1. map分组后取前10个_hive中分组取前N个值的实现
  2. php框架大全图解_PHP框架汇总 - 鱼煎的个人空间 - OSCHINA - 中文开源技术交流社区...
  3. mysql 子查询代替_MySQL查询优化:用子查询代替非主键连接查询
  4. Visual Studio 2019报4996错误的解决办法
  5. php链接文字变色,Linux_不断变色的文字,不断变色的文字效果,漂亮而 - phpStudy...
  6. 按量收费云盘_如何自动同步财务系统数据至云盘分享?
  7. 高考填报志愿计算机操作技巧,填报高考志愿技巧和方法有哪些
  8. idea修改完jdbc文件后没有更新_JDBC+MySQL入门案例
  9. hdc mfc 画扇形图_canvas画扇形、饼图
  10. 解决docker中运行scrapy使用chrome selenium报错InvalidSessionIdException: Message: invalid session id