白话Elasticsearch61-进阶篇之基于Term Vectors深入探查数据的情况
文章目录
- 概述
- 官网
- Term information
- Term statistics
- Field statistics
- Terms filtering
- Behaviour
- 示例
- 总结
概述
继续跟中华石杉老师学习ES,第61篇
课程地址: https://www.roncoo.com/view/55
官网
Term Vectors: 戳这里
概括来说:Term Vectors就是 获取document中的某个field内的各个term的统计信息
Term information
主要包含以下几个信息: term frequency in the field, term positions, start and end offsets, term payloads
Term statistics
设置term_statistics=true 后将返回:
- total term frequency, 一个term在所有document中出现的频率;
- document frequency,有多少document包含这个term
Field statistics
- document count: 有多少document包含这个field;
- sum of document frequency:一个field中所有term的df之和;
- sum of total term frequency:一个field中的所有term的tf之和
Terms filtering
GET /my_index/my_type/_termvectors
{"doc" : {"fullname" : "Leo Li","text" : "hello test test test"},"fields" : ["text"],"offsets" : true,"payloads" : true,"positions" : true,"term_statistics" : true,"field_statistics" : true,"filter" : {"max_num_terms" : 3,"min_term_freq" : 1,"min_doc_freq" : 1}
}
这个就是说,根据term统计信息,过滤出你想要看到的term vector统计结果
也挺有用的,比如你探查数据把,可以过滤掉一些出现频率过低的term,就不考虑了 .
Behaviour
term statistics和field statistics并不精准,被删除了的doc不会被考虑.
示例
总结
其实Term Vectors很少用,用的时候,一般来说,就是你需要对一些数据做探查的时候。比如说,你想要看到某个term,某个词条比如“xxxx”,这个词条,在多少个document中出现了。或者说某个field 比如 film_desc(电影的说明信息),有多少个doc包含了这个说明信息。
白话Elasticsearch61-进阶篇之基于Term Vectors深入探查数据的情况相关推荐
- ElasticSearch教程——基于term vector深入探查数据的情况
ElasticSearch汇总请查看:ElasticSearch教程--汇总篇 一.term vector介绍 获取document中的某个field内的各个term的统计信息. 1.term的基本信 ...
- php上传和导出excel文件,(进阶篇)使用PHP导入Excel和导出数据为Excel文件
有时需要将Excel表格的数据导入到mysql数据库中,我们使用PHP的一个开源项目PHP-ExcelReader可以轻松实现Excel的导入. 1.导入XLS PHP-ExcelReader这是一个 ...
- 白话Elasticsearch01- 结构化搜索之使用term query来搜索数据
文章目录 需求描述 ES版本 _bulk 批量写几条数据 _bulk 用法 返回结果分析 字段Dynamic Mapping Dynamic Mapping 中 text类型的字段 查看分词 fiel ...
- 《 Elasticsearch顶尖高手系列:高手进阶篇(最新第二版)》面前最新
课程大纲 第1节结构化搜索_IT技术论坛案例背景介绍 9分钟 | 第2节结构化搜索_在案例中实战使用term filter来搜索数据 20分钟 | 第3节结构化搜索_filter执 ...
- Vue学习笔记进阶篇——Render函数
本文为转载,原文:Vue学习笔记进阶篇--Render函数 基础 Vue 推荐在绝大多数情况下使用 template 来创建你的 HTML.然而在一些场景中,你真的需要 JavaScript 的完全编 ...
- 大数据编程语言 Scala 进阶篇
作者:幻好 来源: 恒生LIGHT云社区 Scala 系列: 2小时速学大数据编程语言 Scala 秘籍 大数据编程语言 Scala 进阶篇 前言 为了能够深入学习大数据框架 Spark 和 Fink ...
- 基于Hexo和Github的炫酷个人博客(进阶篇)
基于Hexo和Github的炫酷个人博客(基础篇) 基于Hexo和Github的炫酷个人博客(进阶篇) 网页底部加上浏览量 打开/themes/next/layout/_partials/footer ...
- 白话Elasticsearch03- 结构化搜索之基于bool组合多个filter条件来搜索数据
文章目录 概述 数据 小示例 搜索发帖日期为2017-01-01,或者帖子ID为XHDK-A-1293-#fJ3的帖子,同时要求帖子的发帖日期绝对不为2017-01-02 搜索帖子ID为XHDK-A- ...
- 在Elasticsearch中查询Term Vectors词条向量信息
这篇文章有点深度,可能需要一些Lucene或者全文检索的背景.由于我也很久没有看过Lucene了,有些地方理解的不对还请多多指正. 更多内容还请参考整理的ELK教程 关于Term Vectors 额, ...
最新文章
- OpenCV+python:轮廓发现与对象测量
- R语言使用gt包和gtExtras包优雅地、漂亮地显示表格数据:使用gt包可视化表格数据,使其易于阅读和理解、使用gtExtras包添加一个图,显示表中某一列中的数字、并为类型数据添加图像符号标签
- 库存管理系统的开发过程!
- Python:Django开发函数笔记:
- Android NDK各版本下载
- 人生一世 什么真正的才是你的?
- 测试开发——搭建一个简单 web服务(flask框架基础)项目实战
- php 加tab键,php 生成Tab键或逗号分隔的CSV
- IE和Windows系统中的彩蛋
- 如何自学成Python大神?这份学习宝典火爆 IT 圈!
- java代码用户界面网格布局GridLayout.划分为格子区域
- Aspose.Excel模板输出中名称管理器的使用
- 350. Intersection of Two Arrays II
- MySQL 高阶语句之函数存储
- 解决python在linux上导包出现no module named ...的问题
- 怎样设定计算机屏幕锁定时间,电脑怎么调锁屏时间
- TweenMax逐帧动画
- canvas实现2019最酷炫3D特效
- PDF转图片再转长图、python、pil
- 计算机桌面变色怎么办,电脑屏幕变色了怎么办?电脑屏幕变色的六大原因及解决办法...
热门文章
- winform point数组带数值_带你学够浪:Go语言基础系列 - 8分钟学复合类型
- Leetcode 167. 两数之和 II - 输入有序数组 (每日一题 20210818)
- Adobe Auditon使用功能(一):将音频文件切分成多段,并将每段音频分别保存到不同的文件中
- Linux疑难杂症解决方案100篇(十)-带你学习提速增效的几个常用 shell 命令
- 数学建模上分利器,小论文中稿神器,赶快学习近15年来较新颖的智能优化算法!
- uni-app读取html缓存,uni-app同步缓存值 设置 读取 删除(示例代码)
- linux桌面文件夹改图标,Linux 给桌面程序设置个性化图标
- 笔记本电脑自带麦克风吗_小米电视可以唱歌吗
- 【机器学习PAI实践三】雾霾成因分析
- 企业大数据平台仓库架构建设思路