【Elasticsearch】文本分析 Text analysis (1)
Text analysis 是什么
Text analysis 是将分结构化文本转化成结构化文本的过程。
触发时机
当索引或者搜索text
类型字段,就会触发文本分析。
工作流程
1.字符过滤器
字符过滤器是对原始文本的处理,比如转换文字编码,过滤网页元素等。
2.令牌生成器
令牌生成器将字符过滤器处理之后的字节流进行处理,得到令牌(tokens)。
分析器必须有且仅有一个令牌生成器。
3.令牌过滤器
令牌过滤器接收令牌生成器返回的令牌流,再做一些处理。
令牌过滤器不允许更改每个令牌的位置或字符偏移量。
分析器可能具有零个或多个按顺序应用的令牌过滤器。
参考资料
- https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis.html#analysis
【Elasticsearch】文本分析 Text analysis (1)相关推荐
- 大数据分析笔记 (6) - 文本分析 (Text Analysis)
大数据分析笔记 - 文本分析 总览 文本分析步骤 挑战 第一步:收集原始文本数据(Collecting Raw Text) 第二步:表示文本 (Representing Text) 第三步:词频-逆文 ...
- 【Elasticsearch】文本分析 Text analysis 查询_search中使用分析 (3)
内置的analyzer fingerprint 指纹分析器实现了一个指纹算法,OpenRefine项目使用该算法来协助聚类. 内部的流程为 转换小写 去掉扩展字符 排序 删除重复字符 删除配置的停止( ...
- ElasticSearch文本分析(一)
文章目录 ElasticSearch文本分析(一) 概述 分词 归一化 自定义文本分析器 概念 分析器的剖析 字符过滤器 分词器 分词过滤器 索引和查询分析 词干提取 词干提取分词过滤器 算法词干提取 ...
- Elasticsearch之分析(analysis)和分析器(analyzer)。
分析(analysis)是这样一个过程: 首先,表征化一个文本块为适用于倒排索引单独的词(term). 然后标准化这些词为标准形式,提高他们的"可搜索性"或"查全率&qu ...
- 综述:文本分析在市场营销研究中的应用
翻译自 Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweid ...
- Elasticsearch:用于内容丰富的文本分析
每个文本搜索解决方案都与其提供的文本分析功能一样强大. Lucene是这样的开源信息检索库,提供了许多文本分析的可能性. 在本文中,我们将介绍ElasticSearch提供的一些主要文本分析功能,这些 ...
- U1C1 数据挖掘与文本分析的背景与实际应用
U1C1 Background and practical applications of data mining and text analytics 一.机器学习 与 数据挖掘 (Machine ...
- 面向消费者的自动文本分析(Automated Text Analysis for Consumer Research) 2017 JCR 论文阅读
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 文章简介 Humphreys A, Jen-Hui Wang R. Automa ...
- Elasticsearch之文本分析过程
词条(term)查询和全文(fulltext)查询最大的不同之处是:全文查询首先分析(Analyze)查询字符串,使用默认的分析器分解成一系列的分词,term1,term2,termN,然后从索引中搜 ...
最新文章
- Django 错误汇总
- 天天用事务,但是你知道MySQL事务的实现原理吗?
- 3.longest substring without repeating characters
- 信号编程之sigaction函数和sigqueue函数
- GLSL实现图像处理
- mysql与jframe_java-如何在JFrame上显示从mysql检索到的图像
- [Unity] 定义 Assembly 之后还要定义 Assembly Reference
- VC2010 MFC文档类菜单快捷键无法加载问题
- Android近场通信---NFC基础(一)
- 5m独享网站服务器,您真的需要独享5m云服务器吗?一文让您了解云服务器带宽计算方法,从此不再花冤枉钱...
- 测试过程中用shell的地方_软件测试之学习shell流程控制结构
- eclipse中创建最简单的maven结构的项目
- java extjs combobox_Extjs 教程三 “combobox”
- 【油猴插件】用Tampermonkey来实现百度云满速下载和批量离线
- C#使用System.Speech制作语音提示功能。
- L1-087 机工士姆斯塔迪奥-PAT 团体程序设计天梯赛 GPLT
- Java面试题总结之数据结构、算法和计算机基础(刘小牛和丝音的爱情故事1)
- win10系统重装(无需u盘)(无需下载第三方软件)(绝对纯净版)(全网最简)
- html制作图像画廊,创建 Web 照片画廊 (Photoshop)
- 软件测试面试常见问题(1)