elasticsearch 处理中英文混合文档
我们在学习es过程中,难免会遇到一些们在学习es过程中,难免会遇到一些中国英文混合文档
这时我们如果使用ik ,虽然可以把英文分词,但是处理不了停用词(and ,is这种的),还有无法提取主干信息
比如 无法把students 提取为student 等
正常的是这样的:
解决,可以通过自定义分析器(analyzer)
分析器(无论是内置的还是自定义的)只是一个包,其中包含三个较低级别的构建块:tokenizer,filter和character filter。
可以理解为这样:
analyzer : {
tokenizer(1个)
filter(0-到多个)
characterfilter(0-多个)
}
下边是我的分析器
PUT /myanalyaz
{"settings": {"analysis": {"filter": {"german_stop": {"type": "stop","stopwords_path":"analysis/stop.txt"},"german_stemmer": {"type": "stemmer","language": "light_english"}},"analyzer" : {"my_analyzer" : {"tokenizer" : "ik_smart","filter" : ["lowercase","german_stop","german_stemmer"]}}}}
}
停止词文件内容:(一定要放到es 的config下)
前边两个标识,所有的英文和德文停止词,后边的自定义
测试
可以发现中文分词成功,students 也被提取主干了,停止词and 也没有存储
elasticsearch 处理中英文混合文档相关推荐
- ElasticSearch:为中文分词器增加对英文的支持(让中文分词器可以处理中英文混合文档)(转)
本文地址,需转载请注明出处: http://blog.csdn.net/hereiskxm/article/details/47441911 当我们使用中文分词器的时候,其实也希望它能够支持对于英文的 ...
- ElasticSearch:为中文分词器增加对英文的支持(让中文分词器可以处理中英文混合文档)
本文地址,需转载请注明出处: http://blog.csdn.net/hereiskxm/article/details/47441911 当我们使用中文分词器的时候,其实也希望它能够支持对于英文的 ...
- ElasticSearch修改和删除文档
ElasticSearch修改和删除文档 修改文档方式一:使用prepareUpdate,prepareIndex两者选其一皆可 client.prepareUpdate("blog2&qu ...
- 详细描述一下 Elasticsearch 更新和删除文档的过程。
1.删除和更新也都是写操作,但是 Elasticsearch 中的文档是不可变的,因此不能被删除或者改动以展示其变更. 2.磁盘上的每个段都有一个相应的.del 文件.当删除请求发送后,文档并没有真的 ...
- elasticsearch 第五篇(文档操作接口)
INDEX API 示例: 1 2 3 4 5 PUT /test/user/1 { "name": "silence", "age": 2 ...
- php elasticsearch 获取索引所有文档_Elasticsearch客户端主要方法的使用规则
安装 1.在 composer.json 文件中引入 elasticsearch-php: { "require": { "elasticsearch/elasticse ...
- Elasticsearch 为什么会产生文档版本冲突?如何避免?
1.Elasticsearch 版本冲突复现 先让大家直观的看到 Elasticsearch 文档版本冲突. 1.1 场景1:create 场景 DELETE my-index-000001 # 执行 ...
- ElasticSearch获取多个文档Multi GET API介绍
#■同时获取多个文档信息 #■例子:获职index:bank和shakespeare下面 #. I0为1.2.3.4.15.6.28的文档信息 GET /bank/bank_account/1 GET ...
- 【Elasticsearch】java 操作 Elasticsearch 7.8 索引 文档 等操作
本文为博主九师兄(QQ:541711153 欢迎来探讨技术)原创文章,未经允许博主不允许转载.有问题可以先私聊我,本人每天都在线,会帮助需要的人. 文章目录 1.概述 2. 案例 2.1 引入依赖 2 ...
最新文章
- xml file too big to import to wordpress website
- 我是如何组织“算法刻意练习活动”的?
- 协程、asyncio、异步编程
- 【阿里云 Linux 服务器】在阿里云购买的 Linux 或者 Windows 服务器,在用 putty 访问的时候不知道用户名密码怎么办?
- Git和Github简单教程
- 安装 Microsoft Command Line Utilities
- MOSS 2007基础:内容类型(Content Type)之二
- 独立事件、笛卡尔积与矩阵向量乘法
- linux中通用GPIO接口的操作
- 【从C到C++学习笔记】内联成员函数/成员函数重载及缺省参数
- shell脚本编写笔记
- ubuntu设置虚拟显示器且远程连接
- java面试题--算法集锦(建议收藏)
- 经典莱斯康混响插件LX480 Complete限时43%OFF
- 第四方支付跟第三方支付的区别,支付源码有什么用
- 关于VS2019调试问题:进程已退出,代码为-1073741819(已解决)
- cad图层置顶的lisp_cad中的底图老置顶,如何让它永久置底?
- Oracle EBS DBA培训提纲
- IR2110自举电容充电原理
- html访问手机文件系统,eMMC真能优化成UFS?谈谈手机闪存的文件系统
热门文章
- C语言scanf注意点
- HTML调用PC摄像头【申明:来源于网络】
- linux matlab 中文论坛,Linux中Matlab中文乱码问题解决方案
- 脉冲雷达数据采集基础
- DFS(深度优先搜索)---迷宫(洛谷)----SCAU_LEO
- 云手机服务器系统,云手机主板 私有云手机系统 私有云手机平台 云手机服务器...
- emc存储设备型号_EMC-AX4存储配置
- shopify api php 开发,Shopify 脚本 API 参考
- 网厨管理java_点菜网---Java开源生鲜电商平台-技术选型(源码可下载)
- PHPMySQL图片上传及管理