我们在学习es过程中,难免会遇到一些们在学习es过程中,难免会遇到一些中国英文混合文档

这时我们如果使用ik ,虽然可以把英文分词,但是处理不了停用词(and ,is这种的),还有无法提取主干信息

比如 无法把students 提取为student 等

正常的是这样的:

解决,可以通过自定义分析器(analyzer)

分析器(无论是内置的还是自定义的)只是一个包,其中包含三个较低级别的构建块:tokenizer,filter和character filter

可以理解为这样:

analyzer : {
                tokenizer(1个)

filter(0-到多个)

characterfilter(0-多个)
            }

下边是我的分析器

PUT /myanalyaz

{"settings": {"analysis": {"filter": {"german_stop": {"type":       "stop","stopwords_path":"analysis/stop.txt"},"german_stemmer": {"type":       "stemmer","language":   "light_english"}},"analyzer" : {"my_analyzer" : {"tokenizer" : "ik_smart","filter" : ["lowercase","german_stop","german_stemmer"]}}}}
}

停止词文件内容:(一定要放到es 的config下)

前边两个标识,所有的英文和德文停止词,后边的自定义

测试

可以发现中文分词成功,students 也被提取主干了,停止词and 也没有存储

elasticsearch 处理中英文混合文档相关推荐

  1. ElasticSearch:为中文分词器增加对英文的支持(让中文分词器可以处理中英文混合文档)(转)

    本文地址,需转载请注明出处: http://blog.csdn.net/hereiskxm/article/details/47441911 当我们使用中文分词器的时候,其实也希望它能够支持对于英文的 ...

  2. ElasticSearch:为中文分词器增加对英文的支持(让中文分词器可以处理中英文混合文档)

    本文地址,需转载请注明出处: http://blog.csdn.net/hereiskxm/article/details/47441911 当我们使用中文分词器的时候,其实也希望它能够支持对于英文的 ...

  3. ElasticSearch修改和删除文档

    ElasticSearch修改和删除文档 修改文档方式一:使用prepareUpdate,prepareIndex两者选其一皆可 client.prepareUpdate("blog2&qu ...

  4. 详细描述一下 Elasticsearch 更新和删除文档的过程。

    1.删除和更新也都是写操作,但是 Elasticsearch 中的文档是不可变的,因此不能被删除或者改动以展示其变更. 2.磁盘上的每个段都有一个相应的.del 文件.当删除请求发送后,文档并没有真的 ...

  5. elasticsearch 第五篇(文档操作接口)

    INDEX API 示例: 1 2 3 4 5 PUT /test/user/1 { "name": "silence", "age": 2 ...

  6. php elasticsearch 获取索引所有文档_Elasticsearch客户端主要方法的使用规则

    安装 1.在 composer.json 文件中引入 elasticsearch-php: { "require": { "elasticsearch/elasticse ...

  7. Elasticsearch 为什么会产生文档版本冲突?如何避免?

    1.Elasticsearch 版本冲突复现 先让大家直观的看到 Elasticsearch 文档版本冲突. 1.1 场景1:create 场景 DELETE my-index-000001 # 执行 ...

  8. ElasticSearch获取多个文档Multi GET API介绍

    #■同时获取多个文档信息 #■例子:获职index:bank和shakespeare下面 #. I0为1.2.3.4.15.6.28的文档信息 GET /bank/bank_account/1 GET ...

  9. 【Elasticsearch】java 操作 Elasticsearch 7.8 索引 文档 等操作

    本文为博主九师兄(QQ:541711153 欢迎来探讨技术)原创文章,未经允许博主不允许转载.有问题可以先私聊我,本人每天都在线,会帮助需要的人. 文章目录 1.概述 2. 案例 2.1 引入依赖 2 ...

最新文章

  1. xml file too big to import to wordpress website
  2. 我是如何组织“算法刻意练习活动”的?
  3. 协程、asyncio、异步编程
  4. 【阿里云 Linux 服务器】在阿里云购买的 Linux 或者 Windows 服务器,在用 putty 访问的时候不知道用户名密码怎么办?
  5. Git和Github简单教程
  6. 安装 Microsoft Command Line Utilities
  7. MOSS 2007基础:内容类型(Content Type)之二
  8. 独立事件、笛卡尔积与矩阵向量乘法
  9. linux中通用GPIO接口的操作
  10. 【从C到C++学习笔记】内联成员函数/成员函数重载及缺省参数
  11. shell脚本编写笔记
  12. ubuntu设置虚拟显示器且远程连接
  13. java面试题--算法集锦(建议收藏)
  14. 经典莱斯康混响插件LX480 Complete限时43%OFF
  15. 第四方支付跟第三方支付的区别,支付源码有什么用
  16. 关于VS2019调试问题:进程已退出,代码为-1073741819(已解决)
  17. cad图层置顶的lisp_cad中的底图老置顶,如何让它永久置底?
  18. Oracle EBS DBA培训提纲
  19. IR2110自举电容充电原理
  20. html访问手机文件系统,eMMC真能优化成UFS?谈谈手机闪存的文件系统

热门文章

  1. C语言scanf注意点
  2. HTML调用PC摄像头【申明:来源于网络】
  3. linux matlab 中文论坛,Linux中Matlab中文乱码问题解决方案
  4. 脉冲雷达数据采集基础
  5. DFS(深度优先搜索)---迷宫(洛谷)----SCAU_LEO
  6. 云手机服务器系统,云手机主板 私有云手机系统 私有云手机平台 云手机服务器...
  7. emc存储设备型号_EMC-AX4存储配置
  8. shopify api php 开发,Shopify 脚本 API 参考
  9. 网厨管理java_点菜网---Java开源生鲜电商平台-技术选型(源码可下载)
  10. PHPMySQL图片上传及管理