热更新在上一节《

IK分词器配置文件讲解以及自定义词库》自定义词库,每次都是在es的扩展词典中,手动添加新词语,很坑

(1)每次添加完,都要重启es才能生效,非常麻烦

(2)es是分布式的,可能有数百个节点,你不能每次都一个一个节点上面去修改

es不停机,直接我们在外部某个地方添加新的词语,es中立即热加载到这些新词语

热更新的方案(1)修改ik分词器源码,然后手动支持从mysql中每隔一定时间,自动加载新的词库

(2)基于ik分词器原生支持的热更新方案,部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新

用第一种方案,第二种,ik git社区官方都不建议采用,觉得不太稳定

1、下载源码

https://github.com/medcl/elasticsearch-analysis-ik/tree/v5.2.0

ik分词器,是个标准的java maven工程,直接导入eclipse就可以看到源码

2、修改源码

Dictionary单例类的初始化方法initial,在这里需要创建一个我们自定义的线程,并且启动它

/**

* 词典初始化 由于IK Analyzer的词典采用Dictionary类的静态方法进行词典初始化

* 只有当Dictionary类被实际调用时,才会开始载入词典, 这将延长首次分词操作的时间 该方法提供了一个在应用加载阶段就初始化字典的手段

*

* @return Dictionary

*/

public static synchronized Dictionary initial(Configuration cfg) {

if (singleton == null) {

synchronized (Dictionary.class) {

if (singleton == null) {

singleton = new Dictionary(cfg);

singleton.loadMainDict();

singleton.loadSurnameDict();

singleton.loadQuantifierDict();

singleton.loadSuffixDict();

singleton.loadPrepDict();

singleton.loadStopWordDict();

new Thread(new HotDictReloadThread()).start();

if(cfg.isEnableRemoteDict()){

// 建立监控线程

for (String location : singleton.getRemoteExtDictionarys()) {

// 10 秒是初始延迟可以修改的 60是间隔时间 单位秒

pool.scheduleAtFixedRate(new Monitor(location), 10, 60, TimeUnit.SECONDS);

}

for (String location : singleton.getRemoteExtStopWordDictionarys()) {

pool.scheduleAtFixedRate(new Monitor(location), 10, 60, TimeUnit.SECONDS);

}

}

return singleton;

}

}

}

return singleton;

}HotDictReloadThread类:就是死循环,不断调用Dictionary.getSingleton().reLoadMainDict(),去重新加载词典

public class HotDictReloadThread implements Runnable {

private static final Logger logger = ESLoggerFactory.getLogger(HotDictReloadThread.class.getName());

@Override

public void run() {

while(true) {

logger.info("[==========]reload hot dict from mysql......");

Dictionary.getSingleton().reLoadMainDict();

}

}

}Dictionary类:更新词典 this.loadMySQLExtDict()

/**

* 加载主词典及扩展词典

*/

private void loadMainDict() {

// 建立一个主词典实例

_MainDict = new DictSegment((char) 0);

// 读取主词典文件

Path file = PathUtils.get(getDictRoot(), Dictionary.PATH_DIC_MAIN);

InputStream is = null;

try {

is = new FileInputStream(file.toFile());

} catch (FileNotFoundException e) {

logger.error(e.getMessage(), e);

}

try {

BufferedReader br = new BufferedReader(new InputStreamReader(is, "UTF-8"), 512);

String theWord = null;

do {

theWord = br.readLine();

if (theWord != null && !"".equals(theWord.trim())) {

_MainDict.fillSegment(theWord.trim().toCharArray());

}

} while (theWord != null);

} catch (IOException e) {

logger.error("ik-analyzer", e);

} finally {

try {

if (is != null) {

is.close();

is = null;

}

} catch (IOException e) {

logger.error("ik-analyzer", e);

}

}

// 加载扩展词典

this.loadExtDict();

// 加载远程自定义词库

this.loadRemoteExtDict();

// 从mysql加载词典

this.loadMySQLExtDict();

}

/**

* 从mysql加载热更新词典

*/

private void loadMySQLExtDict() {

Connection conn = null;

Statement stmt = null;

ResultSet rs = null;

try {

Path file = PathUtils.get(getDictRoot(), "jdbc-reload.properties");

prop.load(new FileInputStream(file.toFile()));

logger.info("[==========]jdbc-reload.properties");

for(Object key : prop.keySet()) {

logger.info("[==========]" + key + "=" + prop.getProperty(String.valueOf(key)));

}

logger.info("[==========]query hot dict from mysql, " + prop.getProperty("jdbc.reload.sql") + "......");

conn = DriverManager.getConnection(

prop.getProperty("jdbc.url"),

prop.getProperty("jdbc.user"),

prop.getProperty("jdbc.password"));

stmt = conn.createStatement();

rs = stmt.executeQuery(prop.getProperty("jdbc.reload.sql"));

while(rs.next()) {

String theWord = rs.getString("word");

logger.info("[==========]hot word from mysql: " + theWord);

_MainDict.fillSegment(theWord.trim().toCharArray());

}

Thread.sleep(Integer.valueOf(String.valueOf(prop.get("jdbc.reload.interval"))));

} catch (Exception e) {

logger.error("erorr", e);

} finally {

if(rs != null) {

try {

rs.close();

} catch (SQLException e) {

logger.error("error", e);

}

}

if(stmt != null) {

try {

stmt.close();

} catch (SQLException e) {

logger.error("error", e);

}

}

if(conn != null) {

try {

conn.close();

} catch (SQLException e) {

logger.error("error", e);

}

}

}

}

Dictionary类:更新分词 this.loadMySQLStopwordDict();

/**

* 从mysql加载停用词

*/

private void loadMySQLStopwordDict() {

Connection conn = null;

Statement stmt = null;

ResultSet rs = null;

try {

Path file = PathUtils.get(getDictRoot(), "jdbc-reload.properties");

prop.load(new FileInputStream(file.toFile()));

logger.info("[==========]jdbc-reload.properties");

for(Object key : prop.keySet()) {

logger.info("[==========]" + key + "=" + prop.getProperty(String.valueOf(key)));

}

logger.info("[==========]query hot stopword dict from mysql, " + prop.getProperty("jdbc.reload.stopword.sql") + "......");

conn = DriverManager.getConnection(

prop.getProperty("jdbc.url"),

prop.getProperty("jdbc.user"),

prop.getProperty("jdbc.password"));

stmt = conn.createStatement();

rs = stmt.executeQuery(prop.getProperty("jdbc.reload.stopword.sql"));

while(rs.next()) {

String theWord = rs.getString("word");

logger.info("[==========]hot stopword from mysql: " + theWord);

_StopWords.fillSegment(theWord.trim().toCharArray());

}

Thread.sleep(Integer.valueOf(String.valueOf(prop.get("jdbc.reload.interval"))));

} catch (Exception e) {

logger.error("erorr", e);

} finally {

if(rs != null) {

try {

rs.close();

} catch (SQLException e) {

logger.error("error", e);

}

}

if(stmt != null) {

try {

stmt.close();

} catch (SQLException e) {

logger.error("error", e);

}

}

if(conn != null) {

try {

conn.close();

} catch (SQLException e) {

logger.error("error", e);

}

}

}

}配置

jdbc.url=jdbc:mysql://localhost:3306/test?serverTimezone=GMT

jdbc.user=root

jdbc.password=root

jdbc.reload.sql=select word from hot_words

jdbc.reload.stopword.sql=select stopword as word from hot_stopwords

jdbc.reload.interval=1000

3、mvn package打包代码

target\releases\elasticsearch-analysis-ik-5.2.0.zip

4、解压缩ik压缩包

将mysql驱动jar,放入ik的目录下

5、重启es

6、在mysql中添加词库与停用词

7、kibana分词验证

GET /my_index/_analyze

{

"text": "一人饮酒醉",

"analyzer": "ik_max_word"

}

{

"tokens": [

{

"token": "一人饮酒醉",

"start_offset": 0,

"end_offset": 5,

"type": "CN_WORD",

"position": 0

},

{

"token": "一人",

"start_offset": 0,

"end_offset": 2,

"type": "CN_WORD",

"position": 1

},

{

"token": "一",

"start_offset": 0,

"end_offset": 1,

"type": "TYPE_CNUM",

"position": 2

},

{

"token": "人",

"start_offset": 1,

"end_offset": 2,

"type": "COUNT",

"position": 3

},

{

"token": "饮酒",

"start_offset": 2,

"end_offset": 4,

"type": "CN_WORD",

"position": 4

},

{

"token": "饮",

"start_offset": 2,

"end_offset": 3,

"type": "CN_WORD",

"position": 5

},

{

"token": "酒醉",

"start_offset": 3,

"end_offset": 5,

"type": "CN_WORD",

"position": 6

},

{

"token": "酒",

"start_offset": 3,

"end_offset": 4,

"type": "CN_WORD",

"position": 7

},

{

"token": "醉",

"start_offset": 4,

"end_offset": 5,

"type": "CN_WORD",

"position": 8

}

]

}

ik mysql热加载分词_Elasticsearch 之(25)重写IK分词器源码来基于mysql热更新词库...相关推荐

  1. 31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库

    31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boo ...

  2. es ik分词热更新MySQL,ElasticSearch(25)- 改IK分词器源码来基于mysql热更新词库

    代码地址 已经修改过的支持定期从数据库中提取新词库,来实现热更新.代码: https://github.com/csy512889371/learndemo/tree/master/elasticse ...

  3. Elasticsearch7.15.2 修改IK分词器源码实现基于MySql8的词库热更新

    文章目录 一.源码分析 1. 默认热更新 2. 热更新分析 3. 方法分析 二.词库热更新 2.1. 导入依赖 2.2. 数据库 2.3. JDBC 配置 2.4. 打包配置 2.5. 权限策略 2. ...

  4. mysql怎么加载bak文件_bak是什么文件格式,bak文件怎么打开? mysql 在服务器里备份(直接拷贝数据文件)-宝商在线...

    .bak是备份文件,为文件格式扩展名,这类文件一般在.bak前面加上应该有原来的扩展名比如windows.dll.bak,或是windows_dll.bak,有的则是由原文件的后缀名和bak混合而成, ...

  5. 【JavaScript】DOM和事件简介和文档加载流程以及DOM查询(上)案例(附源码)

  6. VC++如何将rc资源中的图片加载到MFC的CImage对象中(附源码)

    VC++常用功能开发汇总(专栏文章列表,欢迎订阅,持续更新...)https://blog.csdn.net/chenlycly/article/details/124272585C++软件异常排查从 ...

  7. es修改IK分词器源码 mysql热词动态更新(报错解决x3)

    最近在公司遇到的一个问题,给elasticsearch配置ik热部署mysql词库. 我是参照下面这个博客来做的 https://www.cnblogs.com/xiaoxiaoliu/p/11218 ...

  8. 为什么 NGINX 的 reload 命令不是热加载?

    这段时间在 Reddit 看到一个讨论,为什么 NGINX 不支持热加载?乍看之下很反常识,作为世界第一大 Web 服务器,不支持热加载?难道大家都在使用的 nginx -s reload 命令都用错 ...

  9. java编写hot_类的热加载(Hot Deployment)的简单例子

    应用服务器一般都支持热部署(Hot Deployment),更新代码时把新编译的确类 替换旧的就行,后面的程序就执行新类中的代码.这也是由各种应用服务器的独 有的类加载器层次实现的.那如何在我们的程序 ...

最新文章

  1. c语言会出现fullgc,以上述代码为基础,在发生过一次FullGC后,上述代码在He
  2. 算法分析 载货问题_协会发布 | 汽车市场走势分析及2021年预测报告
  3. 关于GPU-driver for linux的资料
  4. Intellij IDEA常用配置详解
  5. H3C 路由器配置console密码登录[学习]
  6. 《数据库系统实训》实验报告——函数的应用
  7. 软件工程概论 课堂练习 第2次作业5【顺序图思考题——绘制手机拨号顺序图】
  8. html业内响应,html5页面
  9. bk3432开发的应用实例_SpringCloud应用在Kubernetes上的最佳实践—诊断(线上联调)...
  10. Python数据分析第二周总结
  11. Ext.grid.EditorGridPanel使用方法
  12. 新型养老机构的“智安”神器 | ​钛颐康智慧养老物联网平台
  13. Appium+python自动化(二十一)- 让猴子按你指令大闹手机,让我们都成为耍猴高手(超详解)...
  14. C++ 重载操作符 <<实现模拟输出语句: cout << endl;
  15. NB-IoT低功耗技术与寻呼
  16. 【human nature】:马云的故事
  17. 看雪3万课程笔记-FRIDA高级API实用方法:Frida Hook Java(一)
  18. Python数据分析库:Pandas
  19. 爱码物联SaaS一物一码_化妆品二维码防伪溯源系统
  20. crontab定时脚本常见报错

热门文章

  1. 95. Leetcode 1049. 最后一块石头的重量 II (动态规划-背包问题)
  2. 7-spark学习笔记-spark性能调优
  3. pytorch 学习笔记:nn.Sequential构造神经网络
  4. 文巾解题 1556. 千位分隔数
  5. 深入Python(2): __init__.py 用法
  6. 使用 labelImg 制作YOLO系列目标检测数据集(.xml文件)
  7. Python入门100题 | 第077题
  8. Python看程序执行时间(time模块)
  9. 【机器学习算法-python实现】矩阵去噪以及归一化
  10. day14 集合与函数