当存在某些自定义的专业名称或长词时,jieba有可能会当成多个词,但其实是一个词,自定义的方法如下:

原始的jieba效果:

import jiebaif __name__ == '__main__':sentence = "学习python与人工智能有益身体健康"ret = jieba.lcut(sentence)print(ret)

结果是:['学习', 'python', '与', '人工智能', '有益', '身体健康'],如果我们想“python与人工智能”是一整个词,那么可以:

新建一个文件my_dict.txt,写入:

python与人工智能

然后修改代码:

import jiebajieba.enable_parallel(3) # 多进程
jieba.load_userdict('my_dict.txt') # 导入自定义的切词文件
if __name__ == '__main__':sentence = "学习python与人工智能有益身体健康"ret = jieba.lcut(sentence)print(ret)

结果:['学习', 'python与人工智能', '有益', '身体健康']

jieba自定义分词规则与多进程切词相关推荐

  1. JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词

    初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 1.为什么命名有包含搜索关键词的文档,但结果里面就没有相关文档呢? 2.我存进去的文档到底被分成哪些词(ter ...

  2. es自定义分词器和分词规则

    1.analysis 和 analyzer analysis是指把全文本转换成一系列单词(term/token)的过程,也叫分词. analysis是通过分词器analyzer来实现的 2.分词 St ...

  3. 简明Jieba中文分词教程(分词、关键词提取、词性标注、计算位置)

    目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...

  4. Elasticsearch 分布式搜索引擎 -- 自动补全(拼音分词器、自定义分词器、自动补全查询、实现搜索框自动补全)

    文章目录 1. 自动补全 1.1 拼音分词器 1.2.1 自定义分词器 1.2.2 小结 1.2 自动补全 1.3 实现酒店搜索框自动补全 1.3.1 修改酒店映射结构 1.3.2 修改HotelDo ...

  5. 对中国四大名著--红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图

    文章目录 前言 一.jieba是什么? 支持四种分词模式: 支持繁体分词 支持自定义词典 MIT 授权协议 二.直接上代码了 总结 前言 今天用jieba和词云库做个作业,顺便记录一下,作业要求: 1 ...

  6. jieba中文分词组件

    目录 jieba简介 组件特点 安装方法 算法 使用jieba 分词 添加自定义词典 载入词典 调整词典 关键词提取 基于 TF-IDF 算法的关键词抽取 基于 TextRank 算法的关键词抽取 词 ...

  7. 微服务框架 SpringCloud微服务架构 27 自动补全 27.2 自定义分词器

    微服务框架 [SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务] SpringCloud微服务 ...

  8. ElasticSearch入门:ES分词器与自定义分词器

    ES入门:ES分词器与自定义分词器 分词器的简单介绍 不同分词器的效果对比 自定义分词器的应用 分词器的简单介绍 分词器是es中的一个组件,通俗意义上理解,就是将一段文本按照一定的逻辑,分析成多个词语 ...

  9. ElasticSearch 自定义分词器Analyzer示例

    一.前提概述 接下来定义一个index,并在该index中使用自定义分词器. 假设在ES中有这么一个index,用来存储用户在什么时间调用了哪个接口,调用的入参是什么的这么一个信息(即服务网关日志), ...

最新文章

  1. php sql count函数,SQL COUNT() 函数
  2. Develop Smartphone Device use VS.NET 2003
  3. jenkins 命令找不到
  4. LVS--NAT模型配置
  5. JWT(JSON web token)
  6. 怎么在安卓布局里设置滚动字体_Get新技能|如何在手机上设置文字版拼音?
  7. 行向量,列向量,行主序矩阵,列主序矩阵
  8. 一文读懂云原生一体化数仓
  9. final 最终 java 1614876717
  10. exclude函数计算_Java Stream exclude()函数删除重复项
  11. virtualbox安装Windows server 2003
  12. 结构仿真实验,Midas多跨超静定连续梁手算电算分析
  13. 从头构建自己的Linux系统
  14. Mifare Ultra Light 非接触式IC卡
  15. ESP32开发环境的搭建和 ESP-IDF支持以下调试方法
  16. epplus word html,.Net开源Excel、Word操作组件-NPOI、EPPlus、DocX
  17. 虚拟主机、VPS、云服务器三者的区别
  18. element tab如何居中_如何用思维导图提高工作效率
  19. 监控之美——监控之美-监控系统选型分析及误区探讨
  20. Leetcode 874. Walking Robot Simulation

热门文章

  1. Coursera课程 Competitive Strategy内容简介
  2. python打印表格_怎么使用python脚本实现表格打印?
  3. Unity Shader:Waveform波形(1)-用正弦函数做闪烁效果并分析波形公式中的参数
  4. 用C语言程序实现黎曼和求定积分
  5. GLSL Optimizer
  6. 会“聆听”用户,用户反馈设计
  7. 第 197 章 Unity
  8. 关于label在ie8,9下的兼容问题???
  9. navigator属性
  10. 我的Oracle 9i学习日志(18)-- 维护数据完整性.b