jieba自定义分词规则与多进程切词
当存在某些自定义的专业名称或长词时,jieba有可能会当成多个词,但其实是一个词,自定义的方法如下:
原始的jieba效果:
import jiebaif __name__ == '__main__':sentence = "学习python与人工智能有益身体健康"ret = jieba.lcut(sentence)print(ret)
结果是:['学习', 'python', '与', '人工智能', '有益', '身体健康']
,如果我们想“python与人工智能”是一整个词,那么可以:
新建一个文件my_dict.txt
,写入:
python与人工智能
然后修改代码:
import jiebajieba.enable_parallel(3) # 多进程
jieba.load_userdict('my_dict.txt') # 导入自定义的切词文件
if __name__ == '__main__':sentence = "学习python与人工智能有益身体健康"ret = jieba.lcut(sentence)print(ret)
结果:['学习', 'python与人工智能', '有益', '身体健康']
jieba自定义分词规则与多进程切词相关推荐
- JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词
初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 1.为什么命名有包含搜索关键词的文档,但结果里面就没有相关文档呢? 2.我存进去的文档到底被分成哪些词(ter ...
- es自定义分词器和分词规则
1.analysis 和 analyzer analysis是指把全文本转换成一系列单词(term/token)的过程,也叫分词. analysis是通过分词器analyzer来实现的 2.分词 St ...
- 简明Jieba中文分词教程(分词、关键词提取、词性标注、计算位置)
目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...
- Elasticsearch 分布式搜索引擎 -- 自动补全(拼音分词器、自定义分词器、自动补全查询、实现搜索框自动补全)
文章目录 1. 自动补全 1.1 拼音分词器 1.2.1 自定义分词器 1.2.2 小结 1.2 自动补全 1.3 实现酒店搜索框自动补全 1.3.1 修改酒店映射结构 1.3.2 修改HotelDo ...
- 对中国四大名著--红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图
文章目录 前言 一.jieba是什么? 支持四种分词模式: 支持繁体分词 支持自定义词典 MIT 授权协议 二.直接上代码了 总结 前言 今天用jieba和词云库做个作业,顺便记录一下,作业要求: 1 ...
- jieba中文分词组件
目录 jieba简介 组件特点 安装方法 算法 使用jieba 分词 添加自定义词典 载入词典 调整词典 关键词提取 基于 TF-IDF 算法的关键词抽取 基于 TextRank 算法的关键词抽取 词 ...
- 微服务框架 SpringCloud微服务架构 27 自动补全 27.2 自定义分词器
微服务框架 [SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务] SpringCloud微服务 ...
- ElasticSearch入门:ES分词器与自定义分词器
ES入门:ES分词器与自定义分词器 分词器的简单介绍 不同分词器的效果对比 自定义分词器的应用 分词器的简单介绍 分词器是es中的一个组件,通俗意义上理解,就是将一段文本按照一定的逻辑,分析成多个词语 ...
- ElasticSearch 自定义分词器Analyzer示例
一.前提概述 接下来定义一个index,并在该index中使用自定义分词器. 假设在ES中有这么一个index,用来存储用户在什么时间调用了哪个接口,调用的入参是什么的这么一个信息(即服务网关日志), ...
最新文章
- php sql count函数,SQL COUNT() 函数
- Develop Smartphone Device use VS.NET 2003
- jenkins 命令找不到
- LVS--NAT模型配置
- JWT(JSON web token)
- 怎么在安卓布局里设置滚动字体_Get新技能|如何在手机上设置文字版拼音?
- 行向量,列向量,行主序矩阵,列主序矩阵
- 一文读懂云原生一体化数仓
- final 最终 java 1614876717
- exclude函数计算_Java Stream exclude()函数删除重复项
- virtualbox安装Windows server 2003
- 结构仿真实验,Midas多跨超静定连续梁手算电算分析
- 从头构建自己的Linux系统
- Mifare Ultra Light 非接触式IC卡
- ESP32开发环境的搭建和 ESP-IDF支持以下调试方法
- epplus word html,.Net开源Excel、Word操作组件-NPOI、EPPlus、DocX
- 虚拟主机、VPS、云服务器三者的区别
- element tab如何居中_如何用思维导图提高工作效率
- 监控之美——监控之美-监控系统选型分析及误区探讨
- Leetcode 874. Walking Robot Simulation