如何在jieba分词中加自定义词典_Python实践129-jieba分词和pkuseg分词
jieba分词
- jieba是非常有名的Python中文分词组件
- jieba分词的特点是:支持3种分词模式:精确模式、全模式、搜索引擎模式。支持繁体分词。支持自定义词典。
- 安装: pip install jieba
pkuseg分词
- pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。
- pkuseg分词的特点是:高分词准确率。相比于其他的分词工具包,该工具包在不同领域的数据上都大幅提高了分词的准确度。支持多领域分词。支持用户自训练模型。
- 安装: pip install pkuseg
举个栗子
import jieba
import pkusegif __name__ == '__main__':text = "绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。"seg_list = jieba.cut(text, cut_all=False, HMM=True)print("Cut result is: " + "/".join(seg_list))seg = pkuseg.pkuseg() # 以默认配置加载模型text = seg.cut(text) # 进行分词print("Cut result is: " + "/".join(text))
执行结果如下:
Cut result is: 绿子/在/电话/的/另一头/久久/默然不语/,/如同/全世界/的/细雨/落/在/全世界/所有/的/草坪/上/一般/的/沉默/在/持续/。
Cut result is: 绿子/在/电话/的/另/一头/久久/默然不语/,/如同/全世界/的/细雨/落/在/全世界/所有/的/草坪/上/一般/的/沉默/在/持续/。
代码地址
本系列文章和代码已经作为项目归档到github,仓库地址:jumper2014/PyCodeComplete。大家觉得有帮助就请在github上star一下,你的支持是我更新的动力。什么?你没有github账号?学习Python怎么可以没有github账号呢,快去注册一个啦!
如何在jieba分词中加自定义词典_Python实践129-jieba分词和pkuseg分词相关推荐
- 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数 ...
- 如何在jieba分词中加自定义词典_R-数据挖掘 | jiebaR 分词
一.jiebaR主要函数 1.worker():加载jiebaR库的分词引擎 worker(type = "mix", dict = DICTPATH, hmm = HMMPATH ...
- 如何在jieba分词中加自定义词典_常见中文分词包比较
1 jieba jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_sea ...
- 如何在jieba分词中加自定义词典_中文到底需要分词嘛?
本文是香侬科技在ACL 2019发表的论文Is Word Segmentation Necessary for Deep Learning of Chinese Representations? 的介 ...
- jieba使用自定义词典_如何在Word 2013中使用自定义词典
jieba使用自定义词典 If you have the option on for checking spelling as you type in Word 2013, you can easil ...
- 如何在Angular Material中制作自定义主题
by Charlee Li 通过李李 如何在Angular Material中制作自定义主题 (How to make a custom theme in Angular Material) Angu ...
- 微软word开机自启动_如何在Microsoft Word中创建自定义封面
微软word开机自启动 A great cover page draws in readers. If you use Microsoft Word, you're in luck, because ...
- android 浏览器打开本地html文件,如何在Android浏览器中加载本地HTML文件
我试图在设备浏览器中加载本地html文件.我尝试过使用WebView,但它不适用于所有设备.如何在Android浏览器中加载本地HTML文件 //WebView method that didnt w ...
- Luminar Neo 教程,如何在 Luminar Neo 中共享自定义预设?
欢迎观看 Luminar Neo 中文版教程,小编带大家学习 Luminar Neo 的基本工具和使用技巧,了解如何在 Luminar Neo 中创建预设. 您制作的任何Luminar Neo预设都可 ...
最新文章
- 如何在nginx中缓存静态文件
- Android EditText禁止复制粘贴
- Android获取系统应用及安装应用的权限列表
- pca 和lda区别
- android炫酷叼ui,XUI: 一个简洁而优雅的Android原生UI框架,解放你的双手!
- ado.net 操作mysql_ADO.NET操作数据库(一)
- Leetcode-5148 Binary Tree Coloring Game(二叉树着色游戏)
- 川大计算机学院研究生分数线,四川大学计算机学院2018年硕士研究生招生拟录取名单及成绩公示...
- XMLHttpRequest.status 返回服务器状态码
- 计算机学报格式_参考文献格式的那些事儿
- SSM框架搭建过程----学生学籍管理系统
- vc++ cfile 文件操作
- iOS非常全的第三方库
- web3.0、元宇宙、AIOT探讨-产品思维修炼(15)
- jboot 增加llog4j日志
- 2023年湖北一级技师二级技师报名时间、考试时间是什么时候?
- 【23种设计模式】中介者模式(Mediator Pattern) .Net Core实现
- Java中的数组Array
- vrrp mstp 配置实验(学习笔记)
- python中datetime模块是以什么时间为基础_Python基础之datetime模块
热门文章
- mysql order by 多个字段 索引_mysql 索引优化order by 语句
- 腐烂国度计算机配置要求,微软平台《腐烂国度2》PC版官方硬件配置要求公布
- 腐烂国度2巨霸版计算机学知识,腐烂国度2巨霸版开车技巧分享 载具使用心得[多图]...
- 资料搜集-JAVA系统的梳理知识17- RPC
- nova7se乐活版升级鸿蒙,华为nova7SE乐活版有什么缺点-华为nova7SE乐活版优缺点介绍...
- 年底了,我妈问今年存了多少钱?我:0元
- Python备份之Win7源码
- 炉石传说:魔兽英雄传
- L1范数和L2范数的区别
- Linux之USB分析