python中的jieba分词使用手册_Python jieba结巴分词原理及用法解析
1、简要说明
结巴分词支持三种分词模式,支持繁体字,支持自定义词典
2、三种分词模式
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下
搜索引擎模式:在精简模式下,对长词再度切分
# -*- encoding=utf-8 -*-
import jieba
if __name__ == "__main__":
str1 = "我去北京天安门广场跳舞"
a = jieba.lcut(str1, cut_all=True) # 全模式
print("全模式:{}".format(a))
b = jieba.lcut(str1, cut_all=False) # 精简模式
print("精简模式:{}".format(b))
c = jieba.lcut_for_search(str1) # 搜索引擎模式
print("搜索引擎模式:{}".format(c))
运行
3、某个词语不能被分开
# -*- encoding=utf-8 -*-
import jieba
if __name__ == "__main__":
str1 = "桃花侠大战菊花怪"
b = jieba.lcut(str1, cut_all=False) # 精简模式
print("精简模式:{}".format(b))
# 如果不把桃花侠分开
jieba.add_word("桃花侠")
d = jieba.lcut(str1) # 默认是精简模式
print(d)
运行
4、 某个单词必须被分开
# -*- encoding=utf-8 -*-
import jieba
if __name__ == "__main__":
# HMM参数,默认为True
"""HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,
用来描述一个系统隐性状态的转移和隐性状态的表现概率。
在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,
其大致原理是:
采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。
通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
"""
str1 = "桃花侠大战菊花怪"
b = jieba.lcut(str1, cut_all=False, HMM=False) # 精简模式,且不使用HMM模型
print("精简模式:{}".format(b))
# 分开大战为大和战
jieba.suggest_freq(("大", "战"), True)
e = jieba.lcut(str1, HMM=False) # 不使用HMM模型
print("分开:{}".format(e))
运行
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持云海天教程。
原文链接:https://www.cnblogs.com/rainbow-tan/p/13365253.html
python中的jieba分词使用手册_Python jieba结巴分词原理及用法解析相关推荐
- jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例)
先上目录,1.Jieba库是什么 2.Jieba库的使用(常见方法及函数) 3.实例--英文文本解析和中文文本解析 1.Jieba库是什么 Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获 ...
- python中函数分为哪四类_Python函数参数分类原理详解
1.函数的参数在哪里定义 在python中定义函数的时候,函数名后面的括号里就是用来定义参数的,如果有多个参数的话,那么参数之间直接用逗号,隔开 案列: # 利用函数的参数,定义一个可以完成任意两个数 ...
- python中全局变量和局部变量的区别_Python全局变量与局部变量区别及用法分析
本文实例讲述了Python全局变量与局部变量区别及用法.分享给大家供大家参考,具体如下: 对于很多初学的同学,对全局和局部变量容易混淆,看看下面给大家的讲解相信都应该明白两者的区别了. 定义: 全局变 ...
- python中不被定义_一日一技:在Python中双下划线私有方法不能被调用的原理
一日一技:在Python中双下划线私有方法不能被调用的原理 在使用Python编写面向对象的代码时,我们会常常使用"继承"这种开发方式.例如下面这一段代码: class Info: ...
- java结巴分词如何提高运行速度_结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词...
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的 分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...
- python办公自动化模块_Python自动化办公Excel模块openpyxl原理及用法解析
openpyxl 介绍 openpyxl 是一个直接可用于读写 xlsx .xlsm.xltx.xltm 文件的 Python 内置库,借助它可以利用 Python 语法对本地 xlsx 文件进行自动 ...
- python分词统计词频_python jieba分词并统计词频后输出结果到Excel和txt文档方法
前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率. 让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的. 运行环境: 安装python2.7.13 ...
- python分词统计词频_python 实现中文分词统计
总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把.有各种语义分析库在,一切好像并不是很复杂.不过Python刚开始看,估计代码有点丑. 一.两种中文分词开发包 THULAC(THU L ...
- python中的取余运算符是_python取余运算
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! python中对负数求余的计算方法和求幂运算注意点python中对负数求余的计算 ...
- python中写入csv文件的方法_Python写入CSV文件的方法
python笔记5-python2写csv文件中文乱码问题 前言 python2最大的坑在于中文编码问题,遇到中文报错首先加u,再各种encode.decode. 当list.tuple.dict里面 ...
最新文章
- [置顶] SQL注入安全分析
- jsoncpp去掉多余字符_如何处理JSON中的特殊字符
- API设计原则 - Qt官网的设计实践总结
- HugeGraph 图数据库常见问题汇总
- asp.net 在webconfig里自定义错误页
- linux改ip之后恢复出厂设置密码,Linux忘记密码及修改IP地址解决方案
- python统计字典中元素个数_Python计数器 | collections.Counter
- tesseract box_使用Qt Box Editor在自定义数据集上训练Tesseract
- EditPlus批量转码
- Livezilla on Linux 安装配置教程
- 聚观早报 | 百度文心一言被用户挤爆;贝莱德准备竞购瑞信
- 如何给视频配上字幕?教你几种视频配字幕小妙招
- 山科计算机科学与技术学院,山东科技大学-计算机科学与工程学院
- 非期望产出的sbm模型_兼顾非期望产出的工业用地效率测度、分异与溯因 ——以东北三省为例...
- 用IE网页学游戏-井字棋
- 怎么卸载手机上下载的软件?苹果手机有两种方法
- 现在考ccie还有意义么?
- SlicerPro超级切片家具建模插件使用教程
- java执行linux解压RAR命令程序阻塞/卡死
- ngss for oracle,学习笔记:Oracle bbed工具在Windows平台上兼容9i 10g 11g 12c运