中文分词jieba学习笔记

  • 一、分词模式
  • 二、自定义词典
    • 2.1 命令
    • 2.2 使用方式
  • 三、关键词抽取(基于TF-IDF算法)
    • 3.1 用jieba.analyse.extract_tags()
    • 3.2 用jieba.analyse.textrank(s)
  • 四、词性标注
  • 五、并行分词
  • 六、返回词语在原文的起止位置

一、分词模式

二、自定义词典

  注意:HMM模型(隐马尔可夫模型),可以识别新词

2.1 命令

  jieba.load_userdict(filename) filename为自定义词典的路径

2.2 使用方式

  在使用的时候,词典的格式和jieba分词器本身的分词器中的词典格式必须保持一致,一个词占一行,每一行分成三部分,一部分为词语,一部分为词频(可以省略),最后为词性(可以省略),用空格隔开。

三、关键词抽取(基于TF-IDF算法)

  关键词抽取并且进行词向量化之后,才好进行下一步的文本分析,可以说这一步是自然语言处理技术中文本处理最基础的一步。提取出来的关键词是字典形式存储。

3.1 用jieba.analyse.extract_tags()

  命令:

jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPos=())

  参数:sentence:待提取文本
     topK:返回几个TF/IDF权重最大的关键词,默认为20个
     withWeight:是否返回关键词的权重值,默认为False
     allowPos:仅包含指定词性的词,默认为空,即不筛选
  例子:

import jieba.analyse
s="我好想去重庆找大瑞玩然后一起吃火锅喝冰奶茶啊"
for a,b in jieba.analyse.extract_tags(s,withWeight=True):print(a,b)

  结果:

找大瑞 1.7078239289857142
喝冰 1.7078239289857142
吃火锅 1.5578493397714286
奶茶 1.4661559274571427
重庆 0.9241968538314286
一起 0.6959970096985714
然后 0.6867600907842857

3.2 用jieba.analyse.textrank(s)

  和extract_tags的不同好像在于textrank进行了归一化。
  命令:

jieba.analyse.textrank(sentence,topK=20,withWeight=False,allowPOS)

  参数:和上述一样。
  例子:

import jieba.analyse
s="不想上学啊啊啊啊"
a= jieba.analyse.textrank(s,withWeight=True)
print(a)

  结果:

[('不想', 1.0), ('上学', 0.9961264494011037)]

四、词性标注

  切出来的结果是generator。
  例子:

s="这个十一月俺要去南京看枫叶、吃生煎和锅贴。"
for c,d in jieba.posseg.cut(s):print(c,d)

  结果:

这个 r
十一月 m
俺 r
要 v
去 v
南京 ns
看 v
枫叶 n
、 x
吃生 v
煎 v
和 c
锅贴 n
。 x

  paddle模式词性:

标签 含义 标签 含义 标签 含义 标签 含义
n 普通名词 f 方位名词 s 处所名词 t 时间
nr 人名 ns 地名 nt 机构名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副行词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号
PER 人名 LOC 地名 ORG 机构名 TIME 时间

五、并行分词

  注意:windows不支持并行分词
  命令:jieba.enable_parallel(4),参数代表并行进程数
     jieba.disable_parallel(),关闭并行分词模式

六、返回词语在原文的起止位置

  使用jieba.tokenize可以返回词语在原文的起始位置
  注意:输入参数只接受unicode

result = jieba.tokenize(u'上海益民食品一厂有限公司')
print("【普通模式】")
for tk in result:print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))

中文分词jieba学习笔记相关推荐

  1. 中文分词方法汇总笔记

    中文分词方法汇总笔记 分词难点 分词方法 传统基于字典(规则分词) 基于机器学习的分词方法 统计分词 语言模型 隐马尔可夫 HMM 模型 其他 分词工具和云服务 其他 感谢知乎 @华天清 的总结 分词 ...

  2. 中文分词jieba python 学习

    中文分词工具,结巴分词很好用,以下是验证小结. import jieba import jieba.analyse import jieba.posseg as pseg import time fi ...

  3. Python中文分词--jieba的基本使用

    中文分词的原理 1.中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 2.现有的 ...

  4. 中文分词(jieba)

    中文分词 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.jieba 是目前Py ...

  5. Python中文分词 jieba 十五分钟入门与进阶

    文章目录 整体介绍 三种分词模式与一个参数 关键词提取 中文歧义测试与去除停用词 三种可以让分词更准确的方法 并行计算 整体介绍 jieba 基于Python的中文分词工具,安装使用非常方便,直接pi ...

  6. 盘古分词工具学习笔记

    下载了盘古分词工具,学习工具使用的同时学习中文分词基础. 1.  一元分词/二元分词/多元分词/精确分词 一元分词是按字拆分的,比如一句话"梦想很丰满",在盘古分词中使用一元分词拆 ...

  7. [非卷积5D中文翻译及学习笔记] 神经辐射场 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

    不使用3D建模,使用静态图片进行训练,用(非卷积)深度网络表示场景的5D连续体表示,再通过ray marching进行渲染. 本中文翻译使用"机器学习+人工校准/注解"的方式完成. ...

  8. 使用python进行“中文词频分析”学习笔记

    首先什么是"词频分析"? 词频分析,就是对某一或某些给定的词语在某文件中出现的次数进行统计分析. 那么它能做哪些事情? 比如:分析你最喜欢的作者的表达习惯是怎样的? 判断一首诗是李 ...

  9. python中文分词---jieba

    原文地址:http://blog.csdn.net/sherlockzoom/article/details/44566425 jieba "结巴"中文分词:做最好的 Python ...

最新文章

  1. 【从零学习OpenCV 4】Image Watch插件的使用
  2. 类脑芯片即将全球首发-打破冯诺依曼体系
  3. web系统 手机app 能访问吗?_成都APP开发:原生APP开发与Web APP开发有什么区别呢?...
  4. centos 安装VSFTP
  5. Java-Map从入门到性能分析3【LinkedHashMap(性能耗时对比、模拟LRU缓存)、TreeMap(排序、性能对比)】
  6. pandas的to_csv()使用细节和一些参数
  7. x230无线网卡驱动服务器版,ThinkPad X230网卡驱动
  8. 微软警告:Office 已遭IE RCE 新0day 攻击
  9. 在vue中后台返回的文本包含标签时候解析为html代码
  10. 【三】rabbitmq消费者ACK机制message acknowledgment
  11. Web在线报表设计器使用指南
  12. 计算机相关常数,地址常数
  13. Android 自动化测试 Espresso篇:简介基础使用
  14. 【Qt】QtIFW 安装包制作总结 -如何创建多组件的安装器
  15. [转]NLP关键词提取方法总结及实现
  16. @Value取不到值的原因
  17. 自媒体文章一文多发的几种方式
  18. TCP:利用Socket编程技术实现客户端向服务端上传一个图片。
  19. linux程序执行失败,调试时提示 .dynamic section for .so.* is not at the expected address
  20. matlab用app建立神经网络,Matlab Deep Network Designer APP搭建神经网络及相关函数讲解...

热门文章

  1. ThinkPad L450加装固态硬盘教程
  2. new open SQL ABAP语法错误,逗号和转义符变量 when escaped, all host variables must be escaped using@
  3. 酞菁铜磺酸(CuPcS),酞青铜相对分子质量|齐岳生物
  4. 数据库技术的变迁历史及发展趋势
  5. 域前置,水太深,偷学六娃来隐身
  6. matlab_plot实时画点
  7. 数据仓库(3)数仓建模之星型模型与维度建模
  8. PHP 抓取接口和网页(爬取方式)
  9. android 信息(mms)的故事(八)-- 彩信的解析
  10. go多版本管理之gvm