jieba库的使用

-中文文本需要通过分词获得单个的词语

-jieba是第三方库,需要额外安装:

-pip install jieba

jieba分词的三种模式

-精确模式:把文本精确地分开,不存在冗余的单词

-全模式:把一段文本中所有可能的词语都扫描出来,存在冗余

-搜索引擎模式:在精确模式的基础上,对于长词进行再切分
jieba库常用函数

jieba.lcut(s)、jieba.lcut(s , cut_all=True)、jieba.lcut_for_search(s)

import jieba
a = jieba.lcut("冬天到了春天还会远吗")                        #精确模式
b = jieba.lcut("冬天到了春天还会远吗" , cut_all=True)         #全模式
c = jieba.lcut_for_search("中华人民共和国是一个伟大的国家")    #搜索引擎模式
print(a)
print(b)
print(c)
#输出:
['冬天', '到', '了', '春天', '还会', '远', '吗']
['冬天', '到', '了', '春天', '还', '会', '远', '吗']
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']

还可以向分词词典中添加新词:jieba.add_word(s)

jieba.add_word("dzzhyk")
a = jieba.lcut("dzzhyk是一名学生")
print(a)
#输出:
['dzzhyk', '是', '一名', '学生']

优秀的中文分词第三方库——jieba相关推荐

  1. 中文分词第三方库_Python计算生态jieba库和random库的综合运用之爬山篇

    本篇文章会利用python语言中的第三方库jieba库和标准库random库来对文件中的相关元素进行操作. 实践中文片段:"今天是个好天气,大家一起去爬山."该句子分为上下两部分, ...

  2. python语言常用的中文分词第三方库是_基于boost使用Python调用NLPIR(ICTCLAS2013)中文分词组件...

    最近需要用到中文分词,本来想省事,用python的第三方库结巴分词,但看了下API,计算文本关键词的方法没有没有返回关键字对应的权值,翻了下文档应该是不还不支持,只好继续使用中科院的那套ICTCLAS ...

  3. 6.Python常用第三方库—jieba库的使用(中文分词词库)

    目录 一.jieba库介绍 二.jieba库常用指令说明 1.  精确模式 2.  全模式 3.  搜索引擎模式 4.   增加新词 三.jieba库的安装 四.jieba库实例代码演示 一.jieb ...

  4. python第三方库jieba下载_Python第三方库____jieba

    jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个词语 jieba是优秀的中文分词第三方库,需要额外安装  (pip install jieba) jieba库提供三种分词模式,最简单只 ...

  5. python 画云图_【词云图】如何用python的第三方库jieba和wordcloud画词云图

    一直想学一下如何用python画词云图,觉得很好玩,本文就写一下我自己的一些尝试. 1.提前准备 一般准备以下四样就可以啦. 第一,电脑安装python,我装的是3.6. 第二,安装第三方库jieba ...

  6. python词云图代码示例 无jieba_【词云图】如何用python的第三方库jieba和wordcloud画词云图...

    一直想学一下如何用python画词云图,觉得很好玩,本文就写一下我自己的一些尝试. 1.提前准备 一般准备以下四样就可以啦. 第一,电脑安装python,我装的是3.6. 第二,安装第三方库jieba ...

  7. Python第三方库jieba(中文分词)入门与进阶(官方文档)

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式, ...

  8. Python第三方库jieba以及wordcloud学习笔记

    jieba库 jieba库是具有强大分词功能的第三方库.在中文文本分词中具有较好的应用表现.工作机制为 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了系统给定分词 ...

  9. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

最新文章

  1. 《树莓派Python编程指南》——2.2 一个Python游戏:猫和老鼠
  2. 归并排序是稳定的排序
  3. AI如果耍起了心眼,人类就像个白痴......
  4. 公路建厂最短路径问题
  5. 你要知道动机何在吗?
  6. 【Java】 大话数据结构(13) 查找算法(4) (散列表(哈希表))
  7. 2019年 第10届 蓝桥杯 Java B组 省赛真题详解及总结
  8. sublime text实现函数跳转(window环境)
  9. GCC 编译报错:程序中有游离的 \357’ \273’ \277’ 等
  10. MySQL 可以用localhost 连接,但不能用IP连接的问题,局域网192.168.*.* 无法连接mysql...
  11. 删除StringBuilder的最后一个字符?
  12. 动手学习数据分析(一)——数据探索性分析
  13. 五个有用的过滤器 (转)
  14. 魔方机器人之下位机编程------下位机完整程序
  15. 【IT基础】如何休息(每天都很累,但你真的会正确的休息方式么)
  16. 手把手教你集成阿里云推送(app杀死仍可推送)
  17. 《人工智能狂潮》读后感——什么是人工智能?(一)
  18. nacos 未读取到合法数据,请检查导入的数据文件
  19. Unity之UGUI-特效遮挡问题2.0
  20. Linux驱动设计——硬件基础

热门文章

  1. ubuntu websocket python2
  2. ubuntu14.04下出现libmysqlclient.so.20找不到问题
  3. ECCV18 Oral | MIT谷歌视频运动放大让计算机辅助人眼“明察秋毫”
  4. Python 0/1背包、动态规划
  5. oracle 表个数
  6. linux系统的通讯工具,Linux下即时通讯工具:Pidgin 2.5.0正式发布了
  7. android 点击网络图片大全,android查看网络图片的实现方法
  8. java获得一个空闲端口号_Python找出9个连续的空闲端口
  9. brew gd php_PHPBrew 使用指南
  10. Tomcat开启SSL协议支持