分词是一种数学上的应用,他可以直接根据词语之间的数学关系进行文字或者单词的抽象,比如,讲一句话“我来自地球上中国”进行单词分割,我们可能会得到如下的内容:“我”、“来自”、“地球上”、“中国”,这些就相当于是分词的概念,在我们搜索引擎开发的过程中,是必须要要使用到分词的概念的。

jieba简介

jieba是一个在中文自然语言处理过程中使用最多的工具包之一,目前能够实现包括分词、词性标注以及命名实体识别等多种功能,一般的,jieba为我们提供了以下三种分词模式:

·精确模式:将句子进行最精确的切分,分词速度相对较低,但是分词准确。

·全模式:基于此会列表,能够将所有的可以分词的词语都扫描出来,分词速度非常快,凡是不能解决歧义性。

·搜索引擎模式:在精确模式的基础上,对长词进行在切分,适合在搜索引擎中进行监理索引进行的分词。

常用的方法有:

·`jieba.cut` 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型

· `jieba.cut_for_search` 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

· 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

· `jieba.cut` 以及 `jieba.cut_for_search` 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 `jieba.lcut` 以及 `jieba.lcut_for_search` 直接返回 list

· `jieba.Tokenizer(dictionary=DEFAULT_DICT)` 新建自定义分词器,可用于同时使用不同词典。`jieba.dt` 为默认分词器,所有全局分词相关函数都是该分词器的映射。

1 '''

2 @Description: jieba分词练习3 @Version: 1.04 @Autor: Montoin Yan5 @Date: 2020-02-09 20:46:286 @LastEditors : Montoin Yan7 @LastEditTime : 2020-02-09 20:55:408 '''

9 #encoding=utf-8

10 importjieba11

12 result_list = jieba.cut("我是中国青年团团员", cut_all=True)13 print("全模式:" + ",".join(result_list)) #全模式

14

15 result_list = jieba.cut("我是中国青年团团员")16 print("精准模式:" + ",".join(result_list)) #精确模式

17

18 result_list = jieba.cut_for_search("我是一个学生,我热爱编程,并且我想成为一个好的IT工作者") #搜索引擎模式

19 print("搜索引擎模式:" + ",".join(result_list))

结果如下所示:

jieba安装

可以通过镜像网站进行安装:

win+r打开cmd,使用  pip install jieba -i https://pypi.douban.com/simple/  进行安装,如果显示连接超时,则在编译器终端进行下载即可。

jieba实例

下面这个例子进行了jeiba分词完整的分词操作

1 '''

2 @Description: jieba分词处理3 @Version: 1.04 @Autor: Montoin Yan5 @Date: 2020-02-09 19:26:136 @LastEditors : Montoin Yan7 @LastEditTime : 2020-02-09 20:21:448 '''

9

10 importos,jieba11

12 PATH = "jieba_demo/文章.txt" #定义读取路径

13

14 defmain():15 results = {} #保存最终的读取结果,以字典形式进行存储

16 with open(file=PATH,mode="r",encoding="UTF-8") as file:17 data = file.readline() #按照单行进行文件读取

18 #print(data)

19 while data: #如果读到数据

20 words = jieba.cut(data,cut_all=False) #对数据进行分词,不采用全模式,进行精确分词

21 for word inwords:22 if len(word) == 1:23 continue

24 else:25 results[word] = results.get(word,0) + 1 #将多有读取到的词放到字典中,如果没有,默认值为0

26 data = file.readline() #继续读取

27 items = list(results.items()) #取出全部的内容

28 items.sort(key=lambda x: x[1],reverse=True) #降序排列

29 #print(items)

30 for i initems:31 print("%s:%s" % (i[0],i[1]))32

33

34 if __name__ == "__main__":35 main()

分词结果如下:

jieba分词错误_jieba分词处理相关推荐

  1. jieba分词错误_jieba中文分词

    在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫做--分词. 我们来看看如何分词,嗯?别想多了,我不准备自己造轮子了,用别人的吧 ...

  2. jieba分词错误_如何掌握分词技术,你需要学会这些

    1.导语: 本周对自然语言处理的分词技术进行了学习.本文针对分词技术的进行了全视角的概览,目标是掌握什么是分词技术.为什么需要分词技术和如何使用分词技术.后续将分不同篇幅对其中内容进行深挖和讲解.文章 ...

  3. jieba分词怎么操作_jieba 分词的使用和原理浅析

    自然语言处理目的在于让计算机"理解"人说的话或者文字,而在中文自然语言处理中第一步是获取语料,第二步就是对语料进行预处理,预处理的一个重要的环节就是对语料进行分词,其目的在于将一句 ...

  4. jieba结巴分词--关键词抽取_jieba分词的原理(文末有维特比算法讲解)

    前言 实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...

  5. 词云_jieba分词

    词云_jieba分词 本篇是对词云的代码展示,详细的见如下描述: # -*- coding: utf-8 -*- from wordcloud import WordCloud import matp ...

  6. 简明Jieba中文分词教程(分词、关键词提取、词性标注、计算位置)

    目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...

  7. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

  8. 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

    写在前边的话: 本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难, ...

  9. 实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量

    一:jieba分词和pkuseg分词 原代码文件 链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...

  10. jieba简易教程:分词、词性标注、关键词抽取

    jieba分词 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b ...

最新文章

  1. python imgaug 图片增强
  2. CentOS6安装devtoolset(使用高版本gcc)GCC 4.8 GCC 4.9 GCC 5.2
  3. Scan Chain的原理与实现(实践)-top down flow
  4. java实现系统多级文件夹复制
  5. mysql relay_技术分享 | MySQL:产生大量小 relay log 的故障一例
  6. HTML期末学生大作业-奶茶网页作业html+css+javascript
  7. 【TensorFlow实战】TensorFlow实现经典卷积神经网络之ResNet
  8. mongooseDB数据库添加账号
  9. IOS 公共类-数字处理
  10. String的replaceAll()用法详解
  11. iZotope RX 9 for Mac(数字音频修复工具)
  12. 使用强类型DataSet增加数据并获取自动增长的ID
  13. 基于迁移学习的mini-imagenet数据分类实践
  14. 服务器wifi无线放大器,无线wifi中继放大器的使用方法
  15. 真正无广告的看书软件,免费可换源!-大萝卜博客网
  16. CentOS的虚拟机网卡eth0变成eth1
  17. 完美解决Window11任务栏合并图标的问题。
  18. Git 工具之储藏与清理-7.3
  19. Linux 5300AGN网卡驱动,t400 wifi link 5100 AGN linux驱动安装
  20. 安装arcgis10.2和arcgis server

热门文章

  1. 使用软件或Python编程时EIS拟合的底层逻辑(EIS拟合的原理/过程)
  2. 《图解TCPIP》知识学习(1.4):协议由谁规定
  3. 单片机c语言开关,10手把手教你学单片机的C语言程序设计_开关语句和循环语句.pdf...
  4. win7锁定桌面计算机图标,Win7锁定桌面图标的详细步骤(图文)
  5. 《深入浅出MFC》读书笔记
  6. 运用加密技术保护Java源代码
  7. 摩尔定律终结后 科技也许会向这3个方向前进
  8. windows中的ntsd工具使用
  9. 万年历c语言代码3000年,求万年历代码!
  10. win11游戏窗口化如何设置 windows11游戏窗口化的设置方法