jieba分词错误_jieba分词处理

分词是一种数学上的应用，他可以直接根据词语之间的数学关系进行文字或者单词的抽象，比如，讲一句话“我来自地球上中国”进行单词分割，我们可能会得到如下的内容：“我”、“来自”、“地球上”、“中国”，这些就相当于是分词的概念，在我们搜索引擎开发的过程中，是必须要要使用到分词的概念的。

jieba简介

jieba是一个在中文自然语言处理过程中使用最多的工具包之一，目前能够实现包括分词、词性标注以及命名实体识别等多种功能，一般的，jieba为我们提供了以下三种分词模式：

·精确模式：将句子进行最精确的切分，分词速度相对较低，但是分词准确。

·全模式：基于此会列表，能够将所有的可以分词的词语都扫描出来，分词速度非常快，凡是不能解决歧义性。

·搜索引擎模式：在精确模式的基础上，对长词进行在切分，适合在搜索引擎中进行监理索引进行的分词。

常用的方法有：

·`jieba.cut` 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

· `jieba.cut_for_search` 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

· 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

· `jieba.cut` 以及 `jieba.cut_for_search` 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用 `jieba.lcut` 以及 `jieba.lcut_for_search` 直接返回 list

· `jieba.Tokenizer(dictionary=DEFAULT_DICT)` 新建自定义分词器，可用于同时使用不同词典。`jieba.dt` 为默认分词器，所有全局分词相关函数都是该分词器的映射。

1 '''

2 @Description: jieba分词练习3 @Version: 1.04 @Autor: Montoin Yan5 @Date: 2020-02-09 20:46:286 @LastEditors : Montoin Yan7 @LastEditTime : 2020-02-09 20:55:408 '''

9 #encoding=utf-8

10 importjieba11

12 result_list = jieba.cut("我是中国青年团团员", cut_all=True)13 print("全模式:" + ",".join(result_list)) #全模式

15 result_list = jieba.cut("我是中国青年团团员")16 print("精准模式:" + ",".join(result_list)) #精确模式

18 result_list = jieba.cut_for_search("我是一个学生，我热爱编程，并且我想成为一个好的IT工作者") #搜索引擎模式

19 print("搜索引擎模式：" + ",".join(result_list))

结果如下所示：

jieba安装

可以通过镜像网站进行安装：

win+r打开cmd，使用 pip install jieba -i https://pypi.douban.com/simple/ 进行安装，如果显示连接超时，则在编译器终端进行下载即可。

jieba实例

下面这个例子进行了jeiba分词完整的分词操作

1 '''

2 @Description: jieba分词处理3 @Version: 1.04 @Autor: Montoin Yan5 @Date: 2020-02-09 19:26:136 @LastEditors : Montoin Yan7 @LastEditTime : 2020-02-09 20:21:448 '''

10 importos,jieba11

12 PATH = "jieba_demo/文章.txt" #定义读取路径

14 defmain():15 results = {} #保存最终的读取结果，以字典形式进行存储

16 with open(file=PATH,mode="r",encoding="UTF-8") as file:17 data = file.readline() #按照单行进行文件读取

18 #print(data)

19 while data: #如果读到数据

20 words = jieba.cut(data,cut_all=False) #对数据进行分词，不采用全模式，进行精确分词

21 for word inwords:22 if len(word) == 1:23 continue

24 else:25 results[word] = results.get(word,0) + 1 #将多有读取到的词放到字典中，如果没有，默认值为0

26 data = file.readline() #继续读取

27 items = list(results.items()) #取出全部的内容

28 items.sort(key=lambda x: x[1],reverse=True) #降序排列

29 #print(items)

30 for i initems:31 print("%s:%s" % (i[0],i[1]))32

34 if __name__ == "__main__":35 main()

分词结果如下：

jieba分词错误_jieba分词处理相关推荐

jieba分词错误_jieba中文分词
在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫做--分词. 我们来看看如何分词,嗯?别想多了,我不准备自己造轮子了,用别人的吧 ...
jieba分词错误_如何掌握分词技术，你需要学会这些
1.导语: 本周对自然语言处理的分词技术进行了学习.本文针对分词技术的进行了全视角的概览,目标是掌握什么是分词技术.为什么需要分词技术和如何使用分词技术.后续将分不同篇幅对其中内容进行深挖和讲解.文章 ...
jieba分词怎么操作_jieba 分词的使用和原理浅析
自然语言处理目的在于让计算机"理解"人说的话或者文字,而在中文自然语言处理中第一步是获取语料,第二步就是对语料进行预处理,预处理的一个重要的环节就是对语料进行分词,其目的在于将一句 ...
jieba结巴分词--关键词抽取_jieba分词的原理（文末有维特比算法讲解）
前言实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...
词云_jieba分词
词云_jieba分词本篇是对词云的代码展示,详细的见如下描述: # -*- coding: utf-8 -*- from wordcloud import WordCloud import matp ...
简明Jieba中文分词教程（分词、关键词提取、词性标注、计算位置）
目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...
基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
写在前边的话: 本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难, ...
实践：jieba分词和pkuseg分词、去除停用词、加载预训练词向量
一:jieba分词和pkuseg分词原代码文件链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...
jieba简易教程：分词、词性标注、关键词抽取
jieba分词 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b ...

jieba分词错误_jieba分词处理

jieba分词错误_jieba分词处理相关推荐

最新文章

热门文章