jieba分词错误_jieba分词处理
分词是一种数学上的应用,他可以直接根据词语之间的数学关系进行文字或者单词的抽象,比如,讲一句话“我来自地球上中国”进行单词分割,我们可能会得到如下的内容:“我”、“来自”、“地球上”、“中国”,这些就相当于是分词的概念,在我们搜索引擎开发的过程中,是必须要要使用到分词的概念的。
jieba简介
jieba是一个在中文自然语言处理过程中使用最多的工具包之一,目前能够实现包括分词、词性标注以及命名实体识别等多种功能,一般的,jieba为我们提供了以下三种分词模式:
·精确模式:将句子进行最精确的切分,分词速度相对较低,但是分词准确。
·全模式:基于此会列表,能够将所有的可以分词的词语都扫描出来,分词速度非常快,凡是不能解决歧义性。
·搜索引擎模式:在精确模式的基础上,对长词进行在切分,适合在搜索引擎中进行监理索引进行的分词。
常用的方法有:
·`jieba.cut` 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
· `jieba.cut_for_search` 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
· 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
· `jieba.cut` 以及 `jieba.cut_for_search` 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 `jieba.lcut` 以及 `jieba.lcut_for_search` 直接返回 list
· `jieba.Tokenizer(dictionary=DEFAULT_DICT)` 新建自定义分词器,可用于同时使用不同词典。`jieba.dt` 为默认分词器,所有全局分词相关函数都是该分词器的映射。
1 '''
2 @Description: jieba分词练习3 @Version: 1.04 @Autor: Montoin Yan5 @Date: 2020-02-09 20:46:286 @LastEditors : Montoin Yan7 @LastEditTime : 2020-02-09 20:55:408 '''
9 #encoding=utf-8
10 importjieba11
12 result_list = jieba.cut("我是中国青年团团员", cut_all=True)13 print("全模式:" + ",".join(result_list)) #全模式
14
15 result_list = jieba.cut("我是中国青年团团员")16 print("精准模式:" + ",".join(result_list)) #精确模式
17
18 result_list = jieba.cut_for_search("我是一个学生,我热爱编程,并且我想成为一个好的IT工作者") #搜索引擎模式
19 print("搜索引擎模式:" + ",".join(result_list))
结果如下所示:
jieba安装
可以通过镜像网站进行安装:
win+r打开cmd,使用 pip install jieba -i https://pypi.douban.com/simple/ 进行安装,如果显示连接超时,则在编译器终端进行下载即可。
jieba实例
下面这个例子进行了jeiba分词完整的分词操作
1 '''
2 @Description: jieba分词处理3 @Version: 1.04 @Autor: Montoin Yan5 @Date: 2020-02-09 19:26:136 @LastEditors : Montoin Yan7 @LastEditTime : 2020-02-09 20:21:448 '''
9
10 importos,jieba11
12 PATH = "jieba_demo/文章.txt" #定义读取路径
13
14 defmain():15 results = {} #保存最终的读取结果,以字典形式进行存储
16 with open(file=PATH,mode="r",encoding="UTF-8") as file:17 data = file.readline() #按照单行进行文件读取
18 #print(data)
19 while data: #如果读到数据
20 words = jieba.cut(data,cut_all=False) #对数据进行分词,不采用全模式,进行精确分词
21 for word inwords:22 if len(word) == 1:23 continue
24 else:25 results[word] = results.get(word,0) + 1 #将多有读取到的词放到字典中,如果没有,默认值为0
26 data = file.readline() #继续读取
27 items = list(results.items()) #取出全部的内容
28 items.sort(key=lambda x: x[1],reverse=True) #降序排列
29 #print(items)
30 for i initems:31 print("%s:%s" % (i[0],i[1]))32
33
34 if __name__ == "__main__":35 main()
分词结果如下:
jieba分词错误_jieba分词处理相关推荐
- jieba分词错误_jieba中文分词
在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫做--分词. 我们来看看如何分词,嗯?别想多了,我不准备自己造轮子了,用别人的吧 ...
- jieba分词错误_如何掌握分词技术,你需要学会这些
1.导语: 本周对自然语言处理的分词技术进行了学习.本文针对分词技术的进行了全视角的概览,目标是掌握什么是分词技术.为什么需要分词技术和如何使用分词技术.后续将分不同篇幅对其中内容进行深挖和讲解.文章 ...
- jieba分词怎么操作_jieba 分词的使用和原理浅析
自然语言处理目的在于让计算机"理解"人说的话或者文字,而在中文自然语言处理中第一步是获取语料,第二步就是对语料进行预处理,预处理的一个重要的环节就是对语料进行分词,其目的在于将一句 ...
- jieba结巴分词--关键词抽取_jieba分词的原理(文末有维特比算法讲解)
前言 实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...
- 词云_jieba分词
词云_jieba分词 本篇是对词云的代码展示,详细的见如下描述: # -*- coding: utf-8 -*- from wordcloud import WordCloud import matp ...
- 简明Jieba中文分词教程(分词、关键词提取、词性标注、计算位置)
目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...
- 基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
写在前边的话: 本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难, ...
- 实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量
一:jieba分词和pkuseg分词 原代码文件 链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...
- jieba简易教程:分词、词性标注、关键词抽取
jieba分词 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b ...
最新文章
- python imgaug 图片增强
- CentOS6安装devtoolset(使用高版本gcc)GCC 4.8 GCC 4.9 GCC 5.2
- Scan Chain的原理与实现(实践)-top down flow
- java实现系统多级文件夹复制
- mysql relay_技术分享 | MySQL:产生大量小 relay log 的故障一例
- HTML期末学生大作业-奶茶网页作业html+css+javascript
- 【TensorFlow实战】TensorFlow实现经典卷积神经网络之ResNet
- mongooseDB数据库添加账号
- IOS 公共类-数字处理
- String的replaceAll()用法详解
- iZotope RX 9 for Mac(数字音频修复工具)
- 使用强类型DataSet增加数据并获取自动增长的ID
- 基于迁移学习的mini-imagenet数据分类实践
- 服务器wifi无线放大器,无线wifi中继放大器的使用方法
- 真正无广告的看书软件,免费可换源!-大萝卜博客网
- CentOS的虚拟机网卡eth0变成eth1
- 完美解决Window11任务栏合并图标的问题。
- Git 工具之储藏与清理-7.3
- Linux 5300AGN网卡驱动,t400 wifi link 5100 AGN linux驱动安装
- 安装arcgis10.2和arcgis server
热门文章
- 使用软件或Python编程时EIS拟合的底层逻辑(EIS拟合的原理/过程)
- 《图解TCPIP》知识学习(1.4):协议由谁规定
- 单片机c语言开关,10手把手教你学单片机的C语言程序设计_开关语句和循环语句.pdf...
- win7锁定桌面计算机图标,Win7锁定桌面图标的详细步骤(图文)
- 《深入浅出MFC》读书笔记
- 运用加密技术保护Java源代码
- 摩尔定律终结后 科技也许会向这3个方向前进
- windows中的ntsd工具使用
- 万年历c语言代码3000年,求万年历代码!
- win11游戏窗口化如何设置 windows11游戏窗口化的设置方法