使用python对中文文本进行分词

何为中文分词,指的是将一个汉字序列切分成一个个单独的词。

这里我们推荐使用jieba分词，它是专门使用python语言开发的分词系统,占用资源较少，常识类文档的分词精度较高。

我们可以去网上下载jieba的压缩包,然后解压，进入目录，找到setup.py这个文件，然后可以可以使用下面两种半自动方式去安装

方式一: 进入cmd命令窗口，输入: python setup.py install jieba

方式二: 进入cmd命令窗口，输入:pip install jieba

然后我们就可以进行下面的中文文本分词的操作了

首先我们把需要分词的文件train_corpus_small拷贝到项目中来:

然后我们创建一个demo3.py对其进行分词操作

# -*- encoding:utf-8 -*-
import sys
import jieba
import os
# 配置UTF-8的环境
reload(sys)
sys.setdefaultencoding('utf-8')
# 写入文件
def savefile(savepath, content):fp = open(savepath, "wb")fp.write(content)fp.close()
# 读取文件
def readfile(path):fp = open(path, "rb")content = fp.read()fp.close()return content
# 获取路径名
seg_path = "train_corpus_seg/"
corpus_path = "train_corpus_small/"
catelist = os.listdir(corpus_path)
# 获取每个目录下的所有文件
for mydir in catelist:# 拼接出分类子目录的路径class_path = corpus_path + mydir + "/"# 拼出分词后的预料分类目录seg_dir = seg_path + mydir + "/"# 判断目录是否为空if not os.path.exists(seg_dir):# 创建目录os.makedirs(seg_dir)# 获取类别目录下的所有目录file_list = os.listdir(class_path)# 将类别下面的所有目录遍历出来for file_path in file_list:# 拼出文件名全路径fullname = class_path + file_path# 读取文件内容content = readfile(fullname).strip()# 将换行替换掉content = content.replace("\r\n", "").strip()# 为文件内容分词content_seg = jieba.cut(content)# 将处理后的文件保存到分词后的语料目录savefile(seg_dir + file_path, "".join(content_seg))
print "读写完毕"

运行前文件格式如下:

分词后生成的目录及格式如下:

使用python对中文文本进行分词相关推荐

Python处理中文文本
Python处理中文文本 author:Ernest 使用Python处理文本是件十分有趣的任务,通过某些操作,你可以自由地获取到你所需要的内容,下面就来看看怎么做吧. 要求 1.选择一部长度合适的小 ...
如何使用python处理中文文本--近几个月的新闻数据分析社会热点并创造词云图
使用python处理中文文本并创造词云图 1.前言利用爬虫爬取网上新闻,评论,并从中分析最近社会热点,是数据科学,人工智能中的热点之一,其中在分析文本中使用词云图,看起来简洁明了,因为如下图出现频率 ...
python读入中文文本编码错误
python读入中文文本编码错误 python读入中文txt文本: #coding:utf-8def readFile():fp = open('emotion_dict//neg//neg_all_ ...
基于Python实现中文文本关键词抽取的三种方法课程报告+项目源码及数据
资源下载地址:https://download.csdn.net/download/sheziqiong/85737856 资源下载地址:https://download.csdn.net/downl ...
Python 任意中文文本生成词云最终版本
前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...
『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注
利用Python代码实现中文文本的自然语言处理,包括分词.去标点符号.去停用词.词性标注&过滤. 在刚开始的每个模块,介绍它的实现.最后会将整个文本处理过程封装成 TextProcess 类. ...
[原创]python计算中文文本相似度神器
介绍最近因为工作需要,需要使用一个功能,就是中文文本相似度的计算.属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享.这个包叫sentence-transformers. 这里给大家介绍, ...
python实现中文文本分句
对于英文文本分句比较简单,只要根据终结符"."划分就好,中文文本分句看似很简单,但是实现时会遇到很多麻烦,尤其是处理社交媒体数据时,会遇到文本格式不规范等问题.下面代码针对一段一段 ...
python打开中文文本utf-8用不了_关于Python文档读取UTF-8编码文件问题
近来接到一个小项目,读取目标文件中每一行url,并逐个请求url,拿到想要的数据. #-*- coding:utf-8 -*- classIpUrlManager(object):def __init ...

使用python对中文文本进行分词

使用python对中文文本进行分词相关推荐

最新文章

热门文章