何为中文分词,指的是将一个汉字序列切分成一个个单独的词。

这里我们推荐使用jieba分词,它是专门使用python语言开发的分词系统,占用资源较少,常识类文档的分词精度较高。

我们可以去网上下载jieba的压缩包,然后解压,进入目录,找到setup.py这个文件,然后可以可以使用下面两种半自动方式去安装

方式一: 进入cmd命令窗口,输入: python setup.py install jieba

方式二: 进入cmd命令窗口,输入:pip install jieba

然后我们就可以进行下面的中文文本分词的操作了

首先我们把需要分词的文件train_corpus_small拷贝到项目中来:

然后我们创建一个demo3.py对其进行分词操作

# -*- encoding:utf-8 -*-
import sys
import jieba
import os
# 配置UTF-8的环境
reload(sys)
sys.setdefaultencoding('utf-8')
# 写入文件
def savefile(savepath, content):fp = open(savepath, "wb")fp.write(content)fp.close()
# 读取文件
def readfile(path):fp = open(path, "rb")content = fp.read()fp.close()return content
# 获取路径名
seg_path = "train_corpus_seg/"
corpus_path = "train_corpus_small/"
catelist = os.listdir(corpus_path)
# 获取每个目录下的所有文件
for mydir in catelist:# 拼接出分类子目录的路径class_path = corpus_path + mydir + "/"# 拼出分词后的预料分类目录seg_dir = seg_path + mydir + "/"# 判断目录是否为空if not os.path.exists(seg_dir):# 创建目录os.makedirs(seg_dir)# 获取类别目录下的所有目录file_list = os.listdir(class_path)# 将类别下面的所有目录遍历出来for file_path in file_list:# 拼出文件名全路径fullname = class_path + file_path# 读取文件内容content = readfile(fullname).strip()# 将换行替换掉content = content.replace("\r\n", "").strip()# 为文件内容分词content_seg = jieba.cut(content)# 将处理后的文件保存到分词后的语料目录savefile(seg_dir + file_path, "".join(content_seg))
print "读写完毕"

运行前文件格式如下:

分词后生成的目录及格式如下:

使用python对中文文本进行分词相关推荐

  1. Python处理中文文本

    Python处理中文文本 author:Ernest 使用Python处理文本是件十分有趣的任务,通过某些操作,你可以自由地获取到你所需要的内容,下面就来看看怎么做吧. 要求 1.选择一部长度合适的小 ...

  2. 如何使用python处理中文文本--近几个月的新闻数据分析社会热点并创造词云图

    使用python处理中文文本并创造词云图 1.前言 利用爬虫爬取网上新闻,评论,并从中分析最近社会热点,是数据科学,人工智能中的热点之一,其中在分析文本中使用词云图,看起来简洁明了,因为如下图出现频率 ...

  3. python读入中文文本编码错误

    python读入中文文本编码错误 python读入中文txt文本: #coding:utf-8def readFile():fp = open('emotion_dict//neg//neg_all_ ...

  4. 基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据

    资源下载地址:https://download.csdn.net/download/sheziqiong/85737856 资源下载地址:https://download.csdn.net/downl ...

  5. Python 任意中文文本生成词云 最终版本

    前叙 利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...

  6. 『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

    利用Python代码实现中文文本的自然语言处理,包括分词.去标点符号.去停用词.词性标注&过滤. 在刚开始的每个模块,介绍它的实现.最后会将整个文本处理过程封装成 TextProcess 类. ...

  7. [原创]python计算中文文本相似度神器

    介绍 最近因为工作需要,需要使用一个功能,就是中文文本相似度的计算.属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享.这个包叫sentence-transformers. 这里给大家介绍, ...

  8. python实现中文文本分句

    对于英文文本分句比较简单,只要根据终结符"."划分就好,中文文本分句看似很简单,但是实现时会遇到很多麻烦,尤其是处理社交媒体数据时,会遇到文本格式不规范等问题.下面代码针对一段一段 ...

  9. python打开中文文本utf-8用不了_关于Python文档读取UTF-8编码文件问题

    近来接到一个小项目,读取目标文件中每一行url,并逐个请求url,拿到想要的数据. #-*- coding:utf-8 -*- classIpUrlManager(object):def __init ...

最新文章

  1. 里程碑!SpaceX 载人首飞发射成功,马斯克填补美国载人飞行近十年空白
  2. PermutationImportance
  3. Java8 - 一文搞定Fork/Join 框架
  4. Python语言学习之常见语句命令那些事:python和常见语句命令(条件语句、pass语句)使用方法之详细攻略
  5. java正则匹配英文句号_Scala 正则表达式 0411
  6. linux下的ImageMagick安装
  7. 再见 Docker !5分钟转型 containerd !
  8. 曾惨遭 Google、Tesla 淘汰,辗转 8 个月,他是如何成为一名顶尖的 AI 工程师?...
  9. 大学生使用计算机趋势英语作文,学习使用电脑StudentUseofComputers
  10. 測试加入多级文件夹篇
  11. Java-Android 之单选按钮的运用
  12. 估计的商是什么意思_商是什么意思,商的繁体字,商有几笔,商字几画
  13. 照片放大后怎么变清晰?
  14. 服务器光纤存储系统,光纤存储服务器 配置
  15. 7-7 六度空间 C语言
  16. 分页控件-Kaminari
  17. openwrt 软路由负载均衡
  18. 5.验证面试高频问题整理(附答案)
  19. 云呐|如何对酒店固定资产进行日常管理
  20. 吃得苦中苦 方为人上人

热门文章

  1. Make a difference with Dragon Board410c(1)
  2. Zookeeper详细介绍+dubbo简单介绍+简单大白话讲解
  3. 边缘计算的现状与挑战:从理论到实践
  4. 2017 上海计算机一级,2017年上海计算机一级考试试题
  5. 计算机985大学高考分数,高考志愿“捡漏王”。460分被985大学录取,考生填报志愿要注意...
  6. 【K70例程】012SPI1.8寸LCD驱动(SPI)(选配)
  7. API流程和代码结构
  8. 微信加好友服务器,微信主动加好友通过率90%的小技巧-
  9. 梯度消亡--学习笔记
  10. 201512 CCF