python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词

python用来批量处理一些数据的第一步吧。

对于我这样的的萌新。这是第一步。

#encoding=utf-8

file='test.txt'fn=open(file,"r")printfn.read()

fn.close()

在控制台输出txt文档的内容，注意中文会在这里乱码。因为和脚本文件放在同一个地方，我就没写路径了。

还有一些别的操作。

这是文件open（）函数的打开mode，在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操作。

可以具体看上面这个博主，自己做test熟悉。我只是做一个简单的操作test。

这里用jieba库，对文档做一个中文分词的操作，以便我们以后对这些txt文档进行更好的分类操作。

具体可以看这个。jieba库的安装很方便，只要安装了pip，配置好了环境变量。

在命令行输入

pip install jieba

就可以自行安装了。

我试了他的几个函数，不知道为什么不能正常地在txt文档输出结果。= =只有一个可以正常使用。

（2017.05.19补充：其中所有的函数都可以在txt文档输出结果，只需要在前面加上三行代码即可。）

importsys

reload(sys)

sys.setdefaultencoding("utf-8" )

#encoding=utf-8

importjiebaimportjieba.posseg as psegimportre

filename='result.txt'fileneedCut='test.txt'fn=open(fileneedCut,"r")

f=open(filename,"w+")for line infn.readlines():

words=pseg.cut(line)for w inwords:print >>f,str(w)

f.close()

fn.close()

把需要分词的txt放到脚本同一目录就好了。

后面是词的属性，左边是test文件，右边reault文件，和最流行的ICTCLAS的分词后属性貌似是一致的。= =。有点迷。

python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词相关推荐

python如何引用txt_python项目依赖库生成requirements.txt文件
python项目依赖库生成requirements.txt文件第一种:pip freeze > requirements.txt 第二种:pipreqs 项目根目录(不能有中文)--encod ...
jieba，为中文分词而生的Python库
jieba,为中文分词而生的Python库中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...
多个html合成txt,Python - 将多个HTML页解析为单个TXT文件
我试图从X个HTML文件解析特定内容到单个TXT文件.Python - 将多个HTML页解析为单个TXT文件我已经dirtily编码如下: #!/usr/bin/python import sys, ...
怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件，模拟输出“两会”内容答案公布...
董明珠是中国产业界的女强人,她曾经说过 "两会"的名言:"成功人的两会:开会,培训会.普通人的两会:约会,聚会.穷人的两会:这也不会,那也不会.奋斗的人两会:必须会,一定 ...
基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
将 a.txt 文件中的单词与 b.txt 文件中的单词交替合并到 c.txt 文件中
package again;import java.io.*;/* 1.编写一个程序,将 a.txt 文件中的单词与 b.txt 文件中的单词交替合并到 c.txt 文件中,a.txt 文件中的单词 ...
基于python中jieba包的中文分词中详细使用（一）
文章目录基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...
基于python中jieba包的中文分词中详细使用（二）
文章目录基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...
自定义语义分割数据集（划分训练集与验证集）、并且将一个文件夹下的所有图片的名字存到txt文件
目录 1.划分训练集.验证集与测试集 2.文件名称保存为txt 3.文件移动 4. 将数据集保存为.pkl格式以及读取.pkl格式文件我们可以借助Pytorch从文件夹中读取数据集,十分方便,但是P ...
python中读写excel的扩展库_Python读写Excel文件第三方库汇总，你想要的都在这儿！...
常见库简介 xlrd xlrd是一个从Excel文件读取数据和格式化信息的库,支持.xls以及.xlsx文件. http://xlrd.readthedocs.io/en/latest/ 1.xlrd ...

python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词

python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词相关推荐

最新文章

热门文章