python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧。
对于我这样的的萌新。这是第一步。
#encoding=utf-8
file='test.txt'fn=open(file,"r")printfn.read()
fn.close()
在控制台输出txt文档的内容,注意中文会在这里乱码。因为和脚本文件放在同一个地方,我就没写路径了。
还有一些别的操作。
这是文件open()函数的打开mode,在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操作。
可以具体看上面这个博主,自己做test熟悉。我只是做一个简单的操作test。
这里用jieba库,对文档做一个中文分词的操作,以便我们以后对这些txt文档进行更好的分类操作。
具体可以看这个。jieba库的安装很方便,只要安装了pip,配置好了环境变量。
在命令行输入
pip install jieba
就可以自行安装了。
我试了他的几个函数,不知道为什么不能正常地在txt文档输出结果。= =只有一个可以正常使用。
(2017.05.19补充:其中所有的函数都可以在txt文档输出结果,只需要在前面加上三行代码即可。)
importsys
reload(sys)
sys.setdefaultencoding("utf-8" )
#encoding=utf-8
importjiebaimportjieba.posseg as psegimportre
filename='result.txt'fileneedCut='test.txt'fn=open(fileneedCut,"r")
f=open(filename,"w+")for line infn.readlines():
words=pseg.cut(line)for w inwords:print >>f,str(w)
f.close()
fn.close()
把需要分词的txt放到脚本同一目录就好了。
后面是词的属性,左边是test文件,右边reault文件,和最流行的ICTCLAS的分词后属性貌似是一致的。= =。有点迷。
python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词相关推荐
- python如何引用txt_python项目依赖库生成requirements.txt文件
python项目依赖库生成requirements.txt文件 第一种:pip freeze > requirements.txt 第二种:pipreqs 项目根目录(不能有中文)--encod ...
- jieba,为中文分词而生的Python库
jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...
- 多个html合成txt,Python - 将多个HTML页解析为单个TXT文件
我试图从X个HTML文件解析特定内容到单个TXT文件.Python - 将多个HTML页解析为单个TXT文件 我已经dirtily编码如下: #!/usr/bin/python import sys, ...
- 怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件,模拟输出“两会”内容 答案公布...
董明珠是中国产业界的女强人,她曾经说过 "两会"的名言:"成功人的两会:开会,培训会.普通人的两会:约会,聚会.穷人的两会:这也不会,那也不会.奋斗的人两会:必须会,一定 ...
- 基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
- 将 a.txt 文件中的单词与 b.txt 文件中的单词交替合并到 c.txt 文件 中
package again;import java.io.*;/* 1.编写一个程序,将 a.txt 文件中的单词与 b.txt 文件中的单词交替合并到 c.txt 文件 中,a.txt 文件中的单词 ...
- 基于python中jieba包的中文分词中详细使用(一)
文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...
- 基于python中jieba包的中文分词中详细使用(二)
文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...
- 自定义语义分割数据集(划分训练集与验证集)、并且将一个文件夹下的所有图片的名字存到txt文件
目录 1.划分训练集.验证集与测试集 2.文件名称保存为txt 3.文件移动 4. 将数据集保存为.pkl格式以及读取.pkl格式文件 我们可以借助Pytorch从文件夹中读取数据集,十分方便,但是P ...
- python中读写excel的扩展库_Python读写Excel文件第三方库汇总,你想要的都在这儿!...
常见库简介 xlrd xlrd是一个从Excel文件读取数据和格式化信息的库,支持.xls以及.xlsx文件. http://xlrd.readthedocs.io/en/latest/ 1.xlrd ...
最新文章
- Apache Camel 2.15.0 发布,Java 规则引擎
- 性能调优常见问题与方案
- Javascript cookie使用详解
- 38. Leetcode 101. 对称二叉树 (二叉树-二叉树性质)
- seaborn常用图
- 小鱼易连电脑版_电脑?不,它是随时就绪的专业电话会议解决方案
- Java扩展机制可加载所有JAR
- Java:在Runnable中处理RuntimeException
- Mysql orangepi_orangepi4安装gogs
- Spark的event事件监听器LiveListenerBus和特质SparkListenerBus以及特质ListenerBus
- SAP License:SAP系统的优点和功能
- C++编程:输入/输出 I/O
- 移动设备尺寸规范汇总(转)
- Spring Cloud 微服务
- KendoGrid的使用
- 消灭Bug,开发者不可不知的几款Bug探索测试神器。
- HCNE实验操作视频 迅雷下载
- unity不规则碰撞_Unity中的刚体和碰撞器
- PHP中冒号加引号,冒号的五种用法 冒号引号的三种用法
- 按键精灵自动登录网站范例源码