python用来批量处理一些数据的第一步吧。

对于我这样的的萌新。这是第一步。

#encoding=utf-8

file='test.txt'fn=open(file,"r")printfn.read()

fn.close()

在控制台输出txt文档的内容,注意中文会在这里乱码。因为和脚本文件放在同一个地方,我就没写路径了。

还有一些别的操作。

这是文件open()函数的打开mode,在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操作。

可以具体看上面这个博主,自己做test熟悉。我只是做一个简单的操作test。

这里用jieba库,对文档做一个中文分词的操作,以便我们以后对这些txt文档进行更好的分类操作。

具体可以看这个。jieba库的安装很方便,只要安装了pip,配置好了环境变量。

在命令行输入

pip install jieba

就可以自行安装了。

我试了他的几个函数,不知道为什么不能正常地在txt文档输出结果。= =只有一个可以正常使用。

(2017.05.19补充:其中所有的函数都可以在txt文档输出结果,只需要在前面加上三行代码即可。)

importsys

reload(sys)

sys.setdefaultencoding("utf-8" )

#encoding=utf-8

importjiebaimportjieba.posseg as psegimportre

filename='result.txt'fileneedCut='test.txt'fn=open(fileneedCut,"r")

f=open(filename,"w+")for line infn.readlines():

words=pseg.cut(line)for w inwords:print >>f,str(w)

f.close()

fn.close()

把需要分词的txt放到脚本同一目录就好了。

后面是词的属性,左边是test文件,右边reault文件,和最流行的ICTCLAS的分词后属性貌似是一致的。= =。有点迷。

python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词相关推荐

  1. python如何引用txt_python项目依赖库生成requirements.txt文件

    python项目依赖库生成requirements.txt文件 第一种:pip freeze > requirements.txt 第二种:pipreqs 项目根目录(不能有中文)--encod ...

  2. jieba,为中文分词而生的Python库

    jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...

  3. 多个html合成txt,Python - 将多个HTML页解析为单个TXT文件

    我试图从X个HTML文件解析特定内容到单个TXT文件.Python - 将多个HTML页解析为单个TXT文件 我已经dirtily编码如下: #!/usr/bin/python import sys, ...

  4. 怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件,模拟输出“两会”内容 答案公布...

    董明珠是中国产业界的女强人,她曾经说过 "两会"的名言:"成功人的两会:开会,培训会.普通人的两会:约会,聚会.穷人的两会:这也不会,那也不会.奋斗的人两会:必须会,一定 ...

  5. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

  6. 将 a.txt 文件中的单词与 b.txt 文件中的单词交替合并到 c.txt 文件 中

    package again;import java.io.*;/* 1.编写一个程序,将 a.txt 文件中的单词与 b.txt 文件中的单词交替合并到 c.txt 文件 中,a.txt 文件中的单词 ...

  7. 基于python中jieba包的中文分词中详细使用(一)

    文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...

  8. 基于python中jieba包的中文分词中详细使用(二)

    文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...

  9. 自定义语义分割数据集(划分训练集与验证集)、并且将一个文件夹下的所有图片的名字存到txt文件

    目录 1.划分训练集.验证集与测试集 2.文件名称保存为txt 3.文件移动 4. 将数据集保存为.pkl格式以及读取.pkl格式文件 我们可以借助Pytorch从文件夹中读取数据集,十分方便,但是P ...

  10. python中读写excel的扩展库_Python读写Excel文件第三方库汇总,你想要的都在这儿!...

    常见库简介 xlrd xlrd是一个从Excel文件读取数据和格式化信息的库,支持.xls以及.xlsx文件. http://xlrd.readthedocs.io/en/latest/ 1.xlrd ...

最新文章

  1. Apache Camel 2.15.0 发布,Java 规则引擎
  2. 性能调优常见问题与方案
  3. Javascript cookie使用详解
  4. 38. Leetcode 101. 对称二叉树 (二叉树-二叉树性质)
  5. seaborn常用图
  6. 小鱼易连电脑版_电脑?不,它是随时就绪的专业电话会议解决方案
  7. Java扩展机制可加载所有JAR
  8. Java:在Runnable中处理RuntimeException
  9. Mysql orangepi_orangepi4安装gogs
  10. Spark的event事件监听器LiveListenerBus和特质SparkListenerBus以及特质ListenerBus
  11. SAP License:SAP系统的优点和功能
  12. C++编程:输入/输出 I/O
  13. 移动设备尺寸规范汇总(转)
  14. Spring Cloud 微服务
  15. KendoGrid的使用
  16. 消灭Bug,开发者不可不知的几款Bug探索测试神器。
  17. HCNE实验操作视频   迅雷下载
  18. unity不规则碰撞_Unity中的刚体和碰撞器
  19. PHP中冒号加引号,冒号的五种用法 冒号引号的三种用法
  20. 按键精灵自动登录网站范例源码

热门文章

  1. 基于傅里叶变换的音频重采样算法 (附完整c代码)
  2. [转] HTML5 Blob与ArrayBuffer、TypeArray和字符串String之间转换
  3. 骗子防不胜防,我们该如何安全上网?
  4. 十分简洁的手机浏览器 lydiabox
  5. 讲解sed用法入门帖子
  6. 网络故障解决方案之非标准子网划分【网管员必懂】
  7. 为什么要开这个博客?我在这个博客里写什么?
  8. SQLSERVER中修复状态为Suspect的数据库
  9. SDN控制器ONOS架构—Vecloud
  10. 提取稳定前景的两种方法