1、处理包含数据的文件

最近利用python读取txt文件时遇到了一个小问题,就是在计算两个np.narray()类型的数组时,出现了以下错误:

作为一个python新手,遇到这个问题后花费了挺多时间,在网上找了许多大神们写的例子,最后终于解决了。

总结如下:

(1)出现此问题的原因是:目的是想计算两个数组间的差值,但数组中的元素不是数据类型(float或int等),而是str类型的。

(2)解决方法:在为空数组添加数据过程中,将每个数据强制转化为float型。

如将“character.append(dataset[i][:-1])”修改为“ character.append([float(tk) for tk in dataset[i][:-1]])”

现将利用python读取txt文件的过程总结如下:

python版本为python3.6

(1)函数定义,存放于function.py文件中:

(2)实现两个数组间的减法,存放于main.py文件中:

(3)运行结果:

数据集如下:

2、处理文本文件,如情感识别类的文件

在进行文本的情感分类时,从电影评论数据集网站上下载数据集后,发现数据集中存在许多不需要的符号。截取部分包含多余字符的数据如下:

下载数据集后,所有txt文件存放在两个文件夹:“neg”(包含消极评论)和“pos”(包含积极地评论)中。

两者的存放目录如下:“f:\self_learning\机器学习\python\bayes\review_polarity\txt_sentoken”。后面需要用到文件路径,此路径可根据自己存放目录修改。

主要涉及到的python操作有:多余字符的删除、文件夹中多文件的操作。

2.1 多余字符的删除

首先,我们要删除多余的符号,获得干净的数据。

经过查找资料,知道删除一条文本数据中不需要的符号,可以通过re.sub(chara,newchara,data)函数实现,其中chara是需要删除的字符,newchara是删除字符后相应位置的替换字符,data是需要操作的数据。比如下面的代码,指的是删除lines中包含的前面列出的字符,并用空白替换:

2.2 python对多文件的操作

下面的程序中,pathdirpos指的是所有积极评论的txt文件所在的目录,在此指的是“f:\self_learning\机器学习\python\bayes\review_polarity\txt_sentoken\pos”。child就是获得的每个txt文件全名。

2.3 电影评论数据集预处理

下面给出对于电影评论数据集的预处理程序(python3.6).

以上这篇对python .txt文件读取及数据处理方法总结就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持服务器之家。

原文链接:https://blog.csdn.net/weixin_38215395/article/details/78679296

python txt文件处理软件,对python .txt文件读取及数据处理方法总结相关推荐

  1. 潇洒郎:吐血经验——用python 结合好压软件 实现批量压缩文件或文件夹、并同时添加压缩密码方法———因为zipfile模块或者其他模块无法实现为文件添加压缩密码

    python 结合好压软件 实现批量压缩文件或文件夹.并同时添加压缩密码 先说说写本博客的缘由,也是吐血的经验教训: 由于一些原因需要为大量文件资料添加压缩密码,而好压软件只能实现单个文件压缩,不能进 ...

  2. 自学python需要安装什么软件-学Python需要安装什么软件?Python软件工具大全

    工欲善其事必先利其器.初学者在学Python的时候,往往会因为没有好用的软件工具,走了很多弯路.因此一些好用的软件工具,可以极大地提高开发效率,那么学Python需要安装什么软件呢?本文为大家整理了几 ...

  3. 自学python需要下载什么软件-学python下载什么软件开发

    编程这个东西是真的奇妙.对于懂得的人来说,会觉得这个工具是多么的好用.有趣,而对于小白来说,就如同大山一样.其实这个都可 以理解,大家都是这样过来的.那么接下来就说一下python相关的东西吧,并说一 ...

  4. python需要下载哪些软件-学python下载什么软件开发

    编程这个东西是真的奇妙.对于懂得的人来说,会觉得这个工具是多么的好用.有趣,而对于小白来说,就如同大山一样.其实这个都可 以理解,大家都是这样过来的.那么接下来就说一下python相关的东西吧,并说一 ...

  5. 自学python需要安装什么-学Python需要安装什么软件?Python软件工具大全

    工欲善其事必先利其器.初学者在学Python的时候,往往会因为没有好用的软件工具,走了很多弯路.因此一些好用的软件工具,可以极大地提高开发效率,那么学Python需要安装什么软件呢?本文为大家整理了几 ...

  6. python能做什么软件-初学python编程,有哪些不错的软件值得一用?

    推荐些适合初学用python编程的软件,有一些软件虽然功能强大,也广受大家认可,但个人不认为适合初学者.比如PyCharm.Anaconda. IDLE 作为Python默认安装的 ide,基本的功能 ...

  7. 学Python需要安装什么软件?Python软件工具大全

    工欲善其事必先利其器.初学者在学Python的时候,往往会因为没有好用的软件工具,走了很多弯路.因此一些好用的软件工具,可以极大地提高开发效率,那么学Python需要安装什么软件呢?本文为大家整理了几 ...

  8. 写python程序用什么软件最好-Python必学之编译器用哪个好?你用错了吧!

    CPython 当我们从Python官方网站下载并安装好Python 3.x后,我们就直接获得了一个官方版本的解释器:CPython.这个解释器是用C语言开发的,所以叫CPython.在命令行下运行p ...

  9. linux下实现对多个文件去重软件,Linux下大文件的排序和去重复

    简单的用法如下,如一个文件名:happybirthday.txt cat happybirthday.txt (显示文件内容) Happy Birthday to You! Happy Birthda ...

最新文章

  1. hdu 2552 三足鼎立 关于tan的数论
  2. 转载自csdn SQL SERVER 与ACCESS、EXCEL的数据转换
  3. 分布式Matlab计算集群建立方法与Demo
  4. 内网学习之MySQL服务提权
  5. mysql.createPool(db),Node.js中JavaScript操作MySQL的常用方法整理
  6. 春晚晒出京东“奔富村”成绩单 京东年货节期间累计帮助300万农户户均增收近1700元...
  7. python代码注释规范-Python编程规范之注释
  8. 在Winform中实现半透明遮罩层
  9. Atitit  发帖机实现(1)-----UsrQBm2008 页面上下文规范
  10. android获取网络时间工具类,Android检测网络接口访问速度,ping接口获取访问时间平均值...
  11. 微信公众号文章中插入的图片如何实现滑动效果
  12. QQ音乐车机模式中蓝牙音乐无效
  13. JAVA面试题集(2) (转)
  14. Android长时间后台运行,内存被回收再次打开导致APP崩溃(APP在后台被系统回收后,如何重新启动?)
  15. Mac下设置idea的代码提示快捷键
  16. 【深度学习框架输入格式】NCHW还是NHWC?
  17. c语言用指针分离字符串数字与字符,c语言实验报告,指针的应用分别输出字符串中的数字和其他字符(共10篇).docx...
  18. Spring Cloud Finchley OpenFeign的重试配置相关的坑
  19. python商业爬虫培训
  20. 中国大陆银行业金融机构法人名单(截至2020年末)

热门文章

  1. Mac安装weditor教程
  2. 你知道旋风图怎么制作吗?这个Excel技巧你一定要知道
  3. 基于帧率统计,fraps与msi afterburner的对比
  4. 蒙特梭利 部首和偏旁 练习册(一)蒙氏语言蒙氏素材
  5. 修改MIUI9状态栏布局文件达到“iOS状态栏布局”效果
  6. 形容等待时间长的句子_形容等待时间漫长的励志名句
  7. python之MyQR库生成专属二维码
  8. Personalized Cross-Silo Federated Learning on Non-IID Data阅读记录
  9. kubernetes 1.9.2 安装步骤
  10. 服装企业如何利用APS生产计划排产提升管理效益?