我试图解析一系列文本文件,并使用Python(2.7.3)将它们保存为CSV文件。所有文本文件都有一个4行长的头,需要删除。数据行有各种分隔符,包括“(引号)、—(破折号)、:列和空格。我发现在C++中用所有这些不同的分隔符来编码它是一种痛苦,所以我决定在Python中尝试它比C/C++更容易。

我写了一段代码来测试一行数据,它工作了,但是,我无法让它工作在实际的文件中。为了解析一行代码,我使用了文本对象和“replace”方法。看起来我当前的实现将文本文件读取为列表,并且列表对象没有替换方法。

作为一个Python新手,我被困在这一点上。任何意见都将不胜感激!

谢谢!# function for parsing the data

def data_parser(text, dic):

for i, j in dic.iteritems():

text = text.replace(i,j)

return text

# open input/output files

inputfile = open('test.dat')

outputfile = open('test.csv', 'w')

my_text = inputfile.readlines()[4:] #reads to whole text file, skipping first 4 lines

# sample text string, just for demonstration to let you know how the data looks like

# my_text = '"2012-06-23 03:09:13.23",4323584,-1.911224,-0.4657288,-0.1166382,-0.24823,0.256485,"NAN",-0.3489428,-0.130449,-0.2440527,-0.2942413,0.04944348,0.4337797,-1.105218,-1.201882,-0.5962594,-0.586636'

# dictionary definition 0-, 1- etc. are there to parse the date block delimited with dashes, and make sure the negative numbers are not effected

reps = {'"NAN"':'NAN', '"':'', '0-':'0,','1-':'1,','2-':'2,','3-':'3,','4-':'4,','5-':'5,','6-':'6,','7-':'7,','8-':'8,','9-':'9,', ' ':',', ':':',' }

txt = data_parser(my_text, reps)

outputfile.writelines(txt)

inputfile.close()

outputfile.close()

用python进行文本分析_用Python分析文本文件相关推荐

  1. python进行文本预处理_用python做NLP:中文文本预处理

    数据挖掘入门与实战  公众号: datadw 一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() retur ...

  2. python新闻文本聚类_用Python实现文档聚类

    在本教程中,我会利用 Python 来说明怎样聚类一系列的文档.我所演示的实例会识别出 top 100 电影的(来自 IMDB 列表)剧情简介的隐藏结构.关于这个例子的详细讨论在初始版本里.本教程包括 ...

  3. python获取文本光标_使用python readline时如何获取(并设置)当前bash光标位置?

    我可以建议 Python curses吗? The curses module provides an interface to the curses library, the de-facto st ...

  4. 用python处理文本数据_用Python读取几十万行文本数据

    我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作. keyword_li ...

  5. python 文本分析_使用Python进行文本分析–书评

    python 文本分析 This is a book review of Text Analytics with Python: A Practical Real-World Approach to ...

  6. python微博文本分析_基于Python的微博情感分析系统设计

    基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...

  7. 用python进行营销分析_用python进行covid 19分析

    用python进行营销分析 Python is a highly powerful general purpose programming language which can be easily l ...

  8. python微博评论情感分析_基于Python的微博情感分析系统设计

    2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...

  9. python酒店评论分析_酒店舆情分析

    Python进行携程酒店评论舆情分析 第一步:分析设计 我们是对酒店进行舆情分析,所有我们的核心是酒店的评论数据:对住客的评论数据进行特征提取,通过住客对酒店的评分,对数据进行分类,并使用朴素贝叶斯算 ...

  10. python水浒传名字次数_基于Python的《水浒传》中人物分析

    基于 Python 的<水浒传>中人物分析 ◆杨旭东 [摘 要] 摘要:随着大数据技术的应用领域不断扩大,信息量也在日益膨胀, 而有价值的信息是有限的,利用文本挖掘技术可以高效地获取长文本 ...

最新文章

  1. python数据库框架_Python数据库及ORM框架对比选择
  2. php json_encode中提示的中文总是返回\u767b\u5f55\u6210\u529f\uff01的解决办法
  3. 深度学习:技术原理、迭代路径与局限
  4. NPM使用淘宝NPM镜像的使用方法汇总
  5. synergy在Windows和Linux下使用全攻略(多台PC共享一套键盘鼠标)
  6. Html.BeginForm() vs Ajax.BeginForm() in MVC3
  7. Android数据手册:Android颜色码制表
  8. LeetCode 1537. 最大得分(切片取出局部最大值)
  9. yafu安装使用方法以及mismatched parens解决方法
  10. 2016/4/22 图形用户界面
  11. 关于Keil中,变量函数跨文件引用报错问题
  12. hibernate环境搭建
  13. 用Spring Boot实现一个高铁/铁路售票系统
  14. 思源黑体ttf_金刚黑体最粗版丨金刚黑体Bold+San Francisco
  15. python setup.py install没反应_花了两天,终于把 Python 的 setup.py 给整明白了
  16. 2021年机修钳工(中级)考试资料及机修钳工(中级)新版试题
  17. c语言求最大值 若有多个最大,二个随机变量的最大值与最小值分布的求法.pdf
  18. Java 模板变量替换——字符串替换器
  19. canvas实现 行人 走路的动画(完整实现)
  20. MySql新增、修改、删除表字段、字段数据类型、长度等(附带各种实际案例语句)

热门文章

  1. Mysql连接的原理
  2. shell脚本显示颜色的设置
  3. freemarker 使用简单笔记
  4. 【PHP面向对象(OOP)编程入门教程】20.PHP5接口技术(interface)
  5. 魏兴华_ORACLE优化器革命漫谈
  6. JS正则表达式 替换首尾和中间的空格
  7. mhvtl虚拟磁带库(提供软件包)
  8. @RequestMapping测试各种访问方式
  9. C# 启动与停止进程
  10. Linux 内存管理之 SLUB分配器 (4):slub page大小计算方法