用python进行文本分析_用Python分析文本文件
我试图解析一系列文本文件,并使用Python(2.7.3)将它们保存为CSV文件。所有文本文件都有一个4行长的头,需要删除。数据行有各种分隔符,包括“(引号)、—(破折号)、:列和空格。我发现在C++中用所有这些不同的分隔符来编码它是一种痛苦,所以我决定在Python中尝试它比C/C++更容易。
我写了一段代码来测试一行数据,它工作了,但是,我无法让它工作在实际的文件中。为了解析一行代码,我使用了文本对象和“replace”方法。看起来我当前的实现将文本文件读取为列表,并且列表对象没有替换方法。
作为一个Python新手,我被困在这一点上。任何意见都将不胜感激!
谢谢!# function for parsing the data
def data_parser(text, dic):
for i, j in dic.iteritems():
text = text.replace(i,j)
return text
# open input/output files
inputfile = open('test.dat')
outputfile = open('test.csv', 'w')
my_text = inputfile.readlines()[4:] #reads to whole text file, skipping first 4 lines
# sample text string, just for demonstration to let you know how the data looks like
# my_text = '"2012-06-23 03:09:13.23",4323584,-1.911224,-0.4657288,-0.1166382,-0.24823,0.256485,"NAN",-0.3489428,-0.130449,-0.2440527,-0.2942413,0.04944348,0.4337797,-1.105218,-1.201882,-0.5962594,-0.586636'
# dictionary definition 0-, 1- etc. are there to parse the date block delimited with dashes, and make sure the negative numbers are not effected
reps = {'"NAN"':'NAN', '"':'', '0-':'0,','1-':'1,','2-':'2,','3-':'3,','4-':'4,','5-':'5,','6-':'6,','7-':'7,','8-':'8,','9-':'9,', ' ':',', ':':',' }
txt = data_parser(my_text, reps)
outputfile.writelines(txt)
inputfile.close()
outputfile.close()
用python进行文本分析_用Python分析文本文件相关推荐
- python进行文本预处理_用python做NLP:中文文本预处理
数据挖掘入门与实战 公众号: datadw 一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() retur ...
- python新闻文本聚类_用Python实现文档聚类
在本教程中,我会利用 Python 来说明怎样聚类一系列的文档.我所演示的实例会识别出 top 100 电影的(来自 IMDB 列表)剧情简介的隐藏结构.关于这个例子的详细讨论在初始版本里.本教程包括 ...
- python获取文本光标_使用python readline时如何获取(并设置)当前bash光标位置?
我可以建议 Python curses吗? The curses module provides an interface to the curses library, the de-facto st ...
- 用python处理文本数据_用Python读取几十万行文本数据
我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作. keyword_li ...
- python 文本分析_使用Python进行文本分析–书评
python 文本分析 This is a book review of Text Analytics with Python: A Practical Real-World Approach to ...
- python微博文本分析_基于Python的微博情感分析系统设计
基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...
- 用python进行营销分析_用python进行covid 19分析
用python进行营销分析 Python is a highly powerful general purpose programming language which can be easily l ...
- python微博评论情感分析_基于Python的微博情感分析系统设计
2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...
- python酒店评论分析_酒店舆情分析
Python进行携程酒店评论舆情分析 第一步:分析设计 我们是对酒店进行舆情分析,所有我们的核心是酒店的评论数据:对住客的评论数据进行特征提取,通过住客对酒店的评分,对数据进行分类,并使用朴素贝叶斯算 ...
- python水浒传名字次数_基于Python的《水浒传》中人物分析
基于 Python 的<水浒传>中人物分析 ◆杨旭东 [摘 要] 摘要:随着大数据技术的应用领域不断扩大,信息量也在日益膨胀, 而有价值的信息是有限的,利用文本挖掘技术可以高效地获取长文本 ...
最新文章
- python数据库框架_Python数据库及ORM框架对比选择
- php json_encode中提示的中文总是返回\u767b\u5f55\u6210\u529f\uff01的解决办法
- 深度学习:技术原理、迭代路径与局限
- NPM使用淘宝NPM镜像的使用方法汇总
- synergy在Windows和Linux下使用全攻略(多台PC共享一套键盘鼠标)
- Html.BeginForm() vs Ajax.BeginForm() in MVC3
- Android数据手册:Android颜色码制表
- LeetCode 1537. 最大得分(切片取出局部最大值)
- yafu安装使用方法以及mismatched parens解决方法
- 2016/4/22 图形用户界面
- 关于Keil中,变量函数跨文件引用报错问题
- hibernate环境搭建
- 用Spring Boot实现一个高铁/铁路售票系统
- 思源黑体ttf_金刚黑体最粗版丨金刚黑体Bold+San Francisco
- python setup.py install没反应_花了两天,终于把 Python 的 setup.py 给整明白了
- 2021年机修钳工(中级)考试资料及机修钳工(中级)新版试题
- c语言求最大值 若有多个最大,二个随机变量的最大值与最小值分布的求法.pdf
- Java 模板变量替换——字符串替换器
- canvas实现 行人 走路的动画(完整实现)
- MySql新增、修改、删除表字段、字段数据类型、长度等(附带各种实际案例语句)