python 处理大数据
最近大数据竞赛很火,本人python没学多久,想试着写一下,只是实现了数据的处理,主要用到了dict,list,file知识
还有一点要说,我也用matlab实现了,但是运行完要差不多两分钟,但是python秒处理,有木有啊,足见python处理文本功能之强大
文件里的数据格式:
clientid shopingid num date
1111000 3873 2 4月5日
clientinfo = []
shopinginfo = {}
month={}
day={}
shopidflag = 0
clientstartflag = 0
total={}
tmpclientid=''
output= open('f:/a.txt','a')
with open('f:/s.txt','r') as data_file:for lineinfo in data_file:lineinfo = lineinfo.split()clientid = lineinfo[0]shopingid = lineinfo[1]num=[]num.append(lineinfo[2])data = lineinfo[3]data = data[:-1]data = data.split('月')monthvar=[]monthvar.append(data[0])dayvar=[]dayvar.append(data[1])if clientid in clientinfo and shopingid in shopinginfo and int(data[0])>=6:shopinginfo[shopingid].append(lineinfo[2])month[shopingid].append(data[0])day[shopingid].append(data[1])elif clientid in clientinfo and shopingid not in shopinginfo and int(data[0])>=6:shopinginfo[shopingid]=nummonth[shopingid]= monthvarday[shopingid] = dayvarelif clientid not in clientinfo :#if clientstartflag == 1: clientflag = 0shopinglink=''for (k, v) in shopinginfo.items():total={}vote=0for i in v:if i in total:total[i]+=1else:total[i]=1 for var in total:if var == '0':vote += total[var]elif var == '1':vote = 0break elif var == '2':vote += total[var]*2else:vote += total[var]*3if vote >= 3:if clientflag == 0:output.write(tmpclientid+'\t')clientflag =1shopinglink+=k+','if clientflag == 1:output.write(shopinglink.strip(',')+'\r\n')shopinginfo={}month ={}day ={}clientinfo=[]tmpclientid=clientidclientinfo.append(clientid)shopinginfo[shopingid]=nummonth[shopingid] = monthvarday[shopingid] = dayvarshopinglink=''for (k, v) in shopinginfo.items():for i in v:if i in total:total[i]+=1else:total[i]=1total={}vote=0for i in v:if i in total:total[i]+=1else:total[i]=1 for var in total:if var == '0':vote += total[var]elif var == '1':vote = 0break elif var == '2':vote += total[var]*2else:vote += total[var]*3if vote >= 3:if clientflag == 0:clientflag =1shopinglink+=k+','if clientflag == 1:output.write(tmpclientid+'\t')output.write(shopinglink.strip(','))data_file.close()output.close()
python 处理大数据相关推荐
- pythonppt教材_PPT、H5、Python、大数据……浙江中小学新教材9月投入使用!
今年9月的新学期,浙江三到九年级信息技术课将替换新教材.消息一出,引起浙江学生家长的关注. 其中最大的变化是,八年级将新增Python课程内容.新高一信息技术编程语言由VB替换为Python,大数据. ...
- python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)
原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...
- 财务大数据比赛有python吗-Python 适合大数据量的处理吗?
我很喜欢用python,用python处理数据是家常便饭,从事的工作涉及nlp,算法,推荐,数据挖掘,数据清洗,数据量级从几十k到几T不等,我来说说吧 百万级别数据是小数据,python处理起来不成问 ...
- python处理excel大数据-Python实现大数据收集至excel的思路详解
一.在工程目录中新建一个excel文件 二.使用python脚本程序将目标excel文件中的列头写入,本文省略该部分的code展示,可自行网上查询 三.以下code内容为:实现从接口获取到的数据值写入 ...
- python能处理多大的数据-Python 适合大数据量的处理吗?
python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 王守崑,推荐系统,数据挖掘 需要澄清两点之后才可以比较全面的看这个问题: ...
- python做大数据的框架_Python+大数据计算平台,PyODPS架构手把手教你搭建
原文链接:http://click.aliyun.com/m/13965/ 在2016年10月的云栖社区在线培训上,来自阿里云大数据事业部的秦续业分享了<双剑合壁--Python和大数据计算平台 ...
- 【Python开发】Python 适合大数据量的处理吗?
Python 适合大数据量的处理吗? python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 需要澄清两点之后才可以比较全面的看这 ...
- python开发转行做数据分析_转行学IT,Java、Python、大数据选择学哪个发展好?
对薪资不满意.担心自己以后不好找工作,不少人都会选择参加培训,转行IT行业.当然很多想要转行IT的人,都会犹豫选择哪门编程语言学习比较好,Python.Java.大数据作为比较热门行业技术,不少人都很 ...
- 基于python的分布式扫描器_一种基于python的大数据分布式任务处理装置的制作方法...
本发明涉及数据处理技术,具体是一种基于python的大数据分布式任务处理装置. 背景技术: 本发明提供一种分布式队列任务处理方案和装置,该方法可以提供分布式处理python任务,任务类型包括爬虫及其他 ...
- python 写入excel 日期_详解:Python实现大数据收集至excel的思路大牛分享(建议收藏)...
一.在工程目录中新建一个excel文件 二.使用python脚本程序将目标excel文件中的列头写入,本文省略该部分的code展示,可自行网上查询 三.以下code内容为:实现从接口获取到的数据值写入 ...
最新文章
- spring-cloud-ribbon负载均衡
- Tungsten Fabric SDN — Service Chain — 高级特性
- 人脸识别简史与近期进展
- c++语言读txt数据,关于C++中读取txt文件中字符串 - 程序语言 - 小木虫 - 学术 科研 互动社区...
- 分块编码(Transfer-Encoding: chunked)
- 「陶哲軒實分析」 習題 3.4.4
- 条形码扫描仪行业调研报告 - 市场现状分析与发展前景预测
- 华为OSN7500结构特点及产品定位相关知识
- Thymeleaf 教程
- python检查验证_Python:在时间、日期之间进行检查。验证日期
- Linux cp: omitting directory错误的原因及解决办法
- php图片上传保留第一帧,七牛云上传视频怎么截取第一帧为图片
- 解决height:100vh超出屏幕高度的问题
- 会python_会Python了不起吗?是的,简直开挂!
- Timeout waiting for connection from pool
- 互联网晚报 | 7月9日 星期六 |马斯克终止收购推特;​B 站回应 2 亿余条用户账号疑泄露传闻;上海逐步开放电影院和演出场所...
- 《UNIX环境高级编程(第3版)》
- thinkphp6 框架源码分析
- 编写SPI DAC驱动程序
- 解密!高德地图九大绝密卷宗带你畅游上海迪士尼
热门文章
- [BZOJ1271][BeijingWc2008][二分]秦腾与教学评估
- 操作系统 考研习题 详细解析(1)
- 基于Go语言Beego+Layui的OA办公系统
- PAT Basic Level 1069 微博转发抽奖 解题思路及AC代码 v1.0
- 齐岳多吡啶萘酰亚胺荧光树形分子(PDPN),三萘嵌二苯二酰亚胺类近红外有机光功能分子定制,4-氨基-1, 8-萘酰亚胺类化合物
- python设计一个三维向量类_一个简单的三维向量类
- 造车失败后投身机器人和AI,我笑戴森太疯癫,戴森笑我看不穿
- 克鲁伊夫:斗牛士因巴萨疯癫 红蓝一点克死皇马(2009-11-17)
- python统计英语单词出现次数
- 下一个五年,存储的生意在哪里?