最近大数据竞赛很火,本人python没学多久,想试着写一下,只是实现了数据的处理,主要用到了dict,list,file知识

还有一点要说,我也用matlab实现了,但是运行完要差不多两分钟,但是python秒处理,有木有啊,足见python处理文本功能之强大

文件里的数据格式:

clientid      shopingid      num    date

1111000   3873             2          4月5日

clientinfo = []
shopinginfo = {}
month={}
day={}
shopidflag = 0
clientstartflag = 0
total={}
tmpclientid=''
output= open('f:/a.txt','a')
with open('f:/s.txt','r') as data_file:for lineinfo in data_file:lineinfo = lineinfo.split()clientid = lineinfo[0]shopingid = lineinfo[1]num=[]num.append(lineinfo[2])data = lineinfo[3]data = data[:-1]data = data.split('月')monthvar=[]monthvar.append(data[0])dayvar=[]dayvar.append(data[1])if clientid in clientinfo and shopingid in shopinginfo and int(data[0])>=6:shopinginfo[shopingid].append(lineinfo[2])month[shopingid].append(data[0])day[shopingid].append(data[1])elif clientid in clientinfo and shopingid not in shopinginfo and int(data[0])>=6:shopinginfo[shopingid]=nummonth[shopingid]= monthvarday[shopingid] = dayvarelif clientid not in clientinfo :#if clientstartflag  == 1: clientflag = 0shopinglink=''for (k, v) in shopinginfo.items():total={}vote=0for  i  in v:if  i  in total:total[i]+=1else:total[i]=1      for var in total:if var == '0':vote += total[var]elif var == '1':vote = 0break elif var == '2':vote += total[var]*2else:vote += total[var]*3if vote >= 3:if clientflag == 0:output.write(tmpclientid+'\t')clientflag =1shopinglink+=k+','if clientflag == 1:output.write(shopinglink.strip(',')+'\r\n')shopinginfo={}month ={}day ={}clientinfo=[]tmpclientid=clientidclientinfo.append(clientid)shopinginfo[shopingid]=nummonth[shopingid] = monthvarday[shopingid] = dayvarshopinglink=''for (k, v) in shopinginfo.items():for  i  in v:if  i  in total:total[i]+=1else:total[i]=1total={}vote=0for  i  in v:if  i  in total:total[i]+=1else:total[i]=1      for var in total:if var == '0':vote += total[var]elif var == '1':vote = 0break elif var == '2':vote += total[var]*2else:vote += total[var]*3if vote >= 3:if clientflag == 0:clientflag =1shopinglink+=k+','if clientflag == 1:output.write(tmpclientid+'\t')output.write(shopinglink.strip(','))data_file.close()output.close()

python 处理大数据相关推荐

  1. pythonppt教材_PPT、H5、Python、大数据……浙江中小学新教材9月投入使用!

    今年9月的新学期,浙江三到九年级信息技术课将替换新教材.消息一出,引起浙江学生家长的关注. 其中最大的变化是,八年级将新增Python课程内容.新高一信息技术编程语言由VB替换为Python,大数据. ...

  2. python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)

    原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...

  3. 财务大数据比赛有python吗-Python 适合大数据量的处理吗?

    我很喜欢用python,用python处理数据是家常便饭,从事的工作涉及nlp,算法,推荐,数据挖掘,数据清洗,数据量级从几十k到几T不等,我来说说吧 百万级别数据是小数据,python处理起来不成问 ...

  4. python处理excel大数据-Python实现大数据收集至excel的思路详解

    一.在工程目录中新建一个excel文件 二.使用python脚本程序将目标excel文件中的列头写入,本文省略该部分的code展示,可自行网上查询 三.以下code内容为:实现从接口获取到的数据值写入 ...

  5. python能处理多大的数据-Python 适合大数据量的处理吗?

    python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 王守崑,推荐系统,数据挖掘 需要澄清两点之后才可以比较全面的看这个问题: ...

  6. python做大数据的框架_Python+大数据计算平台,PyODPS架构手把手教你搭建

    原文链接:http://click.aliyun.com/m/13965/ 在2016年10月的云栖社区在线培训上,来自阿里云大数据事业部的秦续业分享了<双剑合壁--Python和大数据计算平台 ...

  7. 【Python开发】Python 适合大数据量的处理吗?

    Python 适合大数据量的处理吗? python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 需要澄清两点之后才可以比较全面的看这 ...

  8. python开发转行做数据分析_转行学IT,Java、Python、大数据选择学哪个发展好?

    对薪资不满意.担心自己以后不好找工作,不少人都会选择参加培训,转行IT行业.当然很多想要转行IT的人,都会犹豫选择哪门编程语言学习比较好,Python.Java.大数据作为比较热门行业技术,不少人都很 ...

  9. 基于python的分布式扫描器_一种基于python的大数据分布式任务处理装置的制作方法...

    本发明涉及数据处理技术,具体是一种基于python的大数据分布式任务处理装置. 背景技术: 本发明提供一种分布式队列任务处理方案和装置,该方法可以提供分布式处理python任务,任务类型包括爬虫及其他 ...

  10. python 写入excel 日期_详解:Python实现大数据收集至excel的思路大牛分享(建议收藏)...

    一.在工程目录中新建一个excel文件 二.使用python脚本程序将目标excel文件中的列头写入,本文省略该部分的code展示,可自行网上查询 三.以下code内容为:实现从接口获取到的数据值写入 ...

最新文章

  1. spring-cloud-ribbon负载均衡
  2. Tungsten Fabric SDN — Service Chain — 高级特性
  3. 人脸识别简史与近期进展
  4. c++语言读txt数据,关于C++中读取txt文件中字符串 - 程序语言 - 小木虫 - 学术 科研 互动社区...
  5. 分块编码(Transfer-Encoding: chunked)
  6. 「陶哲軒實分析」 習題 3.4.4
  7. 条形码扫描仪行业调研报告 - 市场现状分析与发展前景预测
  8. 华为OSN7500结构特点及产品定位相关知识
  9. Thymeleaf 教程
  10. python检查验证_Python:在时间、日期之间进行检查。验证日期
  11. Linux cp: omitting directory错误的原因及解决办法
  12. php图片上传保留第一帧,七牛云上传视频怎么截取第一帧为图片
  13. 解决height:100vh超出屏幕高度的问题
  14. 会python_会Python了不起吗?是的,简直开挂!
  15. Timeout waiting for connection from pool
  16. 互联网晚报 | 7月9日 星期六 |马斯克终止收购推特;​B 站回应 2 亿余条用户账号疑泄露传闻;上海逐步开放电影院和演出场所...
  17. 《UNIX环境高级编程(第3版)》
  18. thinkphp6 框架源码分析
  19. 编写SPI DAC驱动程序
  20. 解密!高德地图九大绝密卷宗带你畅游上海迪士尼

热门文章

  1. [BZOJ1271][BeijingWc2008][二分]秦腾与教学评估
  2. 操作系统 考研习题 详细解析(1)
  3. 基于Go语言Beego+Layui的OA办公系统
  4. PAT Basic Level 1069 微博转发抽奖 解题思路及AC代码 v1.0
  5. 齐岳多吡啶萘酰亚胺荧光树形分子(PDPN),三萘嵌二苯二酰亚胺类近红外有机光功能分子定制,4-氨基-1, 8-萘酰亚胺类化合物
  6. python设计一个三维向量类_一个简单的三维向量类
  7. 造车失败后投身机器人和AI,我笑戴森太疯癫,戴森笑我看不穿
  8. 克鲁伊夫:斗牛士因巴萨疯癫 红蓝一点克死皇马(2009-11-17)
  9. python统计英语单词出现次数
  10. 下一个五年,存储的生意在哪里?