昨天新开的坑。
131653条数据,来自2014年末泄露到网上的12306账号信息,包括邮箱(部分QQ邮箱),姓名,电话,用户名,密码,身份证号。
还在做数据的格式化存储……

10/14更新代码:
1、数据格式化存储

# -*- coding: gbk -*-#2016/10/13  13:30
#12306泄露数据分析import csvcsvfile = file(r'D:\python27\py\loc.csv', 'rb')
reader = csv.reader(csvfile)
loc=[]
for line in reader:loc.append(line)def findLoc(theId):num=0for item in loc:if(loc[num][1]==theId):return loc[num][0]breakelse: num=num+1#print 'Given id not found'return 0hk=0
count=0
capital=0
f=open(r'C:\Users\Administrator\Desktop\data.txt','r')csvfile = file('dat.csv', 'wb')
hkcsvfile = file('hkdat.csv', 'wb')
writer = csv.writer(csvfile)
writer.writerow(['email_1','key','name','id','user_name','phone_number','email_2','birth','location','capital'])
hkwriter = csv.writer(hkcsvfile)
hkwriter.writerow(['email_1','key','name','id','user_name','phone_number','email_2','birth','location','capital'])
alldata=[]
hkdata=[]
for line in f.readlines():data=line.split('----')none=0for st in data[3]:# print str(st)+'   '+str(data[2])if(st>'9'and st!='X'):none=1#print st+'  '+data[2]break#print 'none : '+str(none)if(none==1 or len(data[3])!=18):print data[3]+'   '+data[2]pot=data[6].find('@')print data[6][pot+1:]hk=hk+1data.append('unknown_birth')data.append('港澳台地区')#编码方式换成GBK就不会在这里乱码了data.append(2)hkdata.append(data)hkwriter.writerow(data)#print 'none : '+str(none)continueelse:#print 'check---------------------------------------------'data.append(data[3][6:14])#birthdata.append(findLoc(data[3][:6]))#locationif(data[3][2:4]=='01'):#capitaldata.append(1)capital=capital+1else : data.append(0)#print dataalldata.append(data)#在excel显示csv文件时,id字段后三位为0,实际数据没有变化,故忽略这个问题#后面涉及到性别确定的时候再解决它# print 'data: '+str(data)writer.writerow(data)count=count+1if(count%1000==0):print 'count : '+str(count)#print 'alldata 5th : '+str(alldata[4])
f.close()
csvfile.close()
hkcsvfile.close()print 'done'
print 'data amount : '+str(count)
print 'hongkong id amount : '+str(hk)
#print 'capital amount : '+str(capital)

2、年龄分布统计

import csv
csvfile = file(r'D:\python27\py\datas.csv','rb')
newcsv=file(r'D:\python27\py\newcsv.csv','wb')
reader = csv.reader(csvfile)
writer=csv.writer(newcsv)
a=0
data=[]
for line in reader:level=line[7][:4]#print level#line.append(level)data.append(level)#writer.writerow(line)csvfile.close()
newcsv.close()def count(datalist,item):num=0for a in datalist:if(a==item):num=num+1print numreturn numcountlist=[]
for n in range(1940,2010,1):countlist.append([n,count(data,str(n))])
print countlist

数据统计出来之前,昨晚立的flag:

今天简单用excel作了个图:

恩。先这样。

12306泄露数据可视化分析相关推荐

  1. 计算机书籍-医学图像数据可视化分析与处理

    书名:基于深度学习的医学图像数据可视化分析与处理 作者:强彦 出版社:科学出版社 出版时间:2019年01月

  2. PCA图像数据降维及重构误差分析实战并使用TSNE进行异常数据可视化分析

    PCA图像数据降维及重构误差分析实战并使用TSNE进行异常数据可视化分析 目录 PCA图像数据降维及重构误差分析实战并使用TSNE进行异常数据可视化分析</

  3. 开源:数据可视化分析平台 DataGear 1.11.1 发布

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 来源 | https://www.oschina.net ...

  4. 数据可视化模板_10分钟,做一份数据可视化分析报表

    做一份涵盖内容多.涉及数据量大的数据可视化分析报表要多久?10分钟够吗?如果奥威BI系列的分析软件会说话,恐怕要吐槽10分钟太多,5分钟足够.不说别的,论做智能数据可视化分析报表的效率,奥威BI系列软 ...

  5. java数据分析平台源码_DataGear数据可视化分析平台 v2.0.0

    DataGear是一款数据可视化分析平台,使用Java语言开发,采用浏览器/服务器架构,支持SQL.CSV.Excel.HTTP接口.JSON等多种数据源,主要功能包括数据管理.SQL工作台.数据导入 ...

  6. 数据可视化分析票房数据报告_票房收入分析和可视化

    数据可视化分析票房数据报告 Welcome back to my 100 Days of Data Science Challenge Journey. On day 4 and 5, I work ...

  7. python导出数据顿号做分隔符_Python语言和matplotlib库做数据可视化分析

    这是我的第51篇原创文章,关于数据可视化分析. 阅读完本文,你可以知道: 1 Python语言的可视化库-matplotlib? 2 使用matplotlib实现常用的可视化? 0前言 数据记者和信息 ...

  8. python爬虫数据可视化软件_python爬虫及数据可视化分析

    1.前言 本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析,本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/) 2.数据爬取 2. ...

  9. 数据图表与分析图_史上最全最实用的数据可视化分析图表制作工具汇总

    俗话说的好:工欲善其事,必先利其器!一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化,还有数据的可交互性;我们还需要跨学科的团队,而不是单个数据 ...

  10. camunda流程定义表无数据_【经验】数据可视化分析操作指南

    昨天勾妹给大家分享了数据可视化分析的建设目标,今天聊聊如何去实现这个目标--方法体系及操作流程. 数据可视化分析方法论结构图 方法体系 数据可视化分析方法体系图 数据可视化分析的常用工作方法包括专家法 ...

最新文章

  1. 软件开发过程中的回顾
  2. DBUtils的使用之增删改的操作
  3. 输入一颗二元查找树,将该树转换为它的镜像
  4. Python中国际化(i18n)完整指南
  5. Java客户端操作elasticsearch--添加文档
  6. Mac下cocos2dx-3.2+Xcode环境配置和项目创建
  7. 【牛客 - 371牛客OI周赛7-提高组B】小睿睿的询问(RMQ,ST表维护下标)
  8. oracle数据库导入表空间,oracle数据库表空间创建导入导出
  9. 怎样修改MySQL数据库的密码
  10. linux du命令使用
  11. b站《史上最全unity3D教程》笔记1-04
  12. 多变量微分方程组带事件控制的ODE45函数写法
  13. 《Windows 8 权威指南》——1.4 易用性
  14. 操作系统C语言模拟内存分配算法的模拟实现
  15. 【测试与自动化】介绍-框架-Jest-覆盖率-异步代码-e2e-Vue测试
  16. 图片标签,超链接标签
  17. MySQL数据库高可用之mmm
  18. Python爬虫——爬取Bing壁纸
  19. Kubernetes Dashboard部署
  20. python唐诗分析综合_全唐诗分析程序

热门文章

  1. Cython简单demo
  2. C++面向对象程序设计
  3. 客户细分_客户细分初学者指南
  4. 安装程序无法打开注册表项 UNKNOWN\Components\…解决办法
  5. arduino学习笔记十四--Arduino 环境光线传感器实验
  6. java的web开发之旅——第1站html
  7. 参加江大白手把手教你-----AidLux智慧安防AI训练营
  8. Consistent hashing kills tencent2012笔试题附加题
  9. 计算机夏令营英语面试,2016北航计算机夏令营的经验
  10. 对接熊迈SDK工作记录之集成准备