csdn密码泄漏,640万用户数据泄漏,对于在小公司的我,从没见过这么大数据量,于是非
常兴奋,迫不及待的想去操作一下如此大的表。

使用mysql,首先建表。

     create database csdn;

     create table csdn(        id int not null auto_increment,        username varchar(100),        passwd varchar(100),        email varchar(100),        primary key (id)      )

接着导入表,由于泄漏的文件不是标准sql,只有三列,使用#隔开,因此使用load data infile方式。

     load data local infile '/home/kaka/csdn.sql' into table csdn fields terminated by '#' (username,passwd,email);

导入成功,共有6428632条记录。

这么多条记录,访问起来十分慢,首先建几条索引(index)

    create index passwd_index on csdn(passwd) using btree;

时间是
[quote]
Query OK, 6428632 rows affected (3 min 46.82 sec)
[/quote]
再对邮箱建一个索引:

    create index email_index on csdn(email) using btree;

用的时间更长,
[quote]
Query OK, 6428632 rows affected (6 min 51.11 sec)
Records: 6428632 Duplicates: 0 Warnings: 0
[/quote]
不过和后面的查询减少的时间比起来,这个6分钟也是很值得了。

下面来进行一些有趣的分析:

1、常用密码排名(前20名)
[quote]
| passwd | count(passwd) |
+--------------+---------------+
| 123456789 | 235029 |
| 12345678 | 212766 |
| 11111111 | 76348 |
| dearbook | 46052 |
| 00000000 | 34953 |
| 123123123 | 20010 |
| 1234567890 | 17794 |
| 88888888 | 15033 |
| 111111111 | 6995 |
| 147258369 | 5966 |
| aaaaaaaa | 5890 |
| 987654321 | 5555 |
| 1111111111 | 5145 |
| 66666666 | 5026 |
| a123456789 | 4686 |
| 11223344 | 4096 |
| 1qaz2wsx | 3969 |
| password | 3654 |
| xiazhili | 3649 |
| 789456123 | 3611 |

[/quote]
12345678和12345678分别突破20万,整天叫嚷这数据安全的程序员们,轮到自己的时候,密码就这么简单啊~ :lol:
排名第四的是dearbook,有4.6万人,我不清楚dearbook有何含义,知道的解释下吧。

以ilove**作为密码的共有12031个人。

2、没有重复的密码:
[quote]
!(*!!
!(()!!!^
!((%)*)(QWtxd
!((%!((%
!(($)
!((!)*)
!((!)()%
!((
!(&^)^!(
!(&^!!@&
!(()!!@
!(()!@)(cloud
!(()!@)6125dou
!()jian20
!((^)^@@123123
!((@0709yxw
!((*03230225tian
!(()HB1990128
!(()0803
!(())@)@@

[/quote]

要想密码没有重复,!,(,)不可少啊~不过这也太难记了吧。。

3、80后统计
把密码设为日期的应该就是自己的出生日期了吧
来统计一下80后

[quote]
birth count
----- ------
1980 15374
1981 21923
1982 34535
1983 35144
1984 39849
1985 41709
1986 50940
1987 59569
1988 53519
1989 45269
----- ------
397831
[/quote]
将近40万的80后哦~

4、注册邮箱排名(前20)
[quote]
qq.com 1972584
163.com 1763310
126.com 806199
sina.com 350870
yahoo.com.cn 205110
hotmail.com 202361
gmail.com 186086
sohu.com 104554
yahoo.cn 86797
tom.com 72231
yeah.net 53114
21cn.com 50597
vip.qq.com 35055
139.com 29105
263.net 24756
sina.com.cn 19103
live.cn 18860
sina.cn 18574
yahoo.com 18338
foxmail.com 16382

[/quote]

从这张表里,大概能反映目前国内各邮箱厂商的市场占有率:网易和qq领先竞争对手非常多,网易256万多,腾讯200万左右,排名第三的新浪只有35万左右。后面依次是雅虎,hotmail,gmail,sohu。。

5、大学统计
根据邮箱后缀来统计各大学注册人数
[quote]
mail.ustc.edu.cn 2035 中科大
sjtu.edu.cn 1876 上海交大
bjtu.edu.cn 1341 北京交大
fudan.edu.cn 981 复旦
stu.xjtu.edu.cn 930 西安交大
zju.edu.cn 876 浙大
mails.tsinghua.edu.cn 716 清华
bit.edu.cn 691 北京理工
mail.nankai.edu.cn 640 南开
stu.edu.cn 559 汕头大学
emails.bjut.edu.cn 487 北京工大
swu.edu.cn 450 西南大学
nenu.edu.cn 413 东北师范
ustc.edu 345 中科大
mail.dhu.edu.cn 327 东华大学
cqu.edu.cn 311 重庆大学
pku.edu.cn 309 北大
mail.sdu.edu.cn 309 山东大学
stu.snnu.edu.cn 299 陕西师范大学
cqut.edu.cn 260 重庆理工
[/quote]

中科大,上海交大,北京交大占据了前三甲啊。。

6、两个段子
[quote]
RT @hecaitou: 转:CSDN 杯我最喜欢的密码大决选总冠军:ppnn13%dkstFeb.1st。看不懂?中文解析:娉娉袅袅十三余,豆蔻梢头二月初。
[/quote]
经查,没有这个密码。。
[quote]
转:CSDN杯我最喜欢的密码大决选季军: FLZX3000cY4yhx9day (飞流直下三千尺,疑似银河下九天) hanshansi.location()!∈[gusucity](姑苏城外寒山寺) hold?fish:palm(鱼和熊掌不可兼得)
[/quote]
经查,只有 FLZX3000C 这个存在,其它的都不存在。
这帮文人啊,造些无聊的段子有神马意义~

csdn的分析就到这里吧,下一篇将是对4000万天涯数据的分析,敬请期待啊~

ps:
1、建库,导入数据,建索引时间都是基于我的笔记本上虚拟机统计出来的。P8500双核,1G内存.
2、处理大数据,linux系列比windows强太多了。在win7上查询不下去了,我才转移到ubuntu上的。
3、本人只是对处理大规模数据感兴趣,所以才下载了这些数据,仅用来学习,不害人不传播,请勿跨省,请勿向我索取。

csdn泄漏密码分析相关推荐

  1. ******CSDN后引发 7K7K 、嘟嘟牛、178、多玩、猫扑、人人等各大知名网站数据库下载地址 (转载)...

    ******CSDN后引发 7K7K .嘟嘟牛.178.多玩.猫扑.人人等各大知名网站数据库下载地址 今日有***在网上公开了CSDN网站用户数据库,包括600余万个明文的注册邮箱帐号和密码.CSDN ...

  2. 菜鸟nginx源码剖析

    菜鸟nginx源码剖析 配置与部署篇(一) 手把手配置nginx "I love you"  TCMalloc 对MYSQL 性能 优化的分析 菜鸟nginx源码剖析系列文章解读 ...

  3. 中国互联网的十二月大灾变

    开发者门户CSDN泄漏600万用户数据,其中包含极为敏感的用户名.密码.垂直游戏网站多玩网泄漏800万用户数据,大部分加密也有小部分明文保存,措手不及的用户们瑟瑟颤抖. 紧接着51CTO.CNZZ.e ...

  4. 浅谈HASH算法与CSDN密码泄漏事件

    在CSDN密码泄漏事件中,网友评论提到密码的明文保存和MD5保存问题.目前,很多站点都用MD5算法保存密码,但对于HASH(哈希)算法的认识还存在很多误区,很有必要重新认识. 一.HASH算法不是加密 ...

  5. 内存溢出和内存泄漏的定义,产生原因以及解决方法(面试经验总结)

    一.定义(概念与区别) 内存溢出 out of memory,是指程序在申请内存时,没有足够的内存空间供其使用,出现out of memory:比如申请 了一个integer,但给它存了long才能存 ...

  6. 转载CSDN - 从程序员到HR——面试经验分享

    CSDN博客一周热文推荐,为您总结回顾过去一周的CSDN博客热门文章,推荐优质的博客作者,分享精华文章和优质博客. [1] 谭海燕:北漂之惠普H3C面试经历 上一篇讲到了<北漂之百度面试> ...

  7. android中常见的内存泄漏和解决的方法

    android中的内存溢出预计大多数人在写代码的时候都出现过,事实上突然认为工作一年和工作三年的差别是什么呢.事实上干的工作或许都一样,产品汪看到的结果也都一样,那差别就是速度和质量了. 写在前面的一 ...

  8. [转]最快速度找到内存泄漏

    http://hi.baidu.com/%C0%EE%B6%AB%CF%FE/blog/item/0f1983a170a08989471064aa.html 内存管理是C++程序员的痛.我的<内 ...

  9. Handler消息机制(八):Handler内存泄漏的场景有哪些,如何避免

    使用AndroidStudio检测内存泄漏: 一.内存泄漏的原因 一般内存泄漏(traditional memory leak)的原因是:由忘记释放分配的内存导致的. 逻辑内存泄漏(logical m ...

  10. Handler为什么可能会造成内存泄漏以及可用的四种解决方法

    在Android系统中,Handler是一个消息发送和处理机制的核心组件之一,与之配套的其他主要组件还有Looper和Message,MessageQueue. 根据官网的描述 There are t ...

最新文章

  1. Complete C# Unity Game Developer 2D
  2. angularJS新增 品优购新增品牌
  3. 数字图像处理:第二十三章 基于内容的图象与视频检索
  4. css实现页面文字不换行、自动换行、强制换行
  5. ExtJS,JQuery,Dojo的小比较
  6. 【干货】比赛后期大招之stacking技术分享
  7. 人工智能综述性论文_人工智能论文研读:深度学习算法与架构综述(包含详细统计表)...
  8. Glib2之定义手册(十八)
  9. 【编程好习惯】引入中间变量使程序更易读
  10. react 结合 axios 异步请求封装
  11. C++ 类的隐式转换之基本数据类型
  12. Unity 用mono打开脚本时修改其显示分格,可VS风格等显示
  13. paip.c++ gcc 不能捕获exception异常的解决
  14. 写代码质量改善java计划151建议——导航开始
  15. 单核CPU使用多线程能否提高效率?
  16. sql服务器注册表被禁用,彻底删除SQL Server注册表信息
  17. Redis采用不同内存分配器碎片率对比
  18. 成就更好的自己,就是不停地做减法
  19. azure云上 在线将oracle单实例扩展成oracle dataguard高可用集群的详细过程
  20. 免费录屏软件Captura安装配置

热门文章

  1. CSS Reset Modern CSS Reset
  2. DBC连接数据库经验技巧
  3. 《Python学习手册》——使用入门
  4. 【独家】小程序初体验及它带来的龙卷风
  5. 关于安装NTKO Office插件的方法
  6. 申请清华大学计算机类的理由,选择清华大学的十大理由(网络收集整理)
  7. 与孩子一起学编程03章
  8. C++基于MFC编程——课程管理系统
  9. 图书管理系统(课程设计)
  10. 《Java并发编程实践》笔记1——并发编程基础