爬虫的具体操作流程是,打开 StackOverflow 主页,在 questions 页面下选择按 vote 排序,爬取前 20000 页,每页将问题数量设置为 50,共 100 万条,实际上用数据库去重后只有 999654 条问答信息。

他分别对votes、answers、views进行了分析,咱们来看一下他的分析结果吧。

一、votes 分析

降序排列了 votes 数,生成折线图

2k 后的问题的 votes 数基本上就已经在 400 以下了,接着后面的就基本上是贴地飞行了。

votes 数最多 : Why is it faster to process a sorted array than an unsorted array?

votes 数的连续分布情况:

可见最多的还是集中在 1-2K 之间,从 6k 开始基本上就断层了

descriptioncountvotes >= 5001630votes >= 4002325votes >= 3003782votes >= 2007062votes >= 10019781

如果以 100 为分界线的话,会得到这样的一个饼图。

大于 100 的连 %2 都不到。

再来看看底层的数据。

descriptioncount1 <= votes <= 52118046 <= votes <= 1043093511 <= votes <= 1513664716 <= votes <= 2064541votes <= 20843927

可见 votes 小于 20 的,数量高达 84m。看看总体的比例吧。

二、answer 分析

降序排列了 answers 数,生成折线图。

很明显 3k 之后的 answers 数基本上就小于 20 了。

answers 数最多: What is the best comment in source code you have ever encountered?

answer数的连续分布情况。

150 后也就断层了,实际上能达到这样的回答数极少。

具体数据。

descriptioncountanswers >= 5218059answers >= 1034500answers >= 203808answers >= 30968

大于 30 的确实少的可怜,看看总体情况。

三、views 分析

降序排列了 views 数,生成折线图。

最高达到了 4.5m,100000 以后的基本上就不足 28000 了。

views 数最多: How to undo last commit(s) in Git?

views 数的连续分布情况。

进群:960410445 获取源代码!

具体数据。

descriptioncountviews >= 5000486466views >= 10000315576views >= 20000171873views >= 5000059363views >= 10000022224views >= 2000007030

大部分问答的 views 数还是集中在 20000 以内。还是得看看总体分布。

四、综合分析

再看看 votes,views,answers 三者的散点图对应情况。

votes - views

votes - answers

views - answers

views-answers散点图

总的来说,这三者对应关系类似于一个金字塔。三个图基本上都是左下角靠近原点的区域被填满,也就是说绝对大部分的问题的 votes,answers 和 views 都是属于最下层的。高质量活跃的问题是处于金字塔顶端的。三者的最高数好像也没特别明显的对应关系,且三者的最高数都不是同一个问题。

根据所有问题的 tags 提取出总量前 200 的关键词(前 50 条如下),java 排在第 2 名。

('c#', 94614),('java', 93244),('javascript', 76722),('android', 69321),('python', 62502),('c++', 58173),('php', 42596),('ios', 37773),('jquery', 37405),('.net', 36180),('html', 28536),('css', 26174),('c', 24699),('objective-c', 23253),('iphone', 22171),('ruby-on-rails', 20143),('sql', 19171),('asp.net', 18060),('mysql', 17559),('ruby', 16397),('r', 15670),('git', 13139),('linux', 13080),('asp.net-mvc', 12857),('angularjs', 12606),('sql-server', 12473),('node.js', 12212),('django', 11576),('arrays', 11006),('algorithm', 10959),('wpf', 10631),('performance', 10619),('xcode', 10613),('string', 10426),('windows', 10132),('eclipse', 10117),('scala', 9942),('regex', 9685),('multithreading', 9601),('json', 9266),('swift', 8950),('c++11', 8939),('haskell', 8823),('osx', 8159),('visual-studio', 8140),('html5', 7627),('database', 7567),('xml', 7478),('spring', 7464),('unit-testing', 7253),('bash', 6825)

这样看好像不太直观,所以就把它根据词频生成了词云

传送门地址:https://github.com/chenjiandongx/stackoverflow-spider

java 排序stackoverflow_爬取 100 万条 StackOverflow 问答后,我得出的结论!相关推荐

  1. python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........

    原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...

  2. [Python私活案例]24行代码,轻松赚取400元,运用Selenium爬取39万条数据

    今天分享一单来自金主爸爸的私单,运用简单的爬虫技巧,可以有效的规避反爬机制,正所谓"你有张良计,我有过云梯".这个案例也很好的体现了python语音的优势,规避了非常复杂的底层逻辑 ...

  3. 这届网友实在是太有才了!用python爬取15万条《我是余欢水》弹幕

    年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐>,截止到目前为止,这两部剧在豆瓣分别为7.5分和7.9分,算 ...

  4. Python爬取15万条《我是余欢水》弹幕,看郭京飞如何演活极丧中年人

    CDA数据分析师 出品 他来了他来了,正午阳光带着新剧走来了. 年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐&g ...

  5. Python爬取15万条《我是余欢水》弹幕,还原一个丧到极致的中年人生

    ▼ 更多精彩推荐,请关注我们 ▼ 作者:Mika 数据:真达   后期:泽龙  [导语]:今天我们聊聊热干面,Python技术部分可以直接看第四部分.公众号后台,回复关键字"余欢水" ...

  6. 100行python代码爬取5万条网易新闻评论

    前几天学习了一下如何爬取网易新闻动态评论,以demo为基础扩展成了100行的小程序,一次可以获取5万多条评论(当然,这取决于当时的评论总数),代码贴上: from bs4 import Beautif ...

  7. Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是......

    作者 | 量化小白H 责编 | 胡巍巍 Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_source=csdn_bw 本文爬取了 ...

  8. Python爬取2万条相亲数据!看看中国单身男女都在挑什么

    想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以某相亲网站为例子,爬取搜索页面当中所有 ...

  9. Python爬取2万条相亲网站数据!看看中国单身男女都在挑什么!

    想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以"世纪佳缘"这个相 ...

最新文章

  1. Office 365 成微软 AI 落地载体, 53 项 AI 功能你用过多少?
  2. 15+ tar command usages with examples – Unix/Linux--reference
  3. poj 1384 完全背包
  4. (FFOS Gecko Gaia) OTA - 转移至System App
  5. [css] 你有使用过字体图标吗?它有什么好处?
  6. FD.io VSAP(VPP Stack Acceleration Project),通过FD.io VSAP构建用户态协议栈
  7. 安慰奶牛 最小生成树
  8. Mininet与真实网络链接的方法
  9. App在后台运行时如何保存数据到sqlite数据库
  10. 没有可用软件包 docker-compose。_R语言CRAN软件包Meta分析
  11. 智慧医院建设方案_【聚焦医改】安泰创新智慧医院建设方案惊艳中国医院院长大会!...
  12. 数学建模——层次分析法
  13. i18n国际化资源配置各个国家语言汇总
  14. 基于cat12和SPM12进行VBMSBM数据分析笔记1——数据预处理
  15. 盘点几个在手机上可以用来学习编程的软件
  16. 网站被劫持的方式,和检测方法、网站被劫持、检测方法有哪些
  17. php和mysql不在一台机器上_MySQL_在同一台机器上运行多个 MySQL 服务,**************************************** - phpStudy...
  18. LOAM论文和程序代码的解读
  19. 空间解析几何:圆柱面一般式方程的推导——已知中轴线和半径
  20. CLA not signed yet

热门文章

  1. UVA583 UVALive5406 Prime Factors【素数因子+筛选法】
  2. Python程序-生成回文
  3. HDU2009 求数列的和【入门】
  4. 设计模式在各编程语言类库及框架上的应用
  5. Tricks(四十八)—— 注释一段代码
  6. 0.618 与 1.414
  7. UNIX 环境高级编程(七)—— 进程标识
  8. Python Tricks(三)—— 计算误分率
  9. 机器学习基础(五十三)—— 精确率与召回率(多分类问题精确率和召回率的计算)
  10. 【剑指 offer】(二十四)—— 二叉搜索树的后序遍历序列