java 排序stackoverflow_爬取 100 万条 StackOverflow 问答后,我得出的结论!
爬虫的具体操作流程是,打开 StackOverflow 主页,在 questions 页面下选择按 vote 排序,爬取前 20000 页,每页将问题数量设置为 50,共 100 万条,实际上用数据库去重后只有 999654 条问答信息。
他分别对votes、answers、views进行了分析,咱们来看一下他的分析结果吧。
一、votes 分析
降序排列了 votes 数,生成折线图
2k 后的问题的 votes 数基本上就已经在 400 以下了,接着后面的就基本上是贴地飞行了。
votes 数最多 : Why is it faster to process a sorted array than an unsorted array?
votes 数的连续分布情况:
可见最多的还是集中在 1-2K 之间,从 6k 开始基本上就断层了
descriptioncountvotes >= 5001630votes >= 4002325votes >= 3003782votes >= 2007062votes >= 10019781
如果以 100 为分界线的话,会得到这样的一个饼图。
大于 100 的连 %2 都不到。
再来看看底层的数据。
descriptioncount1 <= votes <= 52118046 <= votes <= 1043093511 <= votes <= 1513664716 <= votes <= 2064541votes <= 20843927
可见 votes 小于 20 的,数量高达 84m。看看总体的比例吧。
二、answer 分析
降序排列了 answers 数,生成折线图。
很明显 3k 之后的 answers 数基本上就小于 20 了。
answers 数最多: What is the best comment in source code you have ever encountered?
answer数的连续分布情况。
150 后也就断层了,实际上能达到这样的回答数极少。
具体数据。
descriptioncountanswers >= 5218059answers >= 1034500answers >= 203808answers >= 30968
大于 30 的确实少的可怜,看看总体情况。
三、views 分析
降序排列了 views 数,生成折线图。
最高达到了 4.5m,100000 以后的基本上就不足 28000 了。
views 数最多: How to undo last commit(s) in Git?
views 数的连续分布情况。
进群:960410445 获取源代码!
具体数据。
descriptioncountviews >= 5000486466views >= 10000315576views >= 20000171873views >= 5000059363views >= 10000022224views >= 2000007030
大部分问答的 views 数还是集中在 20000 以内。还是得看看总体分布。
四、综合分析
再看看 votes,views,answers 三者的散点图对应情况。
votes - views
votes - answers
views - answers
views-answers散点图
总的来说,这三者对应关系类似于一个金字塔。三个图基本上都是左下角靠近原点的区域被填满,也就是说绝对大部分的问题的 votes,answers 和 views 都是属于最下层的。高质量活跃的问题是处于金字塔顶端的。三者的最高数好像也没特别明显的对应关系,且三者的最高数都不是同一个问题。
根据所有问题的 tags 提取出总量前 200 的关键词(前 50 条如下),java 排在第 2 名。
('c#', 94614),('java', 93244),('javascript', 76722),('android', 69321),('python', 62502),('c++', 58173),('php', 42596),('ios', 37773),('jquery', 37405),('.net', 36180),('html', 28536),('css', 26174),('c', 24699),('objective-c', 23253),('iphone', 22171),('ruby-on-rails', 20143),('sql', 19171),('asp.net', 18060),('mysql', 17559),('ruby', 16397),('r', 15670),('git', 13139),('linux', 13080),('asp.net-mvc', 12857),('angularjs', 12606),('sql-server', 12473),('node.js', 12212),('django', 11576),('arrays', 11006),('algorithm', 10959),('wpf', 10631),('performance', 10619),('xcode', 10613),('string', 10426),('windows', 10132),('eclipse', 10117),('scala', 9942),('regex', 9685),('multithreading', 9601),('json', 9266),('swift', 8950),('c++11', 8939),('haskell', 8823),('osx', 8159),('visual-studio', 8140),('html5', 7627),('database', 7567),('xml', 7478),('spring', 7464),('unit-testing', 7253),('bash', 6825)
这样看好像不太直观,所以就把它根据词频生成了词云。
传送门地址:https://github.com/chenjiandongx/stackoverflow-spider
java 排序stackoverflow_爬取 100 万条 StackOverflow 问答后,我得出的结论!相关推荐
- python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........
原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...
- [Python私活案例]24行代码,轻松赚取400元,运用Selenium爬取39万条数据
今天分享一单来自金主爸爸的私单,运用简单的爬虫技巧,可以有效的规避反爬机制,正所谓"你有张良计,我有过云梯".这个案例也很好的体现了python语音的优势,规避了非常复杂的底层逻辑 ...
- 这届网友实在是太有才了!用python爬取15万条《我是余欢水》弹幕
年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐>,截止到目前为止,这两部剧在豆瓣分别为7.5分和7.9分,算 ...
- Python爬取15万条《我是余欢水》弹幕,看郭京飞如何演活极丧中年人
CDA数据分析师 出品 他来了他来了,正午阳光带着新剧走来了. 年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐&g ...
- Python爬取15万条《我是余欢水》弹幕,还原一个丧到极致的中年人生
▼ 更多精彩推荐,请关注我们 ▼ 作者:Mika 数据:真达 后期:泽龙 [导语]:今天我们聊聊热干面,Python技术部分可以直接看第四部分.公众号后台,回复关键字"余欢水" ...
- 100行python代码爬取5万条网易新闻评论
前几天学习了一下如何爬取网易新闻动态评论,以demo为基础扩展成了100行的小程序,一次可以获取5万多条评论(当然,这取决于当时的评论总数),代码贴上: from bs4 import Beautif ...
- Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是......
作者 | 量化小白H 责编 | 胡巍巍 Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_source=csdn_bw 本文爬取了 ...
- Python爬取2万条相亲数据!看看中国单身男女都在挑什么
想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以某相亲网站为例子,爬取搜索页面当中所有 ...
- Python爬取2万条相亲网站数据!看看中国单身男女都在挑什么!
想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以"世纪佳缘"这个相 ...
最新文章
- Office 365 成微软 AI 落地载体, 53 项 AI 功能你用过多少?
- 15+ tar command usages with examples – Unix/Linux--reference
- poj 1384 完全背包
- (FFOS Gecko Gaia) OTA - 转移至System App
- [css] 你有使用过字体图标吗?它有什么好处?
- FD.io VSAP(VPP Stack Acceleration Project),通过FD.io VSAP构建用户态协议栈
- 安慰奶牛 最小生成树
- Mininet与真实网络链接的方法
- App在后台运行时如何保存数据到sqlite数据库
- 没有可用软件包 docker-compose。_R语言CRAN软件包Meta分析
- 智慧医院建设方案_【聚焦医改】安泰创新智慧医院建设方案惊艳中国医院院长大会!...
- 数学建模——层次分析法
- i18n国际化资源配置各个国家语言汇总
- 基于cat12和SPM12进行VBMSBM数据分析笔记1——数据预处理
- 盘点几个在手机上可以用来学习编程的软件
- 网站被劫持的方式,和检测方法、网站被劫持、检测方法有哪些
- php和mysql不在一台机器上_MySQL_在同一台机器上运行多个 MySQL 服务,**************************************** - phpStudy...
- LOAM论文和程序代码的解读
- 空间解析几何:圆柱面一般式方程的推导——已知中轴线和半径
- CLA not signed yet