为什么80%的码农都做不了架构师?>>>   

一、数据抓取

  • 分析页面数据,设计数据表结构

    数据只要包含投票、回答数、问题状态、最后谁回答过、浏览数、问题标题、标签,数据样例如下:

  • 由于一开只打算爬问题标题,问题ID、问题详情也没有记录下来,最后谁回答过也不算很重要。

  • 最后使用python的urllib2抓取数据,BeautifulSoup对数据进行数据解析,mysql存取数据

  • 写好代码就开始跑,由于页面没有限制,几分钟就全部抓完,或许是问题比较少,2011至今总有3.8W问题,这个还是有点失望的。

二、数据分析

数据只有那么几项,到底能分析出什么呢?

Excel作图,下表为数据说明:

变量 answers views question_count solved votes
含义 回答数 浏览量 问题数量 解决 投票量

1.问题投票分布

不出意外的正太分布,似乎程序猿并不喜欢对问题进行投票,除非遇到自己特别认可或者特别厌恶的。比起stackoverflow上的情况似乎是要差点。

2.问题回答数量分布

从上图看以看出,回答数量集中在0-3个;而0-3个占总量的70%+。

3.问题浏览分布

比较神奇的是0-1000浏览量的问题数非常少,问题的排列使用的是:提问时间+最后有人回答过(贴吧式),这样做,只要有人回答问题沉下去就会继续顶起来。那么部分经典问题就会不断被浏览到;而有少数问题质量比较差,马上就会沉下去,如图中X轴200左右处。比较好奇的是:从整体上看,0-1000内浏览量的问题数相当少,1000左右处出现一个陡坡。

4.回答数量与浏览数量关系

首先需要说明的是上图X轴每个点样例数不一样(不同回答数的问题数量不一样),Y轴为平均views数;从图中看出回答数量和浏览量整体是成正比((X>5的样例比较少)

5.问题解决情况

6.大家都在关注什么

最后使用jieba分词对问题进行简单的分析,上面标签云为部分英文单词,并不区分大小。发现一个结论是‍‍英文中PHP词频排第一。 ‍‍ 额,好吧,我叶良辰也是服了。‍

三、最后

根据已有的数据,还可以挖掘一些数据,诸如:

什么样的问题容易有更多人回答?

你编程入门时候学的语言是什么?
求助大神帮忙推荐一款适合前端小白的编辑器?
【官方比赛】社区 1111 秀代码,让你来秀让你飞!
大家第一个阅读的开源代码是什么?
你最喜欢的开发工具是什么?
求推荐PHP框架,本人有一定PHP基础。
理解能力差、数学很差的人可以做程序员吗
百度面试题-汽水选择问题
说说你觉得最狂霸酷炫屌炸天的命令
程序员高强度编程后如何放松?

什么的问题容易被人厌恶?

如何根据一段 md5 得到原始的内容? 已关闭
使用贵公司的CDN服务,源网站需要改造吗? 已关闭
html5为什么不兼容低版本的浏览器?
对正则一直不想去背,请问php的@某人该怎么写 已关闭
基于0和1的时代什么时候能成为过去 已关闭
一家互联网公司的面试题,期待高手给出较据参考价值的分析
JavaScript 入门哪本书最好?
jQuery 怎么发送异步请求
谁能在50字以内解释下什么是大数据??谢谢
钩子的实现
html经常使用那些标签
有没有山东烟台可以做网站的小伙伴,求一起做个东西。 已关闭
PHP表单提交到数据库并查询 插入出错,
各位大牛,新手遇到个问题怎么解决啊

等等,不过还是想再吐槽一次,问题总数量实在太少了。

最后的最后,提一下我发现的一个BUG,就有几个问题的回答数量为0,但问题已经解决,我试点开某个BUG问题看看情况,结果如下:

逗我玩呢?!

转载于:https://my.oschina.net/toil/blog/521507

就国内某个程序员问答网站的简单的分析相关推荐

  1. 程序员问答网站:StackOverflow

    博客园的博客是我见到国内最好的博客了,毫无疑问!但是博问真的是不咋地.一个问题放了个把月都没一人回答. CSDN虽然论坛做的应该是国内技术论坛(IT领域)最好的了.但是,论坛都有个毛病,总是有新手会问 ...

  2. 推荐几个程序员学习网站

    推荐几个程序员学习网站   推荐编程学习网站  VB GOOD http://www.vbgood.com/  VB爱好者乐园,国内最好的VB编程交流网站  太平洋电脑网 www.pconline.c ...

  3. 最大程序员交友网站 10 岁了,它长大后要成为什么

    [导读]:全球最大的程序员交友网站是哪个?不是 Stack Overflow,就是 GitHub.根据 11 月 25 日 Alexa 的网站排名数据来看, 目前 SO 排第 60 名,GitHub ...

  4. 看了以后大呼过瘾的程序员必备网站,速速收藏!

    程序员必备的网站,网络上一搜一大把,动辄几十个甚至一百个,虽说大多数网站也都是实用的,但数量庞杂未免让人眼花缭乱. 这里我就只挑选精华,只挑选出程序员必备的8个网站,服务于程序员的工作&生活的 ...

  5. 程序员社交网站_程序员不必在社交上感到尴尬。 这里有10项社交技巧可以改善您的职业。...

    程序员社交网站 If you work as a software developer, most of your workday is spent dealing with people. 如果您是 ...

  6. BugKu -- 程序员本地网站

    程序员本地网站 100 http://120.24.86.145:8002/localhost/ 请从本地访问 这道题要求从本地访问,打开burpsuite抓包,加上:X-Forwarded-For: ...

  7. 赶紧收藏!程序员必备的工具网站,用好了节省你大把的编程时间

    公众号:前端印象 不定时有送书活动,记得关注~ 关注后回复对应文字领取:[面试题].[前端必看电子书].[数据结构与算法完整代码].[前端技术交流群] 我真的拿出我收藏的最最最实用的工具网站来给你们了 ...

  8. 程序员必备网站和工具

    程序员必备网站和工具 思维工具:Xmind PPT模板:办公资源.站长素材.笨鸟网.PPTStone.六图网.欧酷PPT 招聘软件:前程无忧.智联招聘.BOSS直聘 Maven仓库:https://m ...

  9. Bugku-CTF之管理员系统+程序员本地网站

    Day12 管理员系统 http://123.206.31.85:1003/ flag格式flag{} 本题要点:伪造请求头 解释一下伪造请求头~ X-Forwarded-For: 简称XFF头,它代 ...

最新文章

  1. Java初学者如何自学和自己定位解决问题
  2. ORACLE关闭启动的诡异错误
  3. 深度学习中IU、IoU(Intersection over Union)的概念理解以及python程序实现
  4. 23种设计模式及其对应实例-转
  5. unix到底有啥用_观点|什么是Unix以及它为什么这么重要?
  6. 编程的智慧 意外在内网找到的资源
  7. 光纤收发器在使用过程中有哪些需要注意的事项?
  8. Mycat和Mysql搭建高可用企业数据库集群
  9. 云计算三重奏:SAAS、PAAS和IAAS
  10. 国内少有的Flutter干货分享:Flutter的原理及美团的实践!
  11. 【转】Java URL Encoding and Decoding
  12. 从Scrum之父探源敏捷方法论
  13. UVA 10815 安迪的第一个字典
  14. Java - 什么是ORM?
  15. STM32模拟IIC读取PCF8563
  16. Matlab三相全桥逆变电路的仿真
  17. 蚂蚁集团IPO的小秘密:人均月薪5.5万,利润有望超中国石油
  18. 传奇3服务器配置文件,传奇3.0服务器的架设和设置详细介绍
  19. Python办公自动化|批量生成请假条
  20. 设置火狐浏览器firefox模拟微信浏览器客户端,调试网站

热门文章

  1. 32 位的有符号整数_leetcode 7 整数反转
  2. oracle display set,Check if the DISPLAY variable is set
  3. 比特协议是骗局吗_山寨币也玩收割,“BTG比特黄金”挖矿骗局大揭秘
  4. 虚拟机python建站_搭建本地虚拟服务器linux(CentOS 7)的python虚拟环境(Hyper-V演示)...
  5. docker查找镜像_5 款非常好用的开源 Docker 工具,get一波~
  6. c++ char* 改变长度重新赋值_[C/C++] 2 :分析下列代码有什么问题?
  7. mysql 字符转换函数是_MySQL日期和字符串转换函数
  8. 收藏功能_微软Edge获得了新的收藏夹菜单、PDF功能等
  9. java简单词法分析器(源码下载)
  10. 计算机寄存器端口,CPU和外设之间的数据传送方式有哪几种