http://xlzd.me/2015/09/12/zhihu

  玩知乎很久了,在知乎上学到不少知识,也学到不少抖机灵的技巧,知乎带给我最大的回忆,xwx。作为一个知乎重度用户兼技术宅,简单抓取了一下知乎的一点数据,力求看到一个尽可能真实的知乎社区。


数据抓取

  知乎没有可以一页一页翻取用户资料的列表页,而且用户首页URL也没有规律可循,完全是用户自定义的。考虑到我不准备拿下全部知乎用户,只希望 取到一批质量不错的优质用户,我的抓取策略是这样的:用一个知乎大牛入手,抓取他的关注列表,然后进入他的关注列表,抓取每个人的资料后再抓取这这些人关 注的列表,依次走下去。

  这里我选取的入口是大名鼎鼎的轮子哥,轮子哥对我影响很深,甚至我的昵称xlzd也是模仿他的vczh而来的。令我欣慰的是,从轮子哥的关注列表出去,几分钟之后就抓到了我自己的信息。
程序运行了3天,一共抓取了1,008,071用户的数据,从他/她们的详情页获取到每个人的信息之后,又接入了FacePlusPlus的API,对每个人的头像进行了人脸识别。
  对于数据抓取,刚好前几天得到一台阿里云的免费试用VPS,用来当做数据库服务器,然后在我的树莓派和洛杉矶用来FQ的VPS上分别部署了一个单线程的爬虫。至于为什么是单线程的爬虫,原因有二:

  • 情怀:知乎提供一个免费的优质社区平台,我不想占用它太多的资源。
  • 技术:知乎的robots.txt禁止抓取/people下的数据,爬取太快容易被封。

  到今天下班前,阿里云的机器马上到期了,我停掉了所有爬虫,从阿里云导出了数据。现在先是一些简单的统计信息。

知乎top榜

  • 知乎话题关注度top10:

    1. 电影
    2. 旅行
    3. 互联网
    4. 创业
    5. 科技
    6. 健身
    7. 设计
    8. 美食
    9. 自然科学
    10. 经济学
  • 知乎粉丝最多top3:

    1. 李开复
    2. 黄继新(知乎联合创始人)
    3. 周源(知乎CEO/001号员工)

知乎的用户怎么样

  从知乎的用户地域分布开始吧,下面是知乎的大概地理分布信息:

  北上广深是知乎用户最集中的地区了,大概是由于知乎用户大多是计算机行业,而这几个城市又是中国计算机行业最繁荣的城市了。

  接着是知乎用户的公司分布情况:

  除了学生群体,知乎用户的重要聚集地就是各大互联网公司了。当然不难想象,学生群体中,计算机相关专业也有着非常大的占比。

  下面的图是知乎用户职业TOP20:

  很难想象,知乎用户中的产品经理占比竟然如此之高!!!是程序猿没有时间刷知乎,还是当今互联网已经发展到了一个程序猿接受N个产品经理的摧 残,还请产品经理站出来说点什么。另一个令人意外的是,知乎竟然有接近1.03%的用户是CEO,1.407%的用户是创始人或者联合创始人,知乎作为无 数国内社区中逼格最高的社区,当之无愧~~~剩下的TOP20榜中,几乎被互联网从业群体包揽了。

  然后接下来的这张图是知乎用户大学学校分布图:

  由图知,知乎用户的受教育水平相当高,这也进一步夯实了其作为逼格最高的中国互联网社区。可是,在下这种没有上过大学的互联网搬砖民工,拿什么跟你们一起愉快的玩(zhuang)耍(bi)~~~

  还有就是知乎用户的专业分布情况:

  计算机科学与技术和软件工程稳稳地将其他专业甩在了在可预见的将来无法超越的远方。壮哉~~~

  最后是知乎用户的性别分布:

  总体来看,知乎用户男性居多,一小部分用户没有填写性别。

总结

  废话就不赘述啦,还要去喂熊呢。从上面的信息结合日常生活经验,我的一些想法:

  • 理论基础:

    1. 互联网从业人群男女比例97:3。
    2. 知乎大致男女比例5:4(不算那6.6%没有标注性别的)。
    3. 知乎男性用户群体中,互联网从业人员比例相当高。
    4. 知乎整体用户受教育水平相当高。
  • 结论:
    1. 在中国所有社区中,知乎的逼格无人能出其右。这里没有不转不是中国人,这里何炅韩庚也没有与韩国人打赌。这里大家都在认真讨论问题或者假装认真讨论问题。
    2. 作为先现实生活工作中接触异性比较少的互联网从业者,可以考虑来知乎试试。尤其是考虑到这里的互联网从业人员数量,对技术宅有兴趣的女同学们也可 以来碰碰运气。所以建议我周围还没有女朋友的同胞们,去知乎试试,要知道90后男性已经比女性少了1/6(以及由于男女比例失衡带来的影响王尼玛这期大事 件已经算过了),知乎的比例已经很不错了,一般人我不告诉他。
    3. 在知乎,找工作/招人/找女朋友/找男朋友都是不错的(我收到过至少5个工作邀约,虽然或礼貌或粗鲁的回绝了)。
    4. 由于知乎开放注册的缘故,用户质量已经大大降低(很多0回答0赞0感谢用户)了。
    5. 这里每100人中就有2.4个人左右是CEO/创始人/联合创始人,不多说意味着什么。
    6. 感谢知乎,在这里我学到了如何学习,如何假装学习,如何变成计算机大神,如何假装计算机大神,如何抖机灵,......。

一个知乎重度用户眼中的知乎相关推荐

  1. python程序员月薪-月薪30k的资深程序员用Python爬取了知乎百万用户!并数据分析!...

    数据量:3,289,329 人. 数据采集工具:分布式 python 爬虫 分析工具:ElasticSearch + Kibana 分析角度:地理位置.男女比例.各类排名.所在高校.活跃程度等. 请各 ...

  2. 顶级python程序员 知乎_月薪30k的资深程序员用Python爬取了知乎百万用户!并数据分析!...

    数据量:3,289,329 人. 数据采集工具:分布式 python 爬虫 分析工具:ElasticSearch + Kibana 分析角度:地理位置.男女比例.各类排名.所在高校.活跃程度等. 请各 ...

  3. 两亿多用户,六大业务场景,知乎AI用户模型服务性能如何优化?

    作者 | 王政英 来源 | 知乎技术专栏 用户模型简介 知乎 AI 用户模型服务于知乎两亿多用户,主要为首页.推荐.广告.知识服务.想法.关注页等业务场景提供数据和服务,例如首页个性化 Feed 的召 ...

  4. linux 终端 画圆,16个圆桌面Linux用户必须要知道的Shell命令

    16个圆桌面Linux用户必须要知道的Shell命令 16个圆桌面Linux用户必须要知道的Shell命令 日期:2014-05-16 浏览次数:20305 次 16个桌面Linux用户必须要知道的S ...

  5. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

  6. 用react模仿知乎的用户头像裁剪组件

    用react模仿知乎的用户头像裁剪组件 前段时间刷知乎的时候,更换换了下头像,突然发现知乎头像编辑器很简洁酷炫,于是乎就用react尝试模仿做一个组件. 知乎上的这个是用canvas处理的,但是用di ...

  7. 知乎访问mysql_百万级别知乎用户数据抓取与分析之PHP开发

    这次抓取了110万的用户数据,数据分析结果如下: 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu: 安装PHP5.6或以上版本: 安装curl. ...

  8. 本地用户和组 知多少?

    博客搬家至: 石头儿 www.shitouer.cn 本博文地址:本地用户和组 知多少? ------------------------------------------------------- ...

  9. 人的知识就好比一个圆圈,圆圈里面是已知的,圆圈外面是未知的

    人的知识就好比一个圆圈,圆圈里面是已知的,圆圈外面是未知的.你知道的越多,圆圈也就越大,你不知道的也就越多.                                               ...

最新文章

  1. Unity UI代码自动生成
  2. svn仓库出现already locked error解决方法:cleanup
  3. 永不丢失照片:防弹照片备份的完整指南
  4. DataTables获取指定元素的行数据
  5. MyBatis初级入门及常见问题
  6. 利用动态规划(DP)解决 Coin Change 问题
  7. java中对date的一些处理以及获取date
  8. 你的Android应用完全不需要那么多的权限
  9. html5-样式表的使用-初步
  10. Array类型的扩展
  11. gre考试是机考还是笔试?
  12. Remember this!
  13. Git 使用 stash暂存代码
  14. 照片尺寸怎么修改,3大工具推荐
  15. 如何在Tableau Desktop中创建自定义调色板 - 优阅达
  16. idea中搭建基于maven的ssm整合框架
  17. A3Mall 会员管理模块下测试用例编写
  18. Android字母导航示例
  19. 我眼中未来的计算机资料,我心目中未来的计算机
  20. java report to zpl_如何以ZPL格式打印报告

热门文章

  1. 在线base64加密解密工具
  2. mysql 做回归模型_技术分享 | 我对 MySQL 隔离级别的剖析
  3. Hive Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
  4. Android:文件读写.
  5. Unity Android DLL热更
  6. 使用云CRM的10个理由
  7. Rancher 1.6发布:EBS支持、密文管理和CLI增强
  8. 大白话讲解Promise(三)搞懂jquery中的Promise
  9. GIT基本概念和用法总结
  10. java设计模式----简单工厂