原标题:Bilibili (B站)200万用户数据爬取与分析(附源码)

数据挖掘入门与实战 公众号: datadw

该爬虫仅供学习使用

B站用户爬虫

B站视频爬虫

B站弹幕下载器

关注并回复公众号datadw 关键词: B站获取源码地址

文件介绍

bilibili_user.py:爬虫文件

bilibili_user_info.sql:数据库文件

get_face.py:用户头像下载器基本概况

总数据数:20119918

抓取用户的顺序为其注册时间顺序:2009-06-24 14:06:54 至 2016-02-18 21:04:52

预估遗漏数据:不超过 2%

抓取字段:用户 id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。性别

有效数据:14643019

保密:11621898

男:1674196

女:1346925

这个男女比例是有点出乎个人预料的,接近 1:1。其实之前初步抓了 2013 年暑假之前的数据,男女比例当时还在 3:1 这样。

可见明确性别的群体还是比较少的,只占了总数据的 15% 左右。

更多的分析日后再做。

年龄

统计范围:1970-2010(1980 年除外)

总数据:3800767

具体数据不放了,简单看一下统计结果吧。

主要用户分布在 93-00 年的用户(大概 16-23 周岁),其中 97 年(19 岁)用户占了绝对的主导地位。

事实证明,B 站小学生并不多,而是高中生、大学生比较多。

90 后用户占主体,但是用户年龄段正在不断后移。毕竟,是一个年轻人的网站。

地区

分析范围:国内 34 个省市及地区。

有效数据:863541

主要用户分布在:广东、江苏、北京、上海、浙江等地区。都是一些经济很发达的沿海地区。

注册时间

统计时间:2009-06-24 14:06:54 至 2016-02-18 21:04:52

总数据:20119823

由于 16 年才过去 2 个多月,所以少一点,不过可以预见其发展必将远超 2015 年。自 2009 年开站以来,每年用户几乎都是以指数级增长。

活跃度统计

等级范围:0 – 6

总数据:20119918

截止时间:2016-02-18

由于 B 站有经验等级规则,用户的活跃度可以依据等级判断。

等级为 0,就是只注册未登陆过的用户。等级为 1 或 2,为非活跃用户。等级为 3 以上,就是活跃用户。其中等级为 5 或 6 的,为投稿数特别特别多、视频特别火爆的用户,为 B 站的主干用户(约 5000 人)。

关于留存率等数据,日后再统计分析。

粉丝统计

有效数据:2011918

范围:0 – 988323

截止时间:2016-02-18 21:04:52

哎 – -,我也是有 2 个粉丝的人!

以下是 B 站 TOP20 用户。很多人都非常的眼熟哈。

https://gekspider.org/geek/223.html

数据挖掘入门与实战

教你机器学习,教你数据挖掘

公众号: weic2c

责任编辑:

bilibili助手C2C服务器,Bilibili (B站)200万用户数据爬取与分析(附源码)相关推荐

  1. b站学python_Python爬虫学习教程 bilibili网站视频爬取!【附源码】

    python爬虫学习教程,万物皆可爬!每个技术大牛都是从基础慢慢的提升上去的,基础知识越深以后的发展越牛!学好python,才能玩转python,那到底怎么才能学好python? 通过爬取b站案例带领 ...

  2. Python爬虫学习教程 bilibili网站视频爬取!【附源码】

    Python爬虫学习教程,万物皆可爬!每个技术大牛都是从基础慢慢的提升上去的,基础知识越深以后的发展越牛!学好python,才能玩转python,那到底怎么才能学好python? 通过爬取b站案例带领 ...

  3. 通过路由器或服务器实现多路由多网络接入网路传输提速详细实现(附源码),五万字搞懂双路由、旁路由、分布式路由、CN2线路、IPLC线路、BGP线路的原理和实现

    通过路由器或服务器实现多路由多网络接入网路传输提速详细实现(附源码),搞懂双路由.旁路由.分布式路由.CN2线路.IPLC线路.BGP线路的原理和实现. 双wan口路由器如何实现双线接入(双wan口路 ...

  4. python b站 礼物_用Python爬取并分析了B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  5. Qt 零基础设计实现TCP服务器和客户端上位机(零基础实战详解,附源码文件)

    文章目录 TCP和UDP TCP的三次握手和四次分手 TCP和UDP的区别 关于Socket(套接字) Qt TCP服务器的设计与实现 使用Qt的 帮助 TCP服务器和客户端 区别 UI界面设计和原则 ...

  6. 绝地求生优化服务器什么意思,《绝地求生》百日行动:优化服务器,封禁200万个账号...

    <绝地求生>百日行动:优化服务器,封禁200万个账号 2018-11-17 16:02:07来源:游戏下载编辑:嘉文四世评论(0) 今天,<绝地求生>官方微博发布了一篇名为&q ...

  7. 曝肝三天,两千行Python代码,制作B站视频下载工具(附源码)

    曝肝三天,两千行Python代码,制作B站视频下载工具(附源码) 文章目录 一.准备工作 二.预览 1.启动 2.解析 3.下载中 4.下载完成 5.结果 三.设计流程 1.bilibili_vide ...

  8. 越过验证码 selenium模拟登录B站项目实战(附源码)

    实战:selenium模拟登录B站 登录验证码处理 selenium 中的难点验证码破解因为确实没有很好的方式,一般都需要通过第三方平台实现破解,本案例中使用的是超级鹰平台(收费,大概1元30次,测试 ...

  9. 手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 位卑未敢忘忧国,事定犹须待阖棺. ...

最新文章

  1. 神经网络“炼丹炉”内部构造长啥样?牛津大学博士小姐姐用论文解读
  2. Windows 10 powershell 中文乱码解决方案
  3. 使用OpenCV进行人脸识别的三种方法
  4. Android中DatePicker日期选择器的使用和获取选择的年月日
  5. 【jquery版.net控件—dropdownlist】附源码,欢迎大家指点、指正、拍砖!!!
  6. ajax使用pur请求怎么传参,数组参数传递给控制器的方式
  7. Microsoft+R:Microsoft R Open (MRO)安装和多核运作
  8. 使用 SQL Server 代理来计划 SSAS 管理任务
  9. win10平板模式_电脑也能当平板用?并可以轻松实现分屏
  10. 读取文件时,文本文件的UTF-8格式带来的问题
  11. c语言编写面向对象的类
  12. ios共享账号公众号_我的世界 minecraft 国际版 非网易版 ios下载账号分享 公众号 iphone ipad...
  13. 配置文件报错:不允许有匹配 [xX][mM][lL] 的处理指令目标
  14. 年审是当月还是当天_车辆年检可以在到期当月进行吗
  15. 【U盘检测】为了转移压箱底的资料,买了个2T U盘检测仅仅只有47G~
  16. 解决pip-script.py文件不存在的问题
  17. 网上教务评教管理系统
  18. 华为mate40和vivox50pro+哪个好
  19. 转炉炼钢工艺流程(炼钢)
  20. 制作MacOS U盘安装盘教程

热门文章

  1. Debian用户获取ROOT权限与安装sudo配置
  2. scrapy框架流程
  3. 个人永久性免费-Excel催化剂功能第71波-定义名称管理器维护增强
  4. 抗击疫情在家也能轻松办公
  5. 电路分析之《三相交流电》
  6. android 设备最大像素,设备像素比devicePixelRatio简单介绍
  7. Mysql插入语句之value与values区别
  8. 【Linux】多线程(重中之重)(学习兼顾复习)
  9. 最受Java编码员和程序员欢迎的好助手:Android IDE工具和应用
  10. 徒手打造一款PK 名片全能王 的名片识别应用--名字篇之(如何100%准确提取名字)