首先我准备利用mysql来存储我爬取的信息,建一个host表如下:

然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作:

Unit_Mtsql

然后就是使用Beautifulsoup框架对斗鱼的链接进行解析,为了使用的方便,自己写了一个host类,主要用于存储直播间的相关信息。基本思路是:1.获取斗鱼的几大模块,斗鱼一共有7个模块:网游晋级,单机热,手游休闲等  。2.获取每个模块的子模块 3.从每个子模块中找到旗下的直播间信息。

最后直接运行get_info()就行

结果如下:

但是程序到这似乎还有两点没有解决:

1.斗鱼的关注数是使用gif图片加载。暂时还没有发现获取每个直播间关注数的方法。

2.无法找到全部的直播间信息。

这两个问题后面再解决。

通过对斗鱼api数据接口的分析,我找到了斗鱼后台的online实际人数。因此我通过了爬虫爬取了在线的人数。

在斗鱼直播的后台数据解析的过程我发现了一个数据接口,这个数据接口包含有:online关键关键数据。个人估计是斗鱼直播间的实际人数。

通过对数据的分析,这个字和热度呈正相关。真实性比较高。

我利用斗鱼的热度和实际人数的比值 coefficient(这个系数)表示斗鱼对该主播的支持情况。

----------------------------------------------------------------------------------------分割线-----------------------------------------------------------------------------------

再来更新一波:通过对斗鱼的后台数据的分析找到了斗鱼的分页数据,也就是可以爬取斗鱼的所有直播间的信息。

我编译了相关代码,只要你安装了mysql,直接运行可执行文件。 可以自动完成建表爬取过程,不需要安装相关依赖。目前支持Windows/MacOS系统。

Github地址:https://github.com/danzhewuju/DouyuSpider

python采集直播间数据_利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!...相关推荐

  1. 利用python从网页查找数据_利用Python模拟淘宝的搜索过程并对数据进行可视化分析...

    数据挖掘入门与实战 公众号: datadw 本文讲述如何利用Python模拟淘宝的搜索过程并对搜索结果进行初步的数据可视化分析. 搜索过程的模拟:淘宝的搜索页面有两种形式, 一种形式是, 2019/2 ...

  2. python根据url下载数据_利用Python如何实现根据URL地址下载并保存文件至对应目录...

    利用Python如何实现根据URL地址下载并保存文件至对应目录 发布时间:2020-11-16 14:23:11 来源:亿速云 阅读:58 作者:Leah 这篇文章将为大家详细讲解有关利用Python ...

  3. python处理水站的数据_利用Python进行数据分析(一):数据清洗与准备

    b站的小伙伴们大家吼~~ 在b站摸了快四年鱼的菜鸡也想开始做知识分享了,虽然说是分享其实根本目的也是为了督促自己好好学习把QAQ. 从今天开始,我将会在专栏分享我在学习<利用Python进行数据 ...

  4. 利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!

    首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...

  5. python爬斗鱼直播_Python爬虫:利用API实时爬取斗鱼弹幕

    原标题:Python爬虫:利用API实时爬取斗鱼弹幕 这些天一直想做一个斗鱼爬取弹幕,但是一直考试时间不够,而且这个斗鱼的api接口虽然开放了但是我在github上没有找到可以完美实现连接.我看了好多 ...

  6. 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表

    [Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...

  7. python 爬虫 爬取高考录取分数线 信息

    原文链接: python 爬虫 爬取高考录取分数线 信息 上一篇: axios 原生上传xlsx文件 下一篇: pandas 表格 数据补全空值 网页 https://gkcx.eol.cn/scho ...

  8. 利用Scrapy框架爬取前途无忧招聘信息

    利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...

  9. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

  10. python处理行情数据_利用Python脚本来获取期货行情数据

    因为自己最近在学习做期货交易,想要下载期货的行情数据来做分析.有一些交易软件是可以导出数据的,但是导出的过程还是需要很多的手工操作,自己在想能不能通过Python程序来实现呢. 新浪期货数据接口介绍 ...

最新文章

  1. 【HTTP协议】域名
  2. Vue.js 学习笔记 第5章 内置指令
  3. 【Android】Handler详解
  4. mapreduce任务出错最大尝试次数
  5. .Net Core3.0 日志 logging
  6. java验证工具类(待验证)
  7. Postgres数据库报错:FATAL: Peer authentication failed for user “zabbix“ Previous connection kept
  8. 复制 PDF 文件上的图片
  9. 中值滤波_中值滤波原理
  10. 作为一个程序员,你的学习能力够强吗?
  11. 二、Spring Boot 自定义Banner 横幅
  12. 算术左移,逻辑左移,算术右移,逻辑右移之间的区别
  13. Java微信公众号开发之微信公众平台接入开发者
  14. NEXTCHIP,北京冠宇铭通科技,祝中国人民早日战胜新冠病毒疫情
  15. 我的世界中国版服务器最新版本,中国版Minecraft更新慢,老玩家喜欢玩国际版,只要是MC都好玩...
  16. 微信小程序五(创建轮播图)
  17. UVa 207 - PGA Tour Prize Money
  18. 广告平台精准推送系统解决方案架构
  19. 人生最应该坚持的5件事
  20. 基于Android的校园跑腿系统

热门文章

  1. c语言城市交通灯优化,城市智能交通灯系毕业设计论文.doc
  2. SQL安装步骤及可能遇到的错误
  3. html js禁止跳转页面,js 控制页面跳转的5种方法
  4. html滑动验证到最右边,jQuery滑块拖动到最右边验证插件
  5. 考研复习 求解函数极限的方法全总结
  6. python基础入门(超详细)
  7. 利用excel内的doi和python批量下载外文文献
  8. c语言怎么编程机器人,移动机器人(电子球)编程(c语言)
  9. 【机器学习基石】感知机模型+PLA(二)
  10. pycharm 设置环境变量