利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!
首先我准备利用mysql来存储我爬取的信息,建一个host表如下:
然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作:
Unit_Mtsql
然后就是使用Beautifulsoup框架对斗鱼的链接进行解析,为了使用的方便,自己写了一个host类,主要用于存储直播间的相关信息。基本思路是:1.获取斗鱼的几大模块,斗鱼一共有7个模块:网游晋级,单机热,手游休闲等 。2.获取每个模块的子模块 3.从每个子模块中找到旗下的直播间信息。
最后直接运行get_info()就行
结果如下:
但是程序到这似乎还有两点没有解决:
1.斗鱼的关注数是使用gif图片加载。暂时还没有发现获取每个直播间关注数的方法。
2.无法找到全部的直播间信息。
这两个问题后面再解决。
通过对斗鱼api数据接口的分析,我找到了斗鱼后台的online实际人数。因此我通过了爬虫爬取了在线的人数。
在斗鱼直播的后台数据解析的过程我发现了一个数据接口,这个数据接口包含有:online关键关键数据。个人估计是斗鱼直播间的实际人数。
通过对数据的分析,这个字和热度呈正相关。真实性比较高。
我利用斗鱼的热度和实际人数的比值 coefficient(这个系数)表示斗鱼对该主播的支持情况。
----------------------------------------------------------------------------------------分割线-----------------------------------------------------------------------------------
再来更新一波:通过对斗鱼的后台数据的分析找到了斗鱼的分页数据,也就是可以爬取斗鱼的所有直播间的信息。
我编译了相关代码,只要你安装了mysql,直接运行可执行文件。 可以自动完成建表爬取过程,不需要安装相关依赖。目前支持Windows/MacOS系统。
Github地址:https://github.com/danzhewuju/DouyuSpider
利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!相关推荐
- 利用python爬虫爬取斗鱼图片(简单详细)
关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...
- 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
- python 爬虫 爬取高考录取分数线 信息
原文链接: python 爬虫 爬取高考录取分数线 信息 上一篇: axios 原生上传xlsx文件 下一篇: pandas 表格 数据补全空值 网页 https://gkcx.eol.cn/scho ...
- python爬虫爬取58同城租房信息(使用动态IP)输出Excel文件
python爬虫爬取58同城信息(使用动态IP) 新手,为了做一个数据分析,搞了几天,终于搞出来了,大家可以给点意见啊. # coding=utf-8 import sys import csv im ...
- 利用Python爬虫爬取网页福利图片
最近几天,学习了爬虫算法,通过参考书籍,写下自己简单爬虫项目: 爬取某福利网站的影片海报图片 环境:anaconda3.5+spyder3.2.6 目录 1.本节目标 2.准备工作 3.抓取分析 4. ...
- Python爬虫-爬取斗鱼网页selenium+bs
爬取斗鱼网页(selenium+chromedriver得到网页,用Beasutiful Soup提取信息) ============================= =============== ...
- python爬虫爬商品库存_利用Python爬虫爬取指定天猫店铺全店商品信息
本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示 首先还是完 ...
- java爬虫抓取nba_利用Python爬虫爬取NBA数据功能实例分享
Python实现爬虫爬取NBA数据功能示例 本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016- ...
- 利用Python爬虫爬取指定天猫店铺全店商品信息
本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示 首先还是完 ...
最新文章
- 利用jQuery和CSS实现环形进度条
- Flume整合Kafka采集滚动的日志
- arcgisserver修改服务器地址,ArcGIS 10.1 for Server入门(7-6)ArcGIS for Server 10.1 服务迁移与恢复--多台服务器...
- python django 网页 html \n不换行
- android 连接windows 蓝牙 串口工具_ESP32变身蓝牙串口调试工具 只需几行代码即可实现...
- 电阻式传感器原理与应用
- Win10易升-在线升级工具
- 表情商店竞争加剧,陌陌和微信的“另一桩”生意
- Python-图像-伪彩色图像处理
- c++ 小游戏 NO 4 eye
- salt 安装kubernetes集群3节点
- jQuery初学笔记一,美元符号$
- RL78开发问题记录
- DNS和HTTP服务
- Linux CentOs7 ping网址 未知的名称或服务
- tensorflow频域操作及梯度求取
- 《SiamMask:Fast Online Object Tracking and Segmentation:A Unifying Approach》论文笔记
- @Aspect注解用法
- dwz ajax提交,DWZ-JUI Ajax.post 封装
- Sublist3r 报错处理