python爬取B站网页排行榜数据(进阶版)
我们已经在基础版本中获取了网站的排行,更新状态,名称,播放量,弹幕量和综合评分。
如下图所示,没看过基础版的建议先去基础版把前面的代码看完,这边不会再讲。
我们这次的目标是获取B站动漫的点赞量,投币数,系列追番数,追番数
(1)还是一样的先找目标,这里显然已经没有我们要的东西了。
(2)那咋办?没目标玩个啥,别急,换个页面,就像这里,我们点击《鬼灭之刃 无限列车篇》进入它的播放页面,诶,这不就在这里吗?所以我们就对这个进行分析。
(3)按F12了啦,打开开发者面板,你如果懂了前面基础版的方法,肯定觉得能看到的直接爬出html代码解析就好了,确实,想法没错,但现实很骨感,B站对这里的数据加了密,你亲爱的解析器解不出来了,解析装着点赞数的<span>只会返还给你无情的两个大字"点赞",我研究半天就出个这?我差点就崩溃了。查了上百篇博客,我了解到还有一个地方放着这些数据,XHR动态数据传输包,XHR数据包中信息如下所示。
coins投币数,danmakus弹幕库内的弹幕,follow追番人数,likes点赞人数,series_follow系列追番数,views播放量
(4)目标找到了,要学会抓住它。我先讲一下如何找到这个包
1.F12下点击Network
2.F5刷新数据包
3.设置筛选需要的XHR
4.然后一个个往下点,找到目标,B站是这个
5.这个文件自带链接地址,下载用这个链接就好,链接位置
6.接下来获取这个文件,代码来了
import requestsurl='https://api.bilibili.com/pgc/web/season/stat?season_id=39444'headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'}
response = requests.get(url)#根据网络地址获取XHR包
print(response.text)#输出到屏幕
这不就拿捏了
你问我咋抠出来数字,抱歉,负责这部分代码的同志还没写出来。写完我会插到这里的。
手动输入URL咋行呢?给我自动,下面是结合了基础版代码后的自动化版本,会获取B战排行榜上的动漫的xhr文件,输出到屏幕。
import requests
from bs4 import BeautifulSoupdef huoqushuju():#B站动漫数据ulist2=[]url = 'https://www.bilibili.com/v/popular/rank/bangumi'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'}page_text = requests.get(url=url, headers=headers).textsoup = BeautifulSoup(page_text, 'lxml')li_list = soup.select('.rank-list > li')for li in li_list:#获取更多数据的网址url2=li.find('div',class_='info').a.get('href')url2='https:' + url2ulist2.append(url2)#更多数据for x in ulist2:#print(x)#print(x[40:45])url3='https://api.bilibili.com/pgc/web/season/stat?season_id='+x[40:45]response = requests.get(url3)print(response.text)returnif __name__=="__main__":huoqushuju()
还未写完,后面还要添加内容。敬请期待。
python爬取B站网页排行榜数据(进阶版)相关推荐
- 大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...
- python为啥爬取数据会有重复_使用python爬取B站千万级数据
Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...
- python爬取网易云音乐排行榜数据
python爬取网易云音乐排行榜歌曲及评论 网易云音乐排行榜歌曲及评论爬取 主要注意问题:selenium 模拟登录.iframe标签定位.页面元素提取. 在利用selenium定位元素并取值的过程中 ...
- 如何去使用Python爬虫来爬取B站的弹幕数据?
哔哩哔哩众所周知是弹幕的天堂,视频观看人数越多,弹幕也就越多.今天小千就来教大家如何去使用Python开发一个爬虫来爬取B站的弹幕数据. 1.弹幕哪里找? 平常我们在看视频时,弹幕是出现在视频上的.实 ...
- python爬取b站弹幕并进行数据可视化
python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕 我们随便打开一个b站视频 打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件 打开之后是这个样子的 结构还是比 ...
- python爬取b站数据_如果利用Python爬取B站上千万数据?B站直播都是大屌萌妹吗?...
粉丝独白 说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉.我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热 ...
- 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)
使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...
- Python爬取B站弹幕方法介绍
Python爬取B站弹幕方法介绍 文章目录 Python爬取B站弹幕方法介绍 前言 寻找弹幕数据 编写爬虫 B站弹幕数量 新技术介绍 参考文章 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...
- python接收弹幕_闲着没事,尝试一下用Python爬取B站弹幕呀~
原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...
最新文章
- C++ 中this指针的用途
- java 解析日期 t z_date - Java SimpleDateFormat(“yyyy-MM-dd'T'HH:mm:ss'Z'”)给出时区为IST...
- 印度将推出太阳能光伏制造政策
- MapReduce Service更换集群外部时钟源,仅需10步
- 计算机普通用户禁止修改c盘,保护C盘数据win7中设置禁止修改C盘文件的方法
- 创新高!韩国反垄断部门重罚高通8.54亿美元
- freertos nand flash 读取错误_Flash失效小谈
- 冲动是魔鬼——4.25
- python info_Python学习教程:Python字典处理
- JavaScript学习指南笔记
- android浏览器病毒,2018安卓手机杀毒软件排行榜
- Excel表格添加下拉多选
- 如何看待腾讯市值(按 2012 年 8 月 17 日股价)超过 Facebook?
- 树莓派3b+串口配置
- mac打开airplay(隔空播放)
- 计算机批量制作邀请函步骤,如何利用Word批量制作邀请函
- Android判断GPS是否开启和让用户打开GPS
- Appstore商店排名前十的威客应用!
- 163企业邮箱价格费用标准是多少?
- win7桌面图标突然消失,鼠标右键不管用―解决