python爬取B站网页排行榜数据（进阶版）

我们已经在基础版本中获取了网站的排行，更新状态，名称，播放量，弹幕量和综合评分。
如下图所示，没看过基础版的建议先去基础版把前面的代码看完，这边不会再讲。

我们这次的目标是获取B站动漫的点赞量，投币数，系列追番数，追番数

（1）还是一样的先找目标，这里显然已经没有我们要的东西了。

（2）那咋办？没目标玩个啥，别急，换个页面，就像这里，我们点击《鬼灭之刃无限列车篇》进入它的播放页面，诶，这不就在这里吗？所以我们就对这个进行分析。

（3）按F12了啦，打开开发者面板，你如果懂了前面基础版的方法，肯定觉得能看到的直接爬出html代码解析就好了，确实，想法没错，但现实很骨感，B站对这里的数据加了密，你亲爱的解析器解不出来了，解析装着点赞数的<span>只会返还给你无情的两个大字"点赞",我研究半天就出个这？我差点就崩溃了。查了上百篇博客，我了解到还有一个地方放着这些数据，XHR动态数据传输包，XHR数据包中信息如下所示。

coins投币数，danmakus弹幕库内的弹幕,follow追番人数，likes点赞人数，series_follow系列追番数,views播放量

（4）目标找到了，要学会抓住它。我先讲一下如何找到这个包

1.F12下点击Network

2.F5刷新数据包

3.设置筛选需要的XHR

4.然后一个个往下点，找到目标，B站是这个

5.这个文件自带链接地址，下载用这个链接就好，链接位置

6.接下来获取这个文件，代码来了

import requestsurl='https://api.bilibili.com/pgc/web/season/stat?season_id=39444'headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'}
response = requests.get(url)#根据网络地址获取XHR包
print(response.text)#输出到屏幕

这不就拿捏了

你问我咋抠出来数字，抱歉，负责这部分代码的同志还没写出来。写完我会插到这里的。

手动输入URL咋行呢？给我自动，下面是结合了基础版代码后的自动化版本，会获取B战排行榜上的动漫的xhr文件，输出到屏幕。

import requests
from bs4 import BeautifulSoupdef huoqushuju():#B站动漫数据ulist2=[]url = 'https://www.bilibili.com/v/popular/rank/bangumi'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'}page_text = requests.get(url=url, headers=headers).textsoup = BeautifulSoup(page_text, 'lxml')li_list = soup.select('.rank-list > li')for li in li_list:#获取更多数据的网址url2=li.find('div',class_='info').a.get('href')url2='https:' + url2ulist2.append(url2)#更多数据for x in ulist2:#print(x)#print(x[40:45])url3='https://api.bilibili.com/pgc/web/season/stat?season_id='+x[40:45]response = requests.get(url3)print(response.text)returnif __name__=="__main__":huoqushuju()

还未写完，后面还要添加内容。敬请期待。

python爬取B站网页排行榜数据（进阶版）相关推荐

大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取前言一.配置环境二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息三.建立Excel表并导出总 ...
python为啥爬取数据会有重复_使用python爬取B站千万级数据
Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...
python爬取网易云音乐排行榜数据
python爬取网易云音乐排行榜歌曲及评论网易云音乐排行榜歌曲及评论爬取主要注意问题:selenium 模拟登录.iframe标签定位.页面元素提取. 在利用selenium定位元素并取值的过程中 ...
如何去使用Python爬虫来爬取B站的弹幕数据？
哔哩哔哩众所周知是弹幕的天堂,视频观看人数越多,弹幕也就越多.今天小千就来教大家如何去使用Python开发一个爬虫来爬取B站的弹幕数据. 1.弹幕哪里找? 平常我们在看视频时,弹幕是出现在视频上的.实 ...
python爬取b站弹幕并进行数据可视化
python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕我们随便打开一个b站视频打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件打开之后是这个样子的结构还是比 ...
python爬取b站数据_如果利用Python爬取B站上千万数据？B站直播都是大屌萌妹吗？...
粉丝独白说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉.我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热 ...
使用python爬取BOSS直聘岗位数据并做可视化（Boss直聘对网页做了一些修改，现在的代码已经不能用了）
使用python爬取BOSS直聘岗位数据并做可视化结果展示首页岗位信息岗位详情薪资表学历需求公司排名岗位关键词福利关键词代码展示爬虫代码一.导入库二.爬取数据 1.爬取数据代 ...
Python爬取B站弹幕方法介绍
Python爬取B站弹幕方法介绍文章目录 Python爬取B站弹幕方法介绍前言寻找弹幕数据编写爬虫 B站弹幕数量新技术介绍参考文章前言最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...
python接收弹幕_闲着没事，尝试一下用Python爬取B站弹幕呀~
原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...

python爬取B站网页排行榜数据（进阶版）

python爬取B站网页排行榜数据（进阶版）相关推荐

最新文章

热门文章