bilibili视频信息爬虫

尝试了破解bilibili滑动验证码达到自动登录的效果之后，就顺带做了下其中的视频信息的爬虫。

一，使用selenium登陆bilibili，保存的Cookie的信息到本地（网上有很多，这里就不细说了，代码文末有）

二，选择一个视频分区，爬取其中的视频信息

这里我拿音乐区的原创音乐做例子，查看更多进入原创音乐分区

这里有两种排序方式，按投稿时间和按热度，在chrome的控制台里的JS中可以找到这两中排序对应的信息的JSON数据，值得一提的是按投稿时间排序：

双击打开会发现肥肠抱歉（按热度排序不会），可是就是想用投稿时间排序怎么办呢？

把参数中的回调参数及内容删掉，即可显示正确内容！

每一个视频信息的条目很多，这里我选择用MongoDB中的存储，具体代码如下：

import requests
import json
import pymongowith open('cookie_dict.txt', 'r') as f:cookie_dict=json.load(f)client = pymongo.MongoClient(host='127.0.0.1', port=27017)
db = client['test']
v = db.videoheaders = {'header':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
for page in range(20):url = 'https://api.bilibili.com/x/web-interface/newlist?rid=28&type=0&pn={}&ps=20&jsonp=jsonp&_=1543730016233'.format(page)res = requests.get(url, headers=headers, cookies=cookie_dict)archives = json.loads(res.text)['data']['archives']for archive in archives:result = v.insert(archive)

存储效果如下：

一些重要条目的意义：

援助：视频av号
ctime：发布时间（时间戳）
desc：简介
持续时间：视频时长
dynamic：视频标签
所有者：作者信息（id，姓名，头像）
pic：视频封面图片
权利：权限
标题：视频名称
tid ：分区id
tname：视频分区

stat里边内容：
coin：投币
收藏：收藏
喜欢：点赞
回复：评论
分享：分享
观看：观看量
danmaku：弹幕量

完整代码见：https：//github.com/After-today/bilibili，个人qq：1525943131。

bilibili视频信息爬虫相关推荐

bilibili用户信息爬虫（全网最全）
bilibili用户信息爬虫 bilibili用户已经突破7亿了(根据UID来看) Github: Leopard-C/BiliUserSpider 0. 成果 bilibili御坂网络计划:http ...
爬虫扒下 bilibili 视频信息
B站算是对爬虫非常非常友好的网站啦! 修改转载已取得腾讯云授权在以上两篇文章中我们已经在腾讯云服务器上搭建好了 Python 爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据: ...
哔哩哔哩视频信息爬虫（实时爬取）
结合哔哩哔哩小助手程序爬取思路: 自定义模块构建及框架设计: 文件目录: __init__.py: #__init__"""浏览json数据 videoinfo = ...
bilibili视频下载信息获取
一.开发者工具 1. 开启方式进浏览器后F12(这里以window为例,其他需要自行查询) 三个点的图标->更多工具->开发者工具(以Chrome版本 85.0.4183.121(正式版 ...
python爬虫之使用selenium爬取b站视频信息
前言在之前提到爬虫时,我想到的步骤大多是: 查找要爬取内容的页面的url,使用requests库获取响应内容内容为html源码则使用BeautifulSoup等工具解析html源码,得到想要的数据 ...
Bilibili视频爬虫
一直想爬取BiliBili的视频,无奈一直没有去研究一下. 最近,在旭哥的指点之下,用了Fiddler抓包,抓到了一直期待的视频包,完成了下载. 下面写一下我做这个爬虫的过程. 相关依赖 :Fidd ...
python3网络爬虫--爬取b站用户投稿视频信息（附源码）
文章目录一．准备工作 1．工具二．思路 1．整体思路 2．爬虫思路三．分析网页 1.分析数据加载方式 2．分词接口url 3.分析用户名(mid) 四．撰写爬虫五．得到数据六．总结上次写了 ...
爬虫实战：爬取bilibiliTop100条热门视频信息
爬取bilibiliTop100条热门视频信息对于信息的爬取可以分为三个步骤进行处理,分别是获取网页.获取和解析数据最后保存数据.于是我们的主函数的框架如下: def main(): # 1. 获取 ...
python怎么爬取b站_【Python爬虫实例学习篇】——4、超详细爬取bilibili视频
[Python爬虫实例学习篇]--4.超详细爬取bilibili视频由于经常在B站上学习,但无奈于家里网络太差,在线观看卡顿严重,于是萌生了下载视频的想法(如果只是单纯想下载视频,请用you-get ...

bilibili视频信息爬虫

bilibili视频信息爬虫相关推荐

最新文章

热门文章