bilibili视频信息爬虫
尝试了破解bilibili滑动验证码达到自动登录的效果之后,就顺带做了下其中的视频信息的爬虫。
一,使用selenium登陆bilibili,保存的Cookie的信息到本地(网上有很多,这里就不细说了,代码文末有)
二,选择一个视频分区,爬取其中的视频信息
这里我拿音乐区的原创音乐做例子,查看更多进入原创音乐分区
这里有两种排序方式,按投稿时间和按热度,在chrome的控制台里的JS中可以找到这两中排序对应的信息的JSON数据,值得一提的是按投稿时间排序:
双击打开会发现肥肠抱歉(按热度排序不会),可是就是想用投稿时间排序怎么办呢?
把参数中的回调参数及内容删掉,即可显示正确内容!
每一个视频信息的条目很多,这里我选择用MongoDB中的存储,具体代码如下:
import requests
import json
import pymongowith open('cookie_dict.txt', 'r') as f:cookie_dict=json.load(f)client = pymongo.MongoClient(host='127.0.0.1', port=27017)
db = client['test']
v = db.videoheaders = {'header':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
for page in range(20):url = 'https://api.bilibili.com/x/web-interface/newlist?rid=28&type=0&pn={}&ps=20&jsonp=jsonp&_=1543730016233'.format(page)res = requests.get(url, headers=headers, cookies=cookie_dict)archives = json.loads(res.text)['data']['archives']for archive in archives:result = v.insert(archive)
存储效果如下:
一些重要条目的意义:
援助:视频av号
ctime:发布时间(时间戳)
desc:简介
持续时间:视频时长
dynamic:视频标签
所有者:作者信息(id,姓名,头像)
pic:视频封面图片
权利:权限
标题:视频名称
tid :分区id
tname:视频分区
stat里边内容:
coin:投币
收藏:收藏
喜欢:点赞
回复:评论
分享:分享
观看:观看量
danmaku:弹幕量
完整代码见:https://github.com/After-today/bilibili,个人qq:1525943131。
bilibili视频信息爬虫相关推荐
- bilibili用户信息爬虫(全网最全)
bilibili用户信息爬虫 bilibili用户已经突破7亿了(根据UID来看) Github: Leopard-C/BiliUserSpider 0. 成果 bilibili御坂网络计划:http ...
- 爬虫扒下 bilibili 视频信息
B站算是对爬虫非常非常友好的网站啦! 修改转载已取得腾讯云授权 在以上两篇文章中我们已经在腾讯云服务器上搭建好了 Python 爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据: ...
- 哔哩哔哩视频信息爬虫(实时爬取)
结合 哔哩哔哩小助手程序 爬取思路: 自定义模块构建及框架设计: 文件目录: __init__.py: #__init__"""浏览json数据 videoinfo = ...
- bilibili视频下载信息获取
一.开发者工具 1. 开启方式 进浏览器后F12(这里以window为例,其他需要自行查询) 三个点的图标->更多工具->开发者工具(以Chrome版本 85.0.4183.121(正式版 ...
- python爬虫之使用selenium爬取b站视频信息
前言 在之前提到爬虫时,我想到的步骤大多是: 查找要爬取内容的页面的url,使用requests库获取响应内容 内容为html源码则使用BeautifulSoup等工具解析html源码,得到想要的数据 ...
- Bilibili视频爬虫
一直想爬取BiliBili的视频,无奈一直没有去研究一下. 最近,在旭哥的指点之下,用了Fiddler抓包,抓到了一直期待的视频包,完成了下载. 下面写一下我做这个爬虫的过程. 相关依赖 :Fidd ...
- python3网络爬虫--爬取b站用户投稿视频信息(附源码)
文章目录 一.准备工作 1.工具 二.思路 1.整体思路 2.爬虫思路 三.分析网页 1.分析数据加载方式 2.分词接口url 3.分析用户名(mid) 四.撰写爬虫 五.得到数据 六.总结 上次写了 ...
- 爬虫实战:爬取bilibiliTop100条热门视频信息
爬取bilibiliTop100条热门视频信息 对于信息的爬取可以分为三个步骤进行处理,分别是获取网页.获取和解析数据最后保存数据.于是我们的主函数的框架如下: def main(): # 1. 获取 ...
- python怎么爬取b站_【Python爬虫实例学习篇】——4、超详细爬取bilibili视频
[Python爬虫实例学习篇]--4.超详细爬取bilibili视频 由于经常在B站上学习,但无奈于家里网络太差,在线观看卡顿严重,于是萌生了下载视频的想法(如果只是单纯想下载视频,请用you-get ...
最新文章
- java ognl 性能_OGNL详解
- 如何打造一个搞垮团队的绩效考核?
- Oracle ETL日志审计存储过程示例
- SAP Cloud for Customer里的ticket回复UI的实现
- NDK/JNI01--NDK下载配置
- 从内存中释放Selenium chromedriver.exe
- Template Method(模板方法)--类行为型模式
- 问号在c语言中运算符,C# 运算符 ?、??、?: 各种问号的用法和说明
- 今天,给我妈打电话聊了我爸
- Python函数参数值传递
- IDEA主题设置,自定义主题
- 阿里巴巴实习生面试悲惨经历
- 怎么用美图秀秀制作证件照
- 2020暨南大学计算机专硕考研经验分享
- 22春天津大学《财务会计》在线作业2
- 实现带头结点单链表的就地逆置问题。
- 带你了解什么是论文查重
- 音频知识点(12)- P.563 工具编译及使用教程
- 「开源之道」适兕:“关起门来搞开源,做不了开源世界的Leader”
- VBA之正则表达式(19)-- 相对引用转绝对引用
热门文章
- 非完整约束轮式机器人运动控制器-笔记1
- 回归问题的置信区间AUC_R:ggplot2各类回归模型的回归线绘制方法
- IE、谷歌、火狐浏览器兼容性、默认属性样式总结
- 11月4日 迅雷白金会员vip账号分享 91freevip 22:00 更新
- OLEDB的Excel的IMEX和HDR是什么意思
- php审批系统开发,php科研项目申报审批系统
- java.lang.IllegalStateException: commit already called
- uniapp解决折叠屏手机适配问题
- 对口高考计算机原理,对口高考计算机原理-5.doc
- 为何SAP适合纺织行业解决方案