尝试了破解bilibili滑动验证码达到自动登录的效果之后,就顺带做了下其中的视频信息的爬虫。

一,使用selenium登陆bilibili,保存的Cookie的信息到本地(网上有很多,这里就不细说了,代码文末有)

二,选择一个视频分区,爬取其中的视频信息

这里我拿音乐区的原创音乐做例子,查看更多进入原创音乐分区

这里有两种排序方式,按投稿时间和按热度,在chrome的控制台里的JS中可以找到这两中排序对应的信息的JSON数据,值得一提的是按投稿时间排序:

双击打开会发现肥肠抱歉(按热度排序不会),可是就是想用投稿时间排序怎么办呢?

把参数中的回调参数及内容删掉,即可显示正确内容!

每一个视频信息的条目很多,这里我选择用MongoDB中的存储,具体代码如下:

import requests
import json
import pymongowith open('cookie_dict.txt', 'r') as f:cookie_dict=json.load(f)client = pymongo.MongoClient(host='127.0.0.1', port=27017)
db = client['test']
v = db.videoheaders = {'header':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
for page in range(20):url = 'https://api.bilibili.com/x/web-interface/newlist?rid=28&type=0&pn={}&ps=20&jsonp=jsonp&_=1543730016233'.format(page)res = requests.get(url, headers=headers, cookies=cookie_dict)archives = json.loads(res.text)['data']['archives']for archive in archives:result = v.insert(archive)

存储效果如下:

一些重要条目的意义:

援助:视频av号
ctime:发布时间(时间戳)
desc:简介
持续时间:视频时长
dynamic:视频标签
所有者:作者信息(id,姓名,头像)
pic:视频封面图片
权利:权限
标题:视频名称
tid :分区id
tname:视频分区

stat里边内容:
coin:投币
收藏:收藏
喜欢:点赞
回复:评论
分享:分享
观看:观看量
danmaku:弹幕量

完整代码见:https://github.com/After-today/bilibili,个人qq:1525943131。

bilibili视频信息爬虫相关推荐

  1. bilibili用户信息爬虫(全网最全)

    bilibili用户信息爬虫 bilibili用户已经突破7亿了(根据UID来看) Github: Leopard-C/BiliUserSpider 0. 成果 bilibili御坂网络计划:http ...

  2. 爬虫扒下 bilibili 视频信息

    B站算是对爬虫非常非常友好的网站啦! 修改转载已取得腾讯云授权 在以上两篇文章中我们已经在腾讯云服务器上搭建好了 Python 爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据: ...

  3. 哔哩哔哩视频信息爬虫(实时爬取)

    结合  哔哩哔哩小助手程序 爬取思路: 自定义模块构建及框架设计: 文件目录: __init__.py: #__init__"""浏览json数据 videoinfo = ...

  4. bilibili视频下载信息获取

    一.开发者工具 1. 开启方式 进浏览器后F12(这里以window为例,其他需要自行查询) 三个点的图标->更多工具->开发者工具(以Chrome版本 85.0.4183.121(正式版 ...

  5. python爬虫之使用selenium爬取b站视频信息

    前言 在之前提到爬虫时,我想到的步骤大多是: 查找要爬取内容的页面的url,使用requests库获取响应内容 内容为html源码则使用BeautifulSoup等工具解析html源码,得到想要的数据 ...

  6. Bilibili视频爬虫

    一直想爬取BiliBili的视频,无奈一直没有去研究一下. 最近,在旭哥的指点之下,用了Fiddler抓包,抓到了一直期待的视频包,完成了下载. 下面写一下我做这个爬虫的过程. 相关依赖  :Fidd ...

  7. python3网络爬虫--爬取b站用户投稿视频信息(附源码)

    文章目录 一.准备工作 1.工具 二.思路 1.整体思路 2.爬虫思路 三.分析网页 1.分析数据加载方式 2.分词接口url 3.分析用户名(mid) 四.撰写爬虫 五.得到数据 六.总结 上次写了 ...

  8. 爬虫实战:爬取bilibiliTop100条热门视频信息

    爬取bilibiliTop100条热门视频信息 对于信息的爬取可以分为三个步骤进行处理,分别是获取网页.获取和解析数据最后保存数据.于是我们的主函数的框架如下: def main(): # 1. 获取 ...

  9. python怎么爬取b站_【Python爬虫实例学习篇】——4、超详细爬取bilibili视频

    [Python爬虫实例学习篇]--4.超详细爬取bilibili视频 由于经常在B站上学习,但无奈于家里网络太差,在线观看卡顿严重,于是萌生了下载视频的想法(如果只是单纯想下载视频,请用you-get ...

最新文章

  1. java ognl 性能_OGNL详解
  2. 如何打造一个搞垮团队的绩效考核?
  3. Oracle ETL日志审计存储过程示例
  4. SAP Cloud for Customer里的ticket回复UI的实现
  5. NDK/JNI01--NDK下载配置
  6. 从内存中释放Selenium chromedriver.exe
  7. Template Method(模板方法)--类行为型模式
  8. 问号在c语言中运算符,C# 运算符 ?、??、?: 各种问号的用法和说明
  9. 今天,给我妈打电话聊了我爸
  10. Python函数参数值传递
  11. IDEA主题设置,自定义主题
  12. 阿里巴巴实习生面试悲惨经历
  13. 怎么用美图秀秀制作证件照
  14. 2020暨南大学计算机专硕考研经验分享
  15. 22春天津大学《财务会计》在线作业2
  16. 实现带头结点单链表的就地逆置问题。
  17. 带你了解什么是论文查重
  18. 音频知识点(12)- P.563 工具编译及使用教程
  19. 「开源之道」适兕:“关起门来搞开源,做不了开源世界的Leader”
  20. VBA之正则表达式(19)-- 相对引用转绝对引用

热门文章

  1. 非完整约束轮式机器人运动控制器-笔记1
  2. 回归问题的置信区间AUC_R:ggplot2各类回归模型的回归线绘制方法
  3. IE、谷歌、火狐浏览器兼容性、默认属性样式总结
  4. 11月4日 迅雷白金会员vip账号分享 91freevip 22:00 更新
  5. OLEDB的Excel的IMEX和HDR是什么意思
  6. php审批系统开发,php科研项目申报审批系统
  7. java.lang.IllegalStateException: commit already called
  8. uniapp解决折叠屏手机适配问题
  9. 对口高考计算机原理,对口高考计算机原理-5.doc
  10. 为何SAP适合纺织行业解决方案