Python3爬取B站视频弹幕

本文通过8个步骤教你如何使用Python3爬取B站的视频弹幕,快往下看看吧。

需要准备的环境:

一个B站账号,需要先登录,否则不能查看历史弹幕记录

联网的电脑和顺手的浏览器,我用的Chrome

Python3环境以及request模块,安装使用命令,换源比较快:

pip3 install request -i http://pypi.douban.com/simple

爬取步骤:

1.登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求

2.点击查看历史弹幕,获取请求

其中rolldate后面的数字表示该视频对应的弹幕号,返回的数据中timestamp表示弹幕日期,new表示数目

4.在查看历史弹幕中任选一天,查看,会发出新的请求

dmroll ,时间戳,弹幕号,表示获取该日期的弹幕,1507564800 表示2017/10/10 0:0:0

该请求返回xml数据

5.使用正则表达式获取所有弹幕消息,匹配模式

‘(.*?)’

6.拼接字符串,将所有弹幕保存到本地文件即可

with open(‘content.txt’, mode=‘w+’, encoding=‘utf8’) as f: f.write(content)

7.参考代码如下,将弹幕按照日期保存为单个文件…因为太多了…

最终效果

关注后私信【B站源码】可以领取本文源码

这八个步骤,Python让你轻松爬取B站弹幕,网友看了都说666相关推荐

  1. 这八个步骤,Python让你轻松爬取B站弹幕,网友看了都说6

    Python3爬取B站视频弹幕 本文通过8个步骤教你如何使用Python3爬取B站的视频弹幕,快往下看看吧.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:76 ...

  2. 用Python爬取b站弹幕,看大家还会接受《爱情公寓5》吗?

    尽管抄袭傍身,也没能阻挡<爱情公寓5>进击的脚步. 最近爱情公寓电视剧微博发布了长达8分钟的揭幕视频,官宣新季将在2020正式开播. 几位主演纷纷转发宣传,将#爱情公寓5揭幕#的话题送上了 ...

  3. 萌新学习Python爬取B站弹幕+R语言分词demo说明

    代码地址如下: http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这 ...

  4. Python爬取B站弹幕方法介绍

    Python爬取B站弹幕方法介绍 文章目录 Python爬取B站弹幕方法介绍 前言 寻找弹幕数据 编写爬虫 B站弹幕数量 新技术介绍 参考文章 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...

  5. python接收弹幕_闲着没事,尝试一下用Python爬取B站弹幕呀~

    原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...

  6. 用Python爬取B站弹幕并做成词云

    用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...

  7. Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云

    一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号, ...

  8. python爬虫:Selenium爬取B站视频标题、播放量、发布时间

    上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...

  9. python爬取b站弹幕并进行数据可视化

    python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕 我们随便打开一个b站视频 打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件 打开之后是这个样子的 结构还是比 ...

最新文章

  1. 5月第3周业务风控关注 |网信办公布整治教育类应用的成果 关闭“作业狗”等20余款应用...
  2. docker安装redis并设置密码
  3. oracleasm 建立时出错
  4. 35.使用拦截器实现权限验证
  5. 如何在 ASP.Net Core 中使用 NCache
  6. java final static
  7. 输入为数字和大写_表格中如何录入分数、邮政编码、大写数字?
  8. 关于windows server 2016 更新CVE-2020-1472漏洞补丁的问题
  9. linux设备驱动 注册 命令6,Linux设备驱动调试
  10. js判断json对象中是否含有某个属性
  11. matlab红色爱心,心形图的matlab实现
  12. 【LeetCode】【数组】题号:628,三个数组成的乘积最大
  13. 加密解密工具 之 希尔密码
  14. win10没有本地组策略怎么办?
  15. STM32:FSMC驱动TFTLCD(ST7789)
  16. 独家揭秘影响SEO排名的17项核心因素
  17. ubuntu下vscode配置终端生成任务以及管理员模式运行
  18. Kali学习 | 漏洞扫描:3.1 Nessus安装、配置和新建扫描任务
  19. 使用GF集进行构型综合的方法之总结
  20. excel 设置隔行变色功能

热门文章

  1. 百分点认知智能实验室出品:智能问答中的对抗攻击及防御策略
  2. 机器人(含自动驾驶汽车)成本和电脑手机相比有哪些差异化
  3. 推荐系统 - 基于标签的推荐算法
  4. 如何变更Win10系统电脑的锁屏壁纸?分享经验!怎样选择Win10电脑的锁屏壁纸?
  5. 强化学习系列(五):蒙特卡罗方法(Monte Carlo)
  6. 【无标题】有向图的创建、求度和遍历
  7. sql server实现简繁转换
  8. JVM内存模型和性能调优:阿里巴巴Arthas调优工具:什么是Arthas- 第43篇
  9. SpringBoot整合Graylog3.0
  10. 简单好用的在线P图工具,一定记得收藏