由于个人经常在空闲时间在b站看些小视频欢乐一下,这次就想到了爬取b站视频的弹幕。

这里就以番剧《我的妹妹不可能那么可爱》第一季为例,抓取这一番剧每一话对应的弹幕。

1. 分析页面

这部番剧的第一季就有15话,所以我们首先需要找到每一话对应的url,然后再去爬取每一话的弹幕。

1.1 找到每一话对应的url

打开番剧的首页,可以看到每一话的信息就展示在图中位置。

照惯例,我们首先对当前请求网页返回的数据进行查看,发现请求该url返回的只有一点简略的番剧信息,根本没有每一话的信息。

但是我们在浏览器中又确实能够看到每一话的信息,所以推测,这些信息应该是通过AJAX异步加载方式获取到的。接下来我们就查看“XHR”标签内的网络请求。

当前这一网页中XHR标签内的网络请求并不多,最简单的方法就是每一个网络请求都查看一番。但是我们可以发现,这里的每个网络请求看起来都有一定的命名规则,像info/nav/review/recommend这些,似乎都很容易理解。我们发现其中有一

爬虫练习四:爬取b站番剧字幕相关推荐

  1. 使用Scrapy框架,爬取b站番剧信息。

    使用Scrapy框架,爬取b站番剧信息. 感觉好久没写爬虫的,今天看了在b站浏览了一会儿,发现b站有很多东西可以爬取的,比如首页的排行榜,番剧感觉很容易找到数据来源的,所以就拿主页的番剧来练练手的. ...

  2. python爬取B站番剧索引页面并保存文本和图片

    该篇文章为"行路难=_="原创 期末的Python考试要写一个爬取网站信息的程序,我就选取了b站番剧索引页面作为目标网页(因为感觉番剧主页的信息太杂了.) 目标网页:https:/ ...

  3. datetime 索引_Python爬取B站番剧索引页面并保存文本和图片

    期末的Python考试要写一个爬取网站信息的程序,我就选取了b站番剧索引页面作为目标网页(因为感觉番剧主页的信息太杂了.) 目标网页:https://www.bilibili.com/anime/in ...

  4. scrapy框架----爬取B站番剧弹幕

    items.py文件 定义要爬取的数据的字段 import scrapy class bilidanmu(scrapy.Item):danmu = scrapy.Field() #弹幕cid = sc ...

  5. python爬取知乎话题广场_学习python爬虫---爬虫实践:爬取B站排行榜2(爬取全部分类排行榜、利用pygal库作图)...

    前面我们爬取了B站上全站的排行榜,详细见:魏勇:学习python爬虫---爬虫实践:爬取B站排行榜​zhuanlan.zhihu.com 一.爬取全部分类排行榜 我们观察一下B站排行榜,那里还有番剧排 ...

  6. python爬虫:Selenium爬取B站视频标题、播放量、发布时间

    上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...

  7. Python 网络爬虫实战:爬取 B站《全职高手》20万条评论数据

    本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称"镇站之宝"的视频,拥有着数量极其恐怖的评论和 ...

  8. java获取b站动态列表地址_爬虫入门(三)爬取b站搜索页视频分析(动态页面,DBUtils存储)...

    这一次终于到了分析b站视频了.开始体会到写博客非常占用学技术的时间,但是还是希望能总结,沉淀下来. 工具:使用Webmaigc框架,DBUtils,C3P0连接池. 分析过程:b站的搜索页面是这样的. ...

  9. 零基础如何学好python爬虫?python爬取B站小视频

    B 站真是个神奇的网站.找不到资料了,去 B 站逛一逛,保准有你满意的东西. 前几天写了个爬虫,用 path.re.BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话 ...

最新文章

  1. 授权管理【学习笔记】《卓有成效的管理者》 第二章 掌握自己的时间
  2. 百度发布智能电视伴侣,并公布短视频计划
  3. InfluxDB学习之InfluxDB数据保留策略(Retention Policies)
  4. [洛谷P1642]规划
  5. 分布式文件系统HDFS 学习指南
  6. Mysql查询语句使用select.. for update导致的数据库死锁分析
  7. 大数据能消除在招聘和相关商业行为中的偏见吗?
  8. linux中swap的权限,有关 Linux Swap
  9. abb机器人编程指令写字_ABB机器人编程指令与函数
  10. Prometheus邮件报警设置
  11. php能不能用super,supersu怎么用
  12. 【Leetcode】1324. Print Words Vertically
  13. Java 直接插入 CLOB/BLOB 数据到 Oracle 数据库
  14. 英语 词根 词缀 查询网址
  15. labelImg打标签教程
  16. 英国内政部(Home Office)间谍机构(spy powers)假装它是Ofcom咨询中的一名私人公民1525446087967...
  17. 数字中国城市巡礼之济宁:以信立本,大数据点亮城市信用招牌
  18. 千锋教育python2104期总结day2
  19. JMU软件计组期末复习总结
  20. 精灵图(sprite)CSS动画实现

热门文章

  1. nginx 静态文件目录配置
  2. 反转单链表(三种方法)(三指针法)(头插法)(递归)经典面试题
  3. js导航定位指定位置
  4. 分享到微信朋友圈的内容被禁止访问,怎么办?
  5. 《记事本成功法》 凡禹
  6. Android开发之少去踩坑,多走捷径【转】
  7. 微信删除好友对方知道吗?
  8. Python爬虫爬取煎蛋网图片代码实例
  9. 实验五:数据库综合查询及完整性约束
  10. 调整屏幕亮度、饱和度、对比度