Bilibili漫画爬取思路

前提:只对于非付费章节有效。

思路仅供参考,如有错误欢迎评论区提出。

转载请贴出本文链接即可。

截止版本时间:2021/1/26

以海贼王漫画为例子。

我们选择第一章 “001 ROMANCE DAMN…”

可以看到如下漫画内容

打开调试器,F12

可以看到形如***.jpg@1100w...token=***&ts=***的URL,并且该URL返回为图片形式,也就是我们想要的。继续查看其请求类型和参数。

可以看到请求类型为GET, 请求参数为 tokents.

接下来我们需要思考的就是如何获取该URL和获取对应的参数。

继续查看抓取到的包,找到了形如 ImageToken?device=pc&platform=web的包:


这个包的返回值就是我们想要的,里面含有 url , token, ts。其中 ts是在"token"里面的。需要注意的是,该请求类型为POST,而请求形式为Request Payload并非 Form Data,经查找资料,Request Payload要求请求字段中Content Typeapplication/json;charset=UTF-8。之后我用Postman测试结果:

接下来继续思考如何获得请求值urls

继续查看抓的包也不难发现,形如GetImageIndex?device=pc&platform=web返回的值中有我们想要的:

可以发现就是我们需要的urls,并且通过观察,可以发现该数组要倒着看才是正确的图片的顺序。但是又产生了一个新的问题,获取ep_id。因为这里获取一个ep_id就可以获取本章节的所有图片,所以我猜测ep_id应该是每一章的标识。

获取请求值ep_id

继续观察,我们发现该图片的URL有ep_id的值:

其中manage.bilibili.com/mc24742/218087?from=manage_detail中的218087就是我们想要的。那么这就是一种暗示,跳转该页的父页肯定有该URL,那么有该URL不就有ep_id值了嘛?

父页:

但是当我打开调试器时,发现并没有显式的URL:

所以还是得从包看,我们继续看父页的包。经过一段时间的查找,发现ComicDetail?device=pc&platform=web有想要的东西。

ep_list中的每一项中的id就是对应每一章的标识,同时该数组也是反着来的,0对应的是最后一章,最后一项对应的是第一章:

同时也产生了一个新的参数comic_id,这个参数就比较简单了,就是指每一步动漫的唯一标识:
其中的mc24742中的24742就是comic_id

Bilibili漫画抓取思路相关推荐

  1. 某商标局公告抓取思路总结爬虫过无限debugger Js逆向调试

    某商标局公告抓取思路总结爬虫过无限debugger @[TOC](某商标局公告抓取思路总结爬虫过无限debugger) 目标地址:aHR0cDovL3dzZ2cuc2JqLmNuaXBhLmdvdi5 ...

  2. python3抓取图片_通过Python3 爬虫抓取漫画图片

    引言: 最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码! 第一步: 准备环境 和类库,我用的是python3.5    ...

  3. 通过Python3 爬虫抓取漫画图片

    通过Python3 爬虫抓取漫画图片 引言: 最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码! 第一步: 准备环境 和类 ...

  4. Bilibili直播弹幕抓取(3):弹幕传输协议分析

    转载自 https://ihomura.cn/2018/05/17/Bilibili%E7%9B%B4%E6%92%AD%E5%BC%B9%E5%B9%95%E6%8A%93%E5%8F%96-3-% ...

  5. 安居客检测到网页抓取_安居客天津租房情况分析

    本篇文章通过对安居客官网天津市租房信息的进行抓取,然后对房价信息进行了简单的描述性统计分析. 工具和技术:VBA知识.Power Bi 一.采集数据过程抓取思路: 安居客租房信息网址为简单的静态网页, ...

  6. 爬虫app信息抓取之apk反编译抓取

    之前也抓过一些app,数据都比较好取,也没有研究的太深,毕竟还有android 模拟器+ appium 的方法.直到遇见了一款app ,具体名字就不说了,它安装在模拟器上竟然打不开 !!第一次遇见上网 ...

  7. 记一次批量定时抓取微信公众号文章的实现

    记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...

  8. 微博--图片,视频,评论抓取

    抓取思路: .手动搜索要抓取的人的主页,进去,浏览器调试找到数据接口 通过curl工具,自动成成请求代码 编辑器请求代码,获取json 解析json,得到发微博人的id,本条微博的id等基础信息,将本 ...

  9. python抓取小红书_小红书很难爬?最新爬取方法教给你啦~

    前言 大家好,我是Kuls. 之前写的那篇App抓包软件charles的配置说过,超过30在看,马上更下一篇.有读者问我怎么爬App,我手把手教了他(多图警告) 所以加班加点给大家写了今天这篇文章. ...

最新文章

  1. 2022-2028年中国石油套管行业市场研究及前瞻分析报告
  2. python基础代码库-python基础--注册和登录功能 代码
  3. 第一章——数据结构之绪论
  4. 如何在linux环境下安装yaf
  5. drill apache_Apache Drill:如何创建新功能?
  6. php日志文件过大,Windows服务器系统下Apache的error.log文件过大的解决办法
  7. Javascript:事件对象—event
  8. 阶段3 3.SpringMVC·_06.异常处理及拦截器_5 SpringMVC拦截器之编写controller
  9. 佳能ir2002g无法扫描到计算机,佳能ir2002g扫描驱动官方版
  10. Android:JNI调用C++自定义类的详细方法
  11. android svc编解码,SVC(可分层视频编解码)技术详解
  12. kali linux捆绑工具shellter的安装及使用
  13. 【全自动网盘扩容软件使用教程】百度网盘自助无限扩容+自助无限修复软件使用步骤说明
  14. BIDI SFP光模块和普通SFP光模块的介绍
  15. codeforces1467E. Distinctive Roots in a Tree
  16. 手机怎么设置腾达路由器后显示远端服务器,怎么用手机设置腾达路由器
  17. ardupiolt AP_AHRS库类的分析(一)AP_AHRS_NavEKF
  18. Word电子扫描仪 word文档转换为图片Pdf,Word文档扫描成Pdf,word文档加密 word转图片 word转pdf
  19. Android加载图片内存溢出问题解决方法
  20. 一个int型指针占几个字节,跟指针的类型有关系吗?(2020.11)

热门文章

  1. 写一篇日记给iCloud一个大大的赞
  2. 【SHOISXOI2017】bzoj4871 摧毁“树状图”
  3. tk1刷机+ROS安装+rplidar安装和配置+turtlebot安装和配置
  4. 【225期】为什么数据库连接池不采用 IO 多路复用?
  5. 基于PHP+MySQL的动漫交流及动漫周边购物网站
  6. 传奇sf高防服务器,g口大流量,稳定安全
  7. 数据库实验——数据库数据更新及查询
  8. 港股第四家“造车新势力“,零跑汽车通过IPO聆讯
  9. RHCSA——Linux网络、磁盘及软件包管理
  10. web在线页面编辑实现-abtest可视化实验