Bilibili漫画抓取思路
Bilibili漫画爬取思路
前提:只对于非付费章节有效。
思路仅供参考,如有错误欢迎评论区提出。
转载请贴出本文链接即可。
截止版本时间:2021/1/26
以海贼王漫画为例子。
我们选择第一章 “001 ROMANCE DAMN…”
可以看到如下漫画内容
打开调试器,F12
可以看到形如***.jpg@1100w...token=***&ts=***
的URL,并且该URL返回为图片形式,也就是我们想要的。继续查看其请求类型和参数。
可以看到请求类型为GET
, 请求参数为 token
和 ts
.
接下来我们需要思考的就是如何获取该URL和获取对应的参数。
继续查看抓取到的包,找到了形如 ImageToken?device=pc&platform=web
的包:
这个包的返回值就是我们想要的,里面含有 url
, token
, ts
。其中 ts
是在"token"里面的。需要注意的是,该请求类型为POST
,而请求形式为Request Payload
并非 Form Data
,经查找资料,Request Payload
要求请求字段中Content Type
为application/json;charset=UTF-8
。之后我用Postman测试结果:
接下来继续思考如何获得请求值urls
继续查看抓的包也不难发现,形如GetImageIndex?device=pc&platform=web
返回的值中有我们想要的:
可以发现就是我们需要的urls
,并且通过观察,可以发现该数组要倒着看才是正确的图片的顺序。但是又产生了一个新的问题,获取ep_id
。因为这里获取一个ep_id
就可以获取本章节的所有图片,所以我猜测ep_id
应该是每一章的标识。
获取请求值ep_id
继续观察,我们发现该图片的URL有ep_id
的值:
其中manage.bilibili.com/mc24742/218087?from=manage_detail
中的218087
就是我们想要的。那么这就是一种暗示,跳转该页的父页肯定有该URL,那么有该URL不就有ep_id
值了嘛?
父页:
但是当我打开调试器时,发现并没有显式的URL:
所以还是得从包看,我们继续看父页的包。经过一段时间的查找,发现ComicDetail?device=pc&platform=web
有想要的东西。
ep_list
中的每一项中的id
就是对应每一章的标识,同时该数组也是反着来的,0对应的是最后一章,最后一项对应的是第一章:
同时也产生了一个新的参数comic_id
,这个参数就比较简单了,就是指每一步动漫的唯一标识:
其中的mc24742
中的24742
就是comic_id
。
Bilibili漫画抓取思路相关推荐
- 某商标局公告抓取思路总结爬虫过无限debugger Js逆向调试
某商标局公告抓取思路总结爬虫过无限debugger @[TOC](某商标局公告抓取思路总结爬虫过无限debugger) 目标地址:aHR0cDovL3dzZ2cuc2JqLmNuaXBhLmdvdi5 ...
- python3抓取图片_通过Python3 爬虫抓取漫画图片
引言: 最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码! 第一步: 准备环境 和类库,我用的是python3.5 ...
- 通过Python3 爬虫抓取漫画图片
通过Python3 爬虫抓取漫画图片 引言: 最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码! 第一步: 准备环境 和类 ...
- Bilibili直播弹幕抓取(3):弹幕传输协议分析
转载自 https://ihomura.cn/2018/05/17/Bilibili%E7%9B%B4%E6%92%AD%E5%BC%B9%E5%B9%95%E6%8A%93%E5%8F%96-3-% ...
- 安居客检测到网页抓取_安居客天津租房情况分析
本篇文章通过对安居客官网天津市租房信息的进行抓取,然后对房价信息进行了简单的描述性统计分析. 工具和技术:VBA知识.Power Bi 一.采集数据过程抓取思路: 安居客租房信息网址为简单的静态网页, ...
- 爬虫app信息抓取之apk反编译抓取
之前也抓过一些app,数据都比较好取,也没有研究的太深,毕竟还有android 模拟器+ appium 的方法.直到遇见了一款app ,具体名字就不说了,它安装在模拟器上竟然打不开 !!第一次遇见上网 ...
- 记一次批量定时抓取微信公众号文章的实现
记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...
- 微博--图片,视频,评论抓取
抓取思路: .手动搜索要抓取的人的主页,进去,浏览器调试找到数据接口 通过curl工具,自动成成请求代码 编辑器请求代码,获取json 解析json,得到发微博人的id,本条微博的id等基础信息,将本 ...
- python抓取小红书_小红书很难爬?最新爬取方法教给你啦~
前言 大家好,我是Kuls. 之前写的那篇App抓包软件charles的配置说过,超过30在看,马上更下一篇.有读者问我怎么爬App,我手把手教了他(多图警告) 所以加班加点给大家写了今天这篇文章. ...
最新文章
- 2022-2028年中国石油套管行业市场研究及前瞻分析报告
- python基础代码库-python基础--注册和登录功能 代码
- 第一章——数据结构之绪论
- 如何在linux环境下安装yaf
- drill apache_Apache Drill:如何创建新功能?
- php日志文件过大,Windows服务器系统下Apache的error.log文件过大的解决办法
- Javascript:事件对象—event
- 阶段3 3.SpringMVC·_06.异常处理及拦截器_5 SpringMVC拦截器之编写controller
- 佳能ir2002g无法扫描到计算机,佳能ir2002g扫描驱动官方版
- Android:JNI调用C++自定义类的详细方法
- android svc编解码,SVC(可分层视频编解码)技术详解
- kali linux捆绑工具shellter的安装及使用
- 【全自动网盘扩容软件使用教程】百度网盘自助无限扩容+自助无限修复软件使用步骤说明
- BIDI SFP光模块和普通SFP光模块的介绍
- codeforces1467E. Distinctive Roots in a Tree
- 手机怎么设置腾达路由器后显示远端服务器,怎么用手机设置腾达路由器
- ardupiolt AP_AHRS库类的分析(一)AP_AHRS_NavEKF
- Word电子扫描仪 word文档转换为图片Pdf,Word文档扫描成Pdf,word文档加密 word转图片 word转pdf
- Android加载图片内存溢出问题解决方法
- 一个int型指针占几个字节,跟指针的类型有关系吗?(2020.11)
热门文章
- 写一篇日记给iCloud一个大大的赞
- 【SHOISXOI2017】bzoj4871 摧毁“树状图”
- tk1刷机+ROS安装+rplidar安装和配置+turtlebot安装和配置
- 【225期】为什么数据库连接池不采用 IO 多路复用?
- 基于PHP+MySQL的动漫交流及动漫周边购物网站
- 传奇sf高防服务器,g口大流量,稳定安全
- 数据库实验——数据库数据更新及查询
- 港股第四家“造车新势力“,零跑汽车通过IPO聆讯
- RHCSA——Linux网络、磁盘及软件包管理
- web在线页面编辑实现-abtest可视化实验