Python爬虫——动漫zj(manhua站)
目录
1,使用到的库
2,大致步骤
3,注意点
4,具体代码实现
1,使用到的库
from urllib.parse import urlencode import requests import re import json import execjs from bs4 import BeautifulSoup from pymongo import MongoClient import os
2,大致步骤
- 根据漫画名称获取漫画url
- 根据漫画url获取漫画每一话的url
- 获取每一话所有的图片url
- 将url及其相关信息存入MongoDB
- 成功请求每个url,加载出图片再将其下载到本地
3,注意点
- 步骤一中,漫画的url并不在返回的页面shtml中,而是存在异步加载出的search.php
- 步骤三,在我们打开每一话的页面时,虽然页面上只有其中一张图片,但其实此话的每张图片url都已经存在返回shtml的某一角落被特别加密过。我们需要用正则式将它提取出来稍微修改一下,再利用execjs运行该js代码。
- 下载图片时,发现存在防盗链
获取每一张图片的URL后,会发现请求该图片时,总会出现403的状况。只需要在headers里面加上的Referer就好了,referer表示你是从那个url跳转过来的。如果没有referer,网站则会判断你不是人 为操作。
4,具体代码实现
https://github.com/DALEKZ/my-spiders/tree/master/dongmanzhijia
Python爬虫——动漫zj(manhua站)相关推荐
- python爬取b站视频封面_学习笔记(4)[Python爬虫]:爬取B站搜索界面的所有视频的封面...
学习笔记(4)[Python爬虫]:爬取B站搜索界面的所有视频的封面 import os import requests import re import json from bs4 import B ...
- python抓取视频违法吗,科学网—【python爬虫】抓取B站视频相关信息(一) - 管金昱的博文...
昨天我在B站上写了这么一篇文章,但是被他们锁住了.无奈之下我复制到知乎上先保存起来 在这篇名为<三天学会用python进行简单地爬取B站网页视频数据>文章中我主要提到了两点在已知aid的情 ...
- python b站 排行_用python爬虫追踪知乎/B站大V排行
原标题:用python爬虫追踪知乎/B站大V排行 最近,我们的实训生清风小筑在学习和实践 python 的数据分析,前几周把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读 ...
- 终于,我用Python爬虫批量保存了P站的靓图
今天我决定爬虫下 P站的图片,我们首先打开网站研究下. 不好意思,手抖打错了,应该是下面这个网站. 众所周知,插图网站 pixiv 别名叫 P站,所以今天我用爬虫批量保存二次元P站的靓图. P站主要分 ...
- 如何去使用Python爬虫来爬取B站的弹幕数据?
哔哩哔哩众所周知是弹幕的天堂,视频观看人数越多,弹幕也就越多.今天小千就来教大家如何去使用Python开发一个爬虫来爬取B站的弹幕数据. 1.弹幕哪里找? 平常我们在看视频时,弹幕是出现在视频上的.实 ...
- python b站 排行_用python爬虫追踪知乎/B站大V排行!
今天要给大家看的,是在数据分析过程中产出的一个副产品: 知乎/B站的Top100大V排行 这个排行不是一次性的结果,而是 每周更新 的.所以从这个上面还可以显示出榜上大V一周来的用户增长和排名变化情况 ...
- python b站 排行_【圆老司】用python爬虫追踪知乎/B站大V排行
之前我们一位同学在学习和实践 python 数据分析的时候把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读量.回复数.标题关键字.地域分布--然后又对这些数据进行了整理, ...
- 【第4篇】Python爬虫实战-抓取B站弹幕视频
目录 1.获取视频cid参数 2.程序源代码 3.程序运行结果 4.总结 1.获取视频cid参数 首先我们打开一个有弹幕的B站视频,比如:<我好像在哪见过你>人们把难言的爱都埋入土壤里_哔 ...
- python爬虫_爬取B站视频标题
着手写爬虫前,需要了解的几个概念: URL 全称 Uniform Resource Locator (统一资源定位器),格式为:协议+主机+端口+路径. 比如:https://www.bilibili ...
最新文章
- Github远程推送一直Everything up-to-date
- CSS3的background-size:设置背景图片大小
- 将一个简单远程调用的方式例子改为异步调用
- 吃大小写的亏,上符号的当
- 2020年国家电网计算机类考纲,终于发布!详解2020届国家电网考试大纲,带你读懂考纲变化!...
- JVM内存的那些事,你了解多少?
- leetcode python3 简单题136. Single Number
- 数学中蕴含的人生哲理
- MySQL2014版查询操作的入门级教学
- AndroidStudio 自带avd模拟器WiFi网络受限无法连接
- 你是如何进行群发邮件的呢 告诉你一些快速高效的群发邮件方法
- 【PBL项目实战】户外智慧农场项目实战系列——1.阿里云物联网平台的开通与云端可视化应用的新建
- 1000人 规模园区网设计
- 获取input选择文件的本地地址
- SpringBoot后台java下载文件及注意的地方
- DISC四种领导风格
- C++实现的农历算法
- 什么是php 的精华,PHP之精髓
- Java学习:自学or培训?
- STC89C51单片机相比于其他单片机具有那些优点?
热门文章
- Server服务器修改时间,如何在 Windows Server 中配置权威时间服务器
- 黑链/暗链/防K黑链代码
- 【TARS】用TarsCpp-创建第一个服务
- php show函数,PHP中的常用MYSQL函数 - msnshow的个人空间 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
- ubuntu 显示不出来 显示器_【LINUX】(Ubuntu)无显示器接入,使用虚拟显示器且远程控制...
- 【Nginx-利用Referer防盗链】解决网站被可疑链接调取接口
- 关于VS2017中VB.NET打开重新打开工程后程序设计界面无法显示的问题
- 10年期国债利率笔记
- PAT乙级 1024. 科学计数法 (C语言)
- D4RL Benchmark 安装教程Ubuntu20.04