目录

1,使用到的库

2,大致步骤

3,注意点

4,具体代码实现


1,使用到的库

from urllib.parse import urlencode
import requests
import re
import json
import execjs
from bs4 import BeautifulSoup
from pymongo import MongoClient
import os

2,大致步骤

  1. 根据漫画名称获取漫画url
  2. 根据漫画url获取漫画每一话的url
  3. 获取每一话所有的图片url
  4. 将url及其相关信息存入MongoDB
  5. 成功请求每个url,加载出图片再将其下载到本地

3,注意点

  • 步骤一中,漫画的url并不在返回的页面shtml中,而是存在异步加载出的search.php

​​​​​​​

  • 步骤三,在我们打开每一话的页面时,虽然页面上只有其中一张图片,但其实此话的每张图片url都已经存在返回shtml的某一角落被特别加密过。我们需要用正则式将它提取出来稍微修改一下,再利用execjs运行该js代码。

  • 下载图片时,发现存在防盗链

获取每一张图片的URL后,会发现请求该图片时,总会出现403的状况。只需要在headers里面加上的Referer就好了,referer表示你是从那个url跳转过来的。如果没有referer,网站则会判断你不是人 为操作。


4,具体代码实现

https://github.com/DALEKZ/my-spiders/tree/master/dongmanzhijia

Python爬虫——动漫zj(manhua站)相关推荐

  1. python爬取b站视频封面_学习笔记(4)[Python爬虫]:爬取B站搜索界面的所有视频的封面...

    学习笔记(4)[Python爬虫]:爬取B站搜索界面的所有视频的封面 import os import requests import re import json from bs4 import B ...

  2. python抓取视频违法吗,科学网—【python爬虫】抓取B站视频相关信息(一) - 管金昱的博文...

    昨天我在B站上写了这么一篇文章,但是被他们锁住了.无奈之下我复制到知乎上先保存起来 在这篇名为<三天学会用python进行简单地爬取B站网页视频数据>文章中我主要提到了两点在已知aid的情 ...

  3. python b站 排行_用python爬虫追踪知乎/B站大V排行

    原标题:用python爬虫追踪知乎/B站大V排行 最近,我们的实训生清风小筑在学习和实践 python 的数据分析,前几周把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读 ...

  4. 终于,我用Python爬虫批量保存了P站的靓图

    今天我决定爬虫下 P站的图片,我们首先打开网站研究下. 不好意思,手抖打错了,应该是下面这个网站. 众所周知,插图网站 pixiv 别名叫 P站,所以今天我用爬虫批量保存二次元P站的靓图. P站主要分 ...

  5. 如何去使用Python爬虫来爬取B站的弹幕数据?

    哔哩哔哩众所周知是弹幕的天堂,视频观看人数越多,弹幕也就越多.今天小千就来教大家如何去使用Python开发一个爬虫来爬取B站的弹幕数据. 1.弹幕哪里找? 平常我们在看视频时,弹幕是出现在视频上的.实 ...

  6. python b站 排行_用python爬虫追踪知乎/B站大V排行!

    今天要给大家看的,是在数据分析过程中产出的一个副产品: 知乎/B站的Top100大V排行 这个排行不是一次性的结果,而是 每周更新 的.所以从这个上面还可以显示出榜上大V一周来的用户增长和排名变化情况 ...

  7. python b站 排行_【圆老司】用python爬虫追踪知乎/B站大V排行

    之前我们一位同学在学习和实践 python 数据分析的时候把知乎.B站.虎扑上的各种信息都抓了个遍,比如粉丝数.关注关系.发布时间.阅读量.回复数.标题关键字.地域分布--然后又对这些数据进行了整理, ...

  8. 【第4篇】Python爬虫实战-抓取B站弹幕视频

    目录 1.获取视频cid参数 2.程序源代码 3.程序运行结果 4.总结 1.获取视频cid参数 首先我们打开一个有弹幕的B站视频,比如:<我好像在哪见过你>人们把难言的爱都埋入土壤里_哔 ...

  9. python爬虫_爬取B站视频标题

    着手写爬虫前,需要了解的几个概念: URL 全称 Uniform Resource Locator (统一资源定位器),格式为:协议+主机+端口+路径. 比如:https://www.bilibili ...

最新文章

  1. Github远程推送一直Everything up-to-date
  2. CSS3的background-size:设置背景图片大小
  3. 将一个简单远程调用的方式例子改为异步调用
  4. 吃大小写的亏,上符号的当
  5. 2020年国家电网计算机类考纲,终于发布!详解2020届国家电网考试大纲,带你读懂考纲变化!...
  6. JVM内存的那些事,你了解多少?
  7. leetcode python3 简单题136. Single Number
  8. 数学中蕴含的人生哲理
  9. MySQL2014版查询操作的入门级教学
  10. AndroidStudio 自带avd模拟器WiFi网络受限无法连接
  11. 你是如何进行群发邮件的呢 告诉你一些快速高效的群发邮件方法
  12. 【PBL项目实战】户外智慧农场项目实战系列——1.阿里云物联网平台的开通与云端可视化应用的新建
  13. 1000人 规模园区网设计
  14. 获取input选择文件的本地地址
  15. SpringBoot后台java下载文件及注意的地方
  16. DISC四种领导风格
  17. C++实现的农历算法
  18. 什么是php 的精华,PHP之精髓
  19. Java学习:自学or培训?
  20. STC89C51单片机相比于其他单片机具有那些优点?

热门文章

  1. Server服务器修改时间,如何在 Windows Server 中配置权威时间服务器
  2. 黑链/暗链/防K黑链代码
  3. 【TARS】用TarsCpp-创建第一个服务
  4. php show函数,PHP中的常用MYSQL函数 - msnshow的个人空间 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
  5. ubuntu 显示不出来 显示器_【LINUX】(Ubuntu)无显示器接入,使用虚拟显示器且远程控制...
  6. 【Nginx-利用Referer防盗链】解决网站被可疑链接调取接口
  7. 关于VS2017中VB.NET打开重新打开工程后程序设计界面无法显示的问题
  8. 10年期国债利率笔记
  9. PAT乙级 1024. 科学计数法 (C语言)
  10. D4RL Benchmark 安装教程Ubuntu20.04