python——爬取漫画

今天小编也是学习了爬取漫画的代码,特来分享一下。

需要导入的库:

from lxml import etree
import requests
from PIL import Image
from io import BytesIO

如果要操作二进制数据,就需要使用BytesIO。 BytesIO实现了在内存中读写bytes
其他的就不多说了。

我选取的网址:https://www.manhuatai.com/doupocangqiong/

为斗破苍穹

打开开发者工具(我用的谷歌),发现如图所示

出现了 x-requested-with: XMLHttpRequest,表明有渲染过程,Ajax请求,不能直接通过访问网址的html数据拿到我们想要的东西。

我们直接 进入第一话,查看源码:

经过对网址的多次试探后,发现出现 //mhpic.manhualang.com/comic/D/斗破苍穹拆分版/1话/2.jpg-mht.middle.webp 格式时,可以访问到完整的图片(我们想要的?????)

而且观察 network中 并未找到 相关的链接,所以我们采用 直接构造网址的方法,
去拿到数据。

爬取漫画 Ajax请求 不能直接爬取 采用直接构造网址
‘’’
//mhpic.cnmanhua.com/comic/D/斗破苍穹拆分版/3话/1.jpg-300x150.jpg
//mhpic.manhualang.com/comic/D/斗破苍穹拆分版/1话/2.jpg-mht.middle.webp

‘’’

源码:

from lxml import etree
import requests
from PIL import Image
from io import BytesIO

#爬取漫画 Ajax请求 不能直接爬取 采用直接构造网址
‘’’
//mhpic.cnmanhua.com/comic/D/斗破苍穹拆分版/3话/1.jpg-300x150.jpg
//mhpic.manhualang.com/comic/D/斗破苍穹拆分版/1话/2.jpg-mht.middle.webp

‘’’

url = ‘https://www.manhuatai.com/doupocangqiong/’
#构造请求头
headers = {
‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/76.0.3809.100 Safari/537.36’
}

#1 获得数据
response = requests.get(url, headers=headers)
html = response.text
#整理成文档对象
html = etree.HTML(html)
lias = html.xpath(’//ol[@id=“j_chapter_list”]/li/a/div/img/@data-src’)

imgs = []
index1 = 1
for lia in lias:
# print(lia)
if index1 > 3:
break
index1 += 1
li = lia.replace(‘cnmanhua’, ‘manhualang’)
# print(li)
li = li.rstrip(‘jpg-300x150.jpg’)
‘’’
我们发现 最后的数字也去除了,
//mhpic.manhualang.com/comic/D/斗破苍穹拆分版/1话/

>#
print(li)   接下来 构造请求网址
index = 1
while True:# 开始循环遍历网址 下载数据url = 'https:' + li + str(index) + '.jpg-mht.middle.webp'res = requests.get(url, headers=headers)# 判断是否为图片if res.content.startswith(b"<?xml"):break# 如果要操作二进制数据,就需要使用BytesIO。# BytesIO实现了在内存中读写bytesim = Image.open(BytesIO(res.content))imgs.append(im)print('正在保存:' + url)index += 1

imgs[0].save(‘斗破苍穹.pdf’, save_all=True, append_images=imgs[1:])

最后

趣味学python(018)相关推荐

  1. 拒绝枯燥,趣味学python!python基础练习:趣味百题!

    https://www.toutiao.com/a6644376171280597517/ 编程求10000以内的完全数. 啊完全数,我感觉我与欧拉,梅森等数学大师又近了一步. 解题思路: 思考五分钟 ...

  2. 小猪佩奇的4种python玩法,带你趣味学python!

    本文说明 为什么要学习python?是因为不仅社会上很多工作需要用到python,同时我们可以利用python做很多好玩儿的事儿,比如说:利用爬虫数据进行数据分析,得到一些有趣的结论:利用python ...

  3. 【趣味学Python】Python基础语法讲解

    目录 编码 标识符 python保留字 注释 实例(Python 3.0+) 实例(Python 3.0+) 行与缩进

  4. 零基础学python全彩版pdf-(特价书)零基础轻松学Python:青少年趣味编程(全彩版)...

    基本信息 作者: 快学习教育 出版社:机械工业出版社 ISBN:9787111640004E上架时间:2020-5-26出版日期:2019 年11月开本:16开页码:176版次:1-1 所属分类: 科 ...

  5. 少儿编程之旅 趣学Python,小学生python趣味编程PPT

    中小学生如何学习Python编程? 一.中小学生接触电脑的时间很少,所以要经常操作电脑,熟悉电脑的操作,查资料,环境变量,命令行等等.二.编程需要一些英语基础,不用很厉害,但是至少要能看懂一些简单的互 ...

  6. python少儿趣味编程 pdf-趣学python编程

    python最大优点是开源,优于JAVA,我学Python时不到三个月就出了20多程序,赚了不少钱,我叫塞班狂,你在百度搜索下就可以看到,我是PYTHON for symbian的.不是windows ...

  7. python 少儿趣味编程下载_零基础学Python编程(少儿趣味版)

    本书是一本少儿编程入门书,适合零基础的读者.本书以"派森号"飞船和西西船长等人的童话故事为载体,从头开始介绍了Python语言的基础语法.全书共有6个章节.每章都有约十个独立的内容 ...

  8. python有哪些方向、应该怎么学-终于找到深圳学Python,有几个方向?怎么从一个方向学到底...

    深圳学Python,有几个方向?怎么从一个方向学到底,近日很多临近毕业的大学生朋友来邮件询问关于深圳Python培训的一些事情,觉得很有代表性,所以就想探讨一下:为什么要选择深圳Python培训?经过 ...

  9. python画画用哪库好_小白开始学Python最著名的绘图库

    原标题:小白开始学Python最著名的绘图库 这是菜鸟学Python的第101篇原创文章 数据分析里面可视化是重要的环节,辛苦把数据采集,然后经历了很多工序的清洗之后,最后要展现给用户,最好的方法就是 ...

最新文章

  1. 骑摩托的蒙娜丽莎 - 曼妙风骚的花式慢跑算法
  2. 我国智能家居行业运行现状分析 标准割裂市场
  3. Linux下route add 命令加入路由列表
  4. Facebook全面推出Watch Party,可多人线上同看直播视频
  5. android 后台邮件发送,Android邮件发送
  6. Python GUI编程(Tkinter)笔记
  7. Update your Twitter status using php
  8. 前端:JS/17/前篇总结(JS程序的基本语法,变量),数据类型-变量的类型(数值型,字符型,布尔型,未定义型,空型),数据类型转换,typeof()判断数据类型,从字符串提取整数或浮点数的函数
  9. mysql4.0升级_再遇MySQL4.0升级到MySQL5.1的时候
  10. nessus8.9.0百度网盘_免费百度网盘SVIP共享20.1.19
  11. python json函数_Json概述以及python对json的相关操作
  12. mac的java代码生成器为什么文件路径是这样的
  13. 2022年 javaJDK下载安装步骤及环境变量配置【超详细】
  14. Oracle之现有表上建新表、操作符、字符函数
  15. SAP OB53 本年利润科目的年初余额和年末余额不一致的伪问题
  16. 轻重在平衡:平衡查找树的强大威力
  17. 【转载】Typora标题增加序号
  18. fastboot 操作
  19. 裁判文书网 爬虫 升级最新版本0.7 更新时间2020-12-17
  20. 为什么onenote一直在加载_OneNote: 沉睡于电脑中的宝藏笔记软件,高效管理你的学习生活...

热门文章

  1. 华为手机怎么清理手机内存,有什么好的方法吗
  2. cmd查看java环境变量_cmd查看环境变量
  3. 差价500,Find X3和小米11哪个好?对比后答案明显
  4. 相关滤波目标跟踪学习笔记(三)——KCF算法公式理解
  5. ECFP、FCFP和SMILES的内在原理
  6. Unity模拟龙之谷人物控制(二)
  7. echarts之热力图
  8. TitanX Server安装Caffe
  9. 或许GitHub最好的选择真的是微软
  10. python将数据写入xml文件_python读取/创建XML文件