Python下载所有XKCD漫画

1、程序要做的事情：

加载主页
保持该页的漫画图片
转入前一张漫画的链接
重复直到第一张漫画

意味着代码要做的事情

利用requests模块下载页面
利用Beautiful Soup找到页面中漫画图像的URL
利用iter_content（）下载漫画图像，并保存到硬盘
找到前一张漫画的链接URL，然后重复

第一步：设计程序

打开一个浏览器的开发者工具，检查该页面上的元素，会发现下面的内容：
漫画图像文件的URL，由一个<img>元素的href属性给出
<img>元素在<div id="comic">元素之内
Prev按钮有一个rel HTML属性，值是prev
第一张漫画的Prev按钮链接到http://xkcd.com/#URL，表明没有前一个页面了

url='https://xkcd.com/'     #starting url
os.makedirs('xkcd',exist_ok=True)   #store comics in ./xkcd

第二步：下载页面

print('Downloading page %s...' % url)
res=requests.get(url)   #下载
res.raise_for_status()  #如果下载发生问题，就抛出异常，并终止程序

第三步：寻找和下载漫画图像

#Find the URL of the comic image.
comicElem=soup.select('#comic img') #如果没有找到任何元素，那么将返回一个空列表，否则将返回一个列表，包含一个<img>元素。可以从这个<img>元素中取得src属性，将它传递给requests.get()，下载这个漫画图像文件if comicElem==[]:print('Could not find comic image.')else:comicUrl=comicElem[0].get('src')print('Downloading image %s...' % (comicUrl))res=requests.get('http:'+comicUrl)res.raise_for_status()

漫画图像的<img>元素识在一个<div>元素中，它带有的id属性设置为comic。所以选择器‘#comic img’将从BeatifulSoup对象中选出正确的<img>元素

第四步：保存图像，找到前一张漫画

#Save the image to ./xkcd.
imageFile=open(os.path.join('xkcd',os.path.basename(comicUrl)),'wb')
for chunk in res.iter_content(100000):imageFile.write(chunk)
imageFile.close()#Get the Prev Button's url
prevLink=soup.select('a[rel="prev"]')[0]
url='https://xkcd.com/'+prevLink.get('href')

这时，漫画的图像文件保存在变量res中。你需要将图像数据写入硬盘的文件。

整个项目的代码如下：

import requests,os,bs4
url='https://xkcd.com/' #starting url
os.makedirs('xkcd',exist_ok=True)#store comics in ./xkcd
while not url.endswith('#'):print('Downloading page %s...' % url)res=requests.get(url)res.raise_for_status()soup=bs4.BeautifulSoup(res.text,features='html.parser')comicElem=soup.select('#comic img')if comicElem==[]:print('Could not find comic image.')else:comicUrl=comicElem[0].get('src')print('Downloading image %s...' % (comicUrl))res=requests.get('http:'+comicUrl)res.raise_for_status()imageFile=open(os.path.join('xkcd',os.path.basename(comicUrl)),'wb')for chunk in res.iter_content(100000):imageFile.write(chunk)imageFile.close()prevLink=soup.select('a[rel="prev"]')[0]url='https://xkcd.com/'+prevLink.get('href')print('Done')

Python下载所有XKCD漫画相关推荐

python练习项目八——下载所有XKCD 漫画
项目:下载所有XKCD 漫画背景博客和其他经常更新的网站通常有一个首页,其中有最新的帖子,以及一个"前一篇"按钮,将你带到以前的帖子.然后那个帖子也有一个"前一篇&q ...
【下载所有XKCD漫画】详细解析
目录 1,实现目的 2,准备工作 2.1,确保所需模块已安装 2.2,脚本思路 3,全部代码 4,执行结果 1,实现目的 XKCD 是一个流行的极客漫画网站.首页 http://xkcd.com/有一 ...
【Python】下载所有 XKCD 漫画
博客和其他经常更新的网站通常有一个首页,其中有最新的帖子,以及一个"前一篇"按钮,将你带到以前的帖子.然后那个帖子也有一个"前一篇"按钮,以此类推.这创建了 ...
看漫画学python下载_Python爬虫——漫画下载
在文章: Python爬虫--利用PhantomJS下载动态加载图片中,我们已经知道了如何利用PhantomJS来下载网页中动态加载的图片.本次分享的目标是,下载动漫网页中的漫画,示例网址如下:htt ...
实例：下载所有XKCD漫画
import requests,os,bs4 url='http://xkcd.com' os.makedirs('xkcd') while not url.endswith('#'):print(' ...
python-web-下载所有xkcd漫画
下载所有xkcd漫画 # downloads every single xkcd comicimport requests,os,bs4 url='http://xkcd.com' # start u ...
Python批量下载XKCD漫画只需20行命令
XKCD是一个流行的极客漫画网站,其官网首页有一个 Prev 按钮,让用户导航到前面的漫画.如果你希望复制该网站的内容以在离线的时候阅读,那么可以手动导航至每个页面并保存.但手动下载每张漫画要花较长的 ...
从XKCD网站下载自动所有漫画图片---python实现
经常跟新的网站通常有一个首页,其中有最新的帖子,以及一个"前一篇"(或上一页)按钮,用来跳转到以前的帖子.然后那个帖子也有一个"前一篇"的按钮,以此内推.这创建 ...
使用python下载网站漫画
最近想回顾一下七龙珠,结果发现腾讯已经收费,而且是按节收费,无奈看看其他网站,找到了一个网站,可以在线看,但是无法下载,最后决定使用python下载下来首先要分析网站源码,查看源代码 1~42部的U ...
python下载漫画
下载漫画的脚本身为漫画迷,一直想直接将漫画下载到电脑上看,于是就有这个python脚本. 系统:Ubuntu 14.04 python版本:2.7.6 用到的python库有: os (操作系统接口 ...

Python下载所有XKCD漫画

Python下载所有XKCD漫画相关推荐

最新文章

热门文章