python 爬虫：下载小说

最近在水滴阅读看英文原著《绿野仙踪》，在PP作文中下载中文版本.

下载到第12章的时候，好像是html网页出错，拿不到下一章的url. 跳过12章，将首页地址更新为第13章，可以继续下

#coding=utf-8import sys
import  io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')from bs4 import BeautifulSoup
import urllib.request
import osbase_dir = "D:/python/src/lvyexianzong/"base_url = "https://www.ppzuowen.com/"def parseURL(url):if url.find("http",0) == -1:url=base_url+urlreq0 = urllib.request.Request(url)req0.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36") #伪装成浏览器html0 = urllib.request.urlopen(req0).read()soup0 = BeautifulSoup(html0,'lxml')try:div_top = soup0.find('div',class_="articleBody articleContent1")h2_string = div_top.find('h2').string if h2_string is not None:fileName = h2_stringelse:fileName = "unknown"content = div_top.find('p').get_text().replace("<br>","").replace('"',"")with open(base_dir+fileName+".txt",'w',encoding='utf-8-sig') as f:f.write(" "*10 + fileName + "\n"*2)f.write(" "*4 + content)print("downloading " + fileName + "  finished")except:print("parse" + url + " error")finally:try:buttom = soup0.find('div',class_="www3")pages = buttom.find_all('span',class_="www4")for item in pages:try:a = item.find('a')if a == None:passelse:name = a.stringif name.find("下一",0) != -1:return a['href']except:passexcept:print("Parse error")def main():url = "https://www.ppzuowen.com/book/lvyexianzong/9419.html"while True:if url != None:url = parseURL(url)else:breakif __name__ == "__main__":if not os.path.exists(base_dir):os.mkdir(base_dir)main()print("Exit!!")

结果：

python 爬虫：下载小说相关推荐

python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...
python爬虫下载小说_python 爬取小说并下载的示例
代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...
利用python爬虫下载小说
回想当初自学Python很大一部分原因是想要自己爬数据,今天终于学会了怎么下载小说.于是搞了一波<球状闪电>. 需要用到两个库:requests 和 BeautifulSoup,用 pip ...
Python 简单爬虫下载小说txt
Python 简单爬虫下载小说txt #第一次写爬虫代码欢迎交流指正我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
python 爬虫下载网易歌单歌曲
python 爬虫下载网易歌单歌曲可以根据歌单 id 来下载歌单中的所有音乐,付费音乐除外可以自己输入歌单 id 来进行单个歌单下载,也可以结合上一篇文章爬取网易云音乐所有歌单信息先取到所有的 ...
Python爬虫——下载音乐
Python爬虫--下载音乐 1.调用需要库安装库: Windows + R 输入cmd 后执行下面这两行 pip install requests -i https://pypi.tuna.ts ...
python爬虫下载视频网站视频
python爬虫下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...
python爬虫下载王者荣耀图片
python爬虫下载王者荣耀图片腾讯课堂白嫖的一堂课,大佬勿喷. import requests import jsondata = requests.get('http://pvp.qq.com/ ...
python爬虫17K小说网资料
python爬虫17K小说网资料爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名.作者.出版单位(或首发网站).出版时间(或网上发布时间).内容简介.小说封面图画.价格.读者 ...

python 爬虫：下载小说

python 爬虫：下载小说相关推荐

最新文章

热门文章