最近在水滴阅读看英文原著《绿野仙踪》,在PP作文中下载中文版本.

下载到第12章的时候,好像是html网页出错,拿不到下一章的url. 跳过12章,将首页地址更新为第13章,可以继续下

#coding=utf-8import sys
import  io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')from bs4 import BeautifulSoup
import urllib.request
import osbase_dir = "D:/python/src/lvyexianzong/"base_url = "https://www.ppzuowen.com/"def parseURL(url):if url.find("http",0) == -1:url=base_url+urlreq0 = urllib.request.Request(url)req0.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36") #伪装成浏览器html0 = urllib.request.urlopen(req0).read()soup0 = BeautifulSoup(html0,'lxml')try:div_top = soup0.find('div',class_="articleBody articleContent1")h2_string = div_top.find('h2').string if h2_string is not None:fileName = h2_stringelse:fileName = "unknown"content = div_top.find('p').get_text().replace("<br>","").replace('"',"")with open(base_dir+fileName+".txt",'w',encoding='utf-8-sig') as f:f.write(" "*10 + fileName + "\n"*2)f.write(" "*4 + content)print("downloading " + fileName + "  finished")except:print("parse" + url + " error")finally:try:buttom = soup0.find('div',class_="www3")pages = buttom.find_all('span',class_="www4")for item in pages:try:a = item.find('a')if a == None:passelse:name = a.stringif name.find("下一",0) != -1:return a['href']except:passexcept:print("Parse error")def main():url = "https://www.ppzuowen.com/book/lvyexianzong/9419.html"while True:if url != None:url = parseURL(url)else:breakif __name__ == "__main__":if not os.path.exists(base_dir):os.mkdir(base_dir)main()print("Exit!!")

结果:

python 爬虫:下载小说相关推荐

  1. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

  2. python爬虫下载小说_python 爬取小说并下载的示例

    代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...

  3. 利用python爬虫下载小说

    回想当初自学Python很大一部分原因是想要自己爬数据,今天终于学会了怎么下载小说.于是搞了一波<球状闪电>. 需要用到两个库:requests 和 BeautifulSoup,用 pip ...

  4. Python 简单爬虫下载小说txt

    Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...

  5. python爬虫之小说网站--下载小说(正则表达式)

    python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...

  6. python 爬虫下载网易歌单歌曲

    python 爬虫下载网易歌单歌曲 可以根据歌单 id 来下载歌单中的所有音乐,付费音乐除外 可以自己输入歌单 id 来进行单个歌单下载,也可以结合上一篇文章 爬取网易云音乐所有歌单信息 先取到所有的 ...

  7. Python爬虫——下载音乐

    Python爬虫--下载音乐 1.调用需要库 安装库: Windows + R 输入cmd 后 执行下面这两行 pip install requests -i https://pypi.tuna.ts ...

  8. python爬虫 下载视频网站视频

    python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...

  9. python爬虫下载王者荣耀图片

    python爬虫下载王者荣耀图片 腾讯课堂白嫖的一堂课,大佬勿喷. import requests import jsondata = requests.get('http://pvp.qq.com/ ...

  10. python爬虫17K小说网资料

    python爬虫17K小说网资料 爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名.作者.出版单位(或首发网站).出版时间(或网上发布时间).内容简介.小说封面图画.价格.读者 ...

最新文章

  1. 了解Access安全性
  2. react中component存在性能问题
  3. php 中getall,PHP getallheaders无法获取自定义头(headers)的问题
  4. ruby:理解Symbol的二篇好文章
  5. mysql41 sphinx_抛弃mysql模糊查询,使用sphinx做专业索引
  6. 手稿生成 HTML 代码 SketchCode
  7. 马云:大部分失败企业都是因为不够专注
  8. 怎么做视频伪原创 快手视频修改md5
  9. Amigo---Android hotfix terminator
  10. 我的世界服务器皮肤文件在哪里,我的世界皮肤展开文件,皮肤站皮肤保存在哪个文件夹...
  11. 高等代数中涉及到“正交”的名词总结
  12. Win7下eclipse提交Job到hadoop集群
  13. win10如何截屏_Win10隐藏秘技大公开
  14. 直接数字下变频(3):希尔伯特变换法
  15. 全球圣诞节离不开义乌!义乌购发布圣诞用品搜索热度指数;阿迪达斯将成为Jr. NBA中国官方市场合作伙伴 | 美通社头条...
  16. 经营三类医疗器械不使用计算机,三类医疗器械计算机管理系统要求
  17. 11个免费的Web安全测试工具
  18. 【云原生-K8s】kubeadm搭建安装k8s集群v1.25版本完整教程【docker、网络插件calico、中间层cri-docker】
  19. LeetCode-1646-获取生成数组中的最大值
  20. 无人机快速三维建模平台

热门文章

  1. 「话题」为什么微信红包不能撤回、语音不能转发、通讯录还是主页面?
  2. 角形级联h桥,角形级联h桥,角形级联h桥statcom,不平衡电网
  3. 360“隔离沙箱”强劲升级:运行软件不中毒
  4. Graph Neural Networks with Convolutional ARMA Filters
  5. 手搓一个“七夕限定”,用3D Engine 5分钟实现烟花绽放效果
  6. Tcpdump 抓包(http请求抓包)
  7. 《英语阅读教学与思维发展》读书笔记(二)
  8. windows系统chkdsk工具使用
  9. 远程访问大华摄像头拍摄的视频
  10. 20年前 iPod 改变了世界,20年后它变成了怀旧机器