使用requests和re正则表达式库爬虫小说‘斗破苍穹’，可选取任意章节下载到本地

#爬虫斗破苍穹小说，在C盘新建名为’cang’的文件夹，输入开始章节和结束章节，即可将每一章下载到单独的txt文件中
#txt的文件名为每章的标题
#下载过程中显示下载成功的章节和下载失败的章节，下载完成后显示下载用的总时间。
#由于网站上小说缺少某些章节，输入的开始章节与实际下载章节有差别，这块未细化。

import requests
import re
import timedef download_txt(i, j): #i为起始章节，J为终止章节headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone \OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}for x in range(j-i+1):  #共需要下载（j-i+1)章url = 'http://www.doupoxs.com/doupocangqiong/{}.html'.format(i+x)  #每章对应的网址res = requests.get(url, headers=headers)res.encoding = 'zh-CN'if res.status_code == 200:title = re.findall('<h1>(.*?)</h1>', res.text, re.S)[1] #通过正则表达式获取内容，列表的第1位为标题data = re.findall('<p>(.*?)</p>', res.text, re.S) #获取文本内容txt = data[1:-2] #去头掐尾，截取小说内容file = open('c:/cang/{}.{}.txt'.format(i+x, title), 'w')  #打开文件file.write(title + '\n') #先写入标题for t in txt:file.write('  ' + t + '\n')  #写入正文file.close() #关闭文件print('{} 下载完成！'.format(title)) #提示下载进度else:print('第{}章下载失败！错误代码{}'.format(i+x, res.status_code)) #下载失败提示passif __name__ == '__main__':try:time_start = time.time() #读取开始时间start = int(input('请输入开始章节：'))end = int(input('请输入结束章节：'))download_txt(start, end) #调取下载函数time_end = time.time() #读取结束时间time_s = round(time_end - time_start) #计算时间差print('共耗时：{}秒'.format(time_s)) #打印总耗时except Exception as e: #若出现错误则执行print('ERROR', e)

使用requests和re正则表达式库爬虫小说‘斗破苍穹’，可选取任意章节下载到本地相关推荐

利用正则表达式爬取网络小说，并按照章节下载到本地
利用正则表达式爬取网络小说,并按照章节下载到本地闲来无事,尝试了使用正则表达式爬取了某个明显没有反扒机制的小说网站,其实也是刚刚接触爬虫,第一次从网络上爬到感兴趣的东西还是令人开心的. 先贴为敬. ...
java爬虫下载图片到磁盘_java入门爬虫（爬取网页的图片下载到本地磁盘）
java爬虫入门技术我们需要用到http协议从而建立java程序和网页的连接 URL url = new URL("https://www.ivsky.com/tupian/ziranf ...
java爬虫抓取漫画，一二三部下载到本地
爬取的网站记得很久以前,为了看武庚纪漫画,找了半天,当时找的盗版就是这个网站,没想到,还在哈哈. 首先添加jsoup依赖 <dependency> ...
【python笔记002】：字符串、正则表达式和爬虫基本库urllib、requests操作
目录第一章字符串和正则表达式第一节字符串有关知识第二节正则表达式 (一)单个字符匹配 (二)匹配多个字符 (三)转义.或字符 (四)python高级正则第三节 http https有关知 ...
requests库+正则表达式--简单爬虫实例--美女图片篇
正则表达式–简单爬虫实例–4K美女篇文章目录 section1:声明 section2:下载链接分析 section3:代码编写 1.导入板块 2.构造请求 3.正则表达式的构造 4.数据处理 5. ...
爬虫必备，案例对比 Requests、Selenium、Scrapy 爬虫库！
经常有读者会爬虫学哪个库?其实常用的 Python 爬虫库无非是requests,selenium和scrapy,且每个库都有他们的特点,对于我来说没有最推荐的库只有最合适库,本文就将基于一个简单的爬 ...
知己知彼，案例对比 Requests、Selenium、Scrapy 爬虫库！
大家好,我是早起. 经常有读者会爬虫学哪个库?其实常用的 Python 爬虫库无非是requests,selenium和scrapy,其实每个库都有他们的特点,对于我来说没有最推荐的库只有最合适库,本 ...
python3 requests库爬虫
requests库爬虫 1 安装模块 1.1 使用pip安装requests 2 简单爬取网页的源代码 2.1 引入模块 2.2 获取网页的状态(404.500.200等) 2.3 获取网页源码 3 ...
Python3网络爬虫小说内容
转载作者: http://blog.csdn.net/c406495762 转载文章: https://blog.csdn.net/c406495762/article/details/7812350 ...

使用requests和re正则表达式库爬虫小说‘斗破苍穹’，可选取任意章节下载到本地

使用requests和re正则表达式库爬虫小说‘斗破苍穹’，可选取任意章节下载到本地相关推荐

最新文章

热门文章