#爬虫斗破苍穹小说,在C盘新建名为’cang’的文件夹,输入开始章节和结束章节,即可将每一章下载到单独的txt文件中
#txt的文件名为每章的标题
#下载过程中显示下载成功的章节和下载失败的章节,下载完成后显示下载用的总时间。
#由于网站上小说缺少某些章节,输入的开始章节与实际下载章节有差别,这块未细化。

import requests
import re
import timedef download_txt(i, j): #i为起始章节,J为终止章节headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone \OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}for x in range(j-i+1):  #共需要下载(j-i+1)章url = 'http://www.doupoxs.com/doupocangqiong/{}.html'.format(i+x)  #每章对应的网址res = requests.get(url, headers=headers)res.encoding = 'zh-CN'if res.status_code == 200:title = re.findall('<h1>(.*?)</h1>', res.text, re.S)[1] #通过正则表达式获取内容,列表的第1位为标题data = re.findall('<p>(.*?)</p>', res.text, re.S) #获取文本内容txt = data[1:-2] #去头掐尾,截取小说内容file = open('c:/cang/{}.{}.txt'.format(i+x, title), 'w')  #打开文件file.write(title + '\n') #先写入标题for t in txt:file.write('  ' + t + '\n')  #写入正文file.close() #关闭文件print('{} 下载完成!'.format(title)) #提示下载进度else:print('第{}章下载失败!错误代码{}'.format(i+x, res.status_code)) #下载失败提示passif __name__ == '__main__':try:time_start = time.time() #读取开始时间start = int(input('请输入开始章节:'))end = int(input('请输入结束章节:'))download_txt(start, end) #调取下载函数time_end = time.time() #读取结束时间time_s = round(time_end - time_start) #计算时间差print('共耗时:{}秒'.format(time_s)) #打印总耗时except Exception as e: #若出现错误则执行print('ERROR', e)

使用requests和re正则表达式库爬虫小说‘斗破苍穹’,可选取任意章节下载到本地相关推荐

  1. 利用正则表达式爬取网络小说,并按照章节下载到本地

    利用正则表达式爬取网络小说,并按照章节下载到本地 闲来无事,尝试了使用正则表达式爬取了某个明显没有反扒机制的小说网站,其实也是刚刚接触爬虫,第一次从网络上爬到感兴趣的东西还是令人开心的. 先贴为敬. ...

  2. java爬虫下载图片到磁盘_java入门爬虫(爬取网页的图片下载到本地磁盘)

    java爬虫入门技术 我们需要用到http协议 从而建立java程序和网页的连接 URL url = new URL("https://www.ivsky.com/tupian/ziranf ...

  3. java爬虫抓取漫画,一二三部下载到本地

    爬取的网站 记得很久以前,为了看武庚纪漫画,找了半天,当时找的盗版就是这个网站,没想到,还在哈哈. 首先添加jsoup依赖 <!--解析html使用--><dependency> ...

  4. 【python笔记002】:字符串、正则表达式和爬虫基本库urllib、requests操作

    目录 第一章 字符串和正则表达式 第一节 字符串有关知识 第二节 正则表达式 (一)单个字符匹配 (二)匹配多个字符 (三)转义.或字符 (四)python高级正则 第三节 http https有关知 ...

  5. requests库+正则表达式--简单爬虫实例--美女图片篇

    正则表达式–简单爬虫实例–4K美女篇 文章目录 section1:声明 section2:下载链接分析 section3:代码编写 1.导入板块 2.构造请求 3.正则表达式的构造 4.数据处理 5. ...

  6. 爬虫必备,案例对比 Requests、Selenium、Scrapy 爬虫库!

    经常有读者会爬虫学哪个库?其实常用的 Python 爬虫库无非是requests,selenium和scrapy,且每个库都有他们的特点,对于我来说没有最推荐的库只有最合适库,本文就将基于一个简单的爬 ...

  7. 知己知彼,案例对比 Requests、Selenium、Scrapy 爬虫库!

    大家好,我是早起. 经常有读者会爬虫学哪个库?其实常用的 Python 爬虫库无非是requests,selenium和scrapy,其实每个库都有他们的特点,对于我来说没有最推荐的库只有最合适库,本 ...

  8. python3 requests库爬虫

    requests库爬虫 1 安装模块 1.1 使用pip安装requests 2 简单爬取网页的源代码 2.1 引入模块 2.2 获取网页的状态(404.500.200等) 2.3 获取网页源码 3 ...

  9. Python3网络爬虫小说内容

    转载作者: http://blog.csdn.net/c406495762 转载文章: https://blog.csdn.net/c406495762/article/details/7812350 ...

最新文章

  1. docker保存linux镜像,docker导入导出容器和保存加载镜像
  2. 大型网站核心要素--伸缩性
  3. mac mysql 重设密码_Mac下忘记mysql密码重新设置密码的图文教程
  4. 延迟和带宽:时延简介、最后一英里、核心网带宽、网络边缘
  5. 【论文写作】毕业论文怎么写?写作步骤是什么?
  6. php返回成功信息msg_PHP进化史 — 从v5.6到v8.0(可收藏)
  7. matlab 去掉相同的行数据库,关于UCI数据库每行数据列数不一致的处理代码
  8. C语言结构体struct
  9. 关于射频技术在粮食安全的科研进展
  10. 如何在Mac上设置iCloud
  11. OrCAD导出BOM表的方法
  12. PHP公历农历转换(阴历阳历转换)阴历和阳历转换
  13. 《中国通史》学习记录
  14. ei会议论文录用但不参加会议_ei会议论文录用但不参加会议_您好,您的EI会议论文流程一点通到了...
  15. 科普:指纹识别的工作原理
  16. NBA球星数据可视化分析-FineBI
  17. Gantt图和PERT图的相关知识
  18. Python 基础课程安排
  19. App地推效果差?你可能缺少渠道效果统计
  20. iOS——调用相册换头像

热门文章

  1. wap网站服务器要求,使您的WEB服务器支持WAP数据发送
  2. html蒙尘效果,vr看车.html
  3. Revit族加密工具分享
  4. 如何建立免费企业邮箱(腾讯、网易)
  5. 《提醒幸福》| 毕淑敏
  6. 学计算机的心理300字,心理作文300字
  7. 谁应该去读 C++ Programming Language
  8. 1.1.1. Ordinary Least Squares(普通最小二乘)
  9. 荒岛求生html5母狼攻,荒岛求生各资源作用及获取方法解析 荒岛求生资源怎么获得...
  10. 全面认识二极管,一篇文章就够了