刚学了正则表达式,直接用上爬虫来试试,不多说直接上代码:

#!/usr/bin/python3
import requests
import reclass HuanYue:def __init__(self):self.url = "http://www.huanyue123.com/book/7/7717/"self.headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36"}def parse(self, parse_url):response = requests.get(url=parse_url, headers=self.headers).content.decode('gbk')html = re.compile('<div id="htmlContent" class="contentbox clear"><div style=".*?" ><a href=".*?" style=".*?">.*?</a></div>(.*?)</div>', re.S).findall(response)# print(html[0].replace('&nbsp;&nbsp;&nbsp;&nbsp;', '    ').replace('<br />', ''))txt = html[0].replace('&nbsp;&nbsp;&nbsp;&nbsp;', '    ').replace('<br />', '')return txtdef write(self, txt):with open('C:\\Users\\cj\\Desktop\\小说.txt', 'a+', encoding='utf8') as f:f.write(txt)f.close()def run(self):req = requests.get(url=self.url, headers=self.headers).content.decode('gbk')text = re.compile('<li><a href="(.*?)">(.*?)</a></li>', re.S).findall(req)for url in text:parse_url = url[0]title = url[1]print('下载:', title)print('下载url:', parse_url)txt = self.parse(parse_url)self.write(txt)print(title, '下载完了!')if __name__ == '__main__':t1 = HuanYue()t1.run()



以上是随便找了一个小说进行爬取

小说爬虫之幻月书院requests和re库相关推荐

  1. python爬虫库的常见用法_$python爬虫系列(2)—— requests和BeautifulSoup库的基本用法...

    本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...

  2. python爬虫系列(2)—— requests和BeautifulSoup库的基本用法

    本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...

  3. python3爬虫记(一)------------------利用 requests 和 lxml 爬取小说

    PS 本人第一次写博客,写的不好和不对的地方请见谅,欢迎各位指出和交流. (使用的是 anaconda3) (这里用到的requests 和 lxml 的详细内容参见 http://docs.pyth ...

  4. 小说爬虫强制绕过ssl验证

    小说爬虫强制绕过ssl验证 requests.get(url,verify=False) verify=False 忽略证书验证 import requests # 取消忽略ssl的验证警告 impo ...

  5. python 小说 小说_python潇湘书院网站小说爬虫

    很久没有写爬虫了,最近接到一个抓取小说的项目顺便做此纪录练练手,之后工作中可能也会有部分场景要用到爬虫,爬取竞争对手进行数据分析什么的. 目标网站:潇湘书院 环境准备: python3 request ...

  6. python 小说爬虫_Python实现的爬取小说爬虫功能示例

    本文实例讲述了Python实现的爬取小说爬虫功能.分享给大家供大家参考,具体如下: 想把顶点小说网上的一篇持续更新的小说下下来,就写了一个简单的爬虫,可以爬取爬取各个章节的内容,保存到txt文档中,支 ...

  7. 简单 python 小说爬虫 ultimate

    简单 python 小说爬虫 想爬就爬 带txt配置文件 day01(半成品) 划掉 - day02(成品) 书名 史上第一剑修 笔趣阁 url代码里找 ####################### ...

  8. python超简单超基础的免费小说爬虫

    python超简单超基础的免费小说爬虫 需要准备的环境 选取网页 思路 代码 总结 需要准备的环境 1.python 3.0及以上皆可 2.requests库,os,re 选取网页 找一个免费的小说网 ...

  9. Python顶点小说爬虫(《三寸人间》爬取)

    Python顶点小说爬虫(<三寸人间>爬取) 获取整个页面 import requests from bs4 import BeautifulSoup url = "https: ...

最新文章

  1. C++学习手记四:继承和多态
  2. python 拼多多秒杀_关于 拼多多笔试题-简单易懂的秒杀服务
  3. qt定时连续发送udp数据包_TCP和UDP
  4. [原]Android打包之Gradle打包
  5. DCMTK:DIMSE状态代码和类的测试程序
  6. Java持久性锁定初学者指南
  7. django动态HTML转PDF方法
  8. 初识 InnoDB存储引擎
  9. JAVA网络编程-TCP客户端与服务器端连接
  10. 计算机专业可以从事平面设计吗,计算机专业和平面设计专业是一个专业不?
  11. LeetCode 781 森林中的兔子 题解
  12. Java Annotation 应用 -- 导出Excel表格
  13. 阿里顶级架构师倾情推荐:国内首本大型分布式架构笔记《凤凰架构》
  14. 【NLP】文本分类TorchText实战-AG_NEWS 新闻主题分类任务(PyTorch版)
  15. u盘格式化后数据能恢复吗?
  16. 超级计算机预测南方下雪,强寒潮南下在即,广东将要下雪?超级计算机:可能性不高...
  17. 数据结构-特殊矩阵【对称矩阵、上三角下三角矩阵、三对角矩阵】的压缩存储代码实现
  18. 29岁转行程序员,39岁成为总裁,宫崎英高的游戏成名之路!
  19. python根据输入的长和宽创建矩形
  20. 0626第一篇博客CSDN我就是那个学编程的女神。。经病!

热门文章

  1. C++ 多继承类 虚基类
  2. 米小圈上学记这本书太烂了
  3. ssh登录The authenticity of host localhost can‘t be established.错误
  4. linux驱动开发学习2 设备树
  5. 转载 电子工程师的程序人生历程
  6. HD1201 18岁生日
  7. 利用插件修改wordpress文件上传限制
  8. Git提交信息基本模板
  9. NAS 详细搭建方案 - 安装Ubuntu Server
  10. 微信小程序 keyboard-accessory组件