小说爬虫之幻月书院requests和re库
刚学了正则表达式,直接用上爬虫来试试,不多说直接上代码:
#!/usr/bin/python3
import requests
import reclass HuanYue:def __init__(self):self.url = "http://www.huanyue123.com/book/7/7717/"self.headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36"}def parse(self, parse_url):response = requests.get(url=parse_url, headers=self.headers).content.decode('gbk')html = re.compile('<div id="htmlContent" class="contentbox clear"><div style=".*?" ><a href=".*?" style=".*?">.*?</a></div>(.*?)</div>', re.S).findall(response)# print(html[0].replace(' ', ' ').replace('<br />', ''))txt = html[0].replace(' ', ' ').replace('<br />', '')return txtdef write(self, txt):with open('C:\\Users\\cj\\Desktop\\小说.txt', 'a+', encoding='utf8') as f:f.write(txt)f.close()def run(self):req = requests.get(url=self.url, headers=self.headers).content.decode('gbk')text = re.compile('<li><a href="(.*?)">(.*?)</a></li>', re.S).findall(req)for url in text:parse_url = url[0]title = url[1]print('下载:', title)print('下载url:', parse_url)txt = self.parse(parse_url)self.write(txt)print(title, '下载完了!')if __name__ == '__main__':t1 = HuanYue()t1.run()
以上是随便找了一个小说进行爬取
小说爬虫之幻月书院requests和re库相关推荐
- python爬虫库的常见用法_$python爬虫系列(2)—— requests和BeautifulSoup库的基本用法...
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...
- python爬虫系列(2)—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...
- python3爬虫记(一)------------------利用 requests 和 lxml 爬取小说
PS 本人第一次写博客,写的不好和不对的地方请见谅,欢迎各位指出和交流. (使用的是 anaconda3) (这里用到的requests 和 lxml 的详细内容参见 http://docs.pyth ...
- 小说爬虫强制绕过ssl验证
小说爬虫强制绕过ssl验证 requests.get(url,verify=False) verify=False 忽略证书验证 import requests # 取消忽略ssl的验证警告 impo ...
- python 小说 小说_python潇湘书院网站小说爬虫
很久没有写爬虫了,最近接到一个抓取小说的项目顺便做此纪录练练手,之后工作中可能也会有部分场景要用到爬虫,爬取竞争对手进行数据分析什么的. 目标网站:潇湘书院 环境准备: python3 request ...
- python 小说爬虫_Python实现的爬取小说爬虫功能示例
本文实例讲述了Python实现的爬取小说爬虫功能.分享给大家供大家参考,具体如下: 想把顶点小说网上的一篇持续更新的小说下下来,就写了一个简单的爬虫,可以爬取爬取各个章节的内容,保存到txt文档中,支 ...
- 简单 python 小说爬虫 ultimate
简单 python 小说爬虫 想爬就爬 带txt配置文件 day01(半成品) 划掉 - day02(成品) 书名 史上第一剑修 笔趣阁 url代码里找 ####################### ...
- python超简单超基础的免费小说爬虫
python超简单超基础的免费小说爬虫 需要准备的环境 选取网页 思路 代码 总结 需要准备的环境 1.python 3.0及以上皆可 2.requests库,os,re 选取网页 找一个免费的小说网 ...
- Python顶点小说爬虫(《三寸人间》爬取)
Python顶点小说爬虫(<三寸人间>爬取) 获取整个页面 import requests from bs4 import BeautifulSoup url = "https: ...
最新文章
- C++学习手记四:继承和多态
- python 拼多多秒杀_关于 拼多多笔试题-简单易懂的秒杀服务
- qt定时连续发送udp数据包_TCP和UDP
- [原]Android打包之Gradle打包
- DCMTK:DIMSE状态代码和类的测试程序
- Java持久性锁定初学者指南
- django动态HTML转PDF方法
- 初识 InnoDB存储引擎
- JAVA网络编程-TCP客户端与服务器端连接
- 计算机专业可以从事平面设计吗,计算机专业和平面设计专业是一个专业不?
- LeetCode 781 森林中的兔子 题解
- Java Annotation 应用 -- 导出Excel表格
- 阿里顶级架构师倾情推荐:国内首本大型分布式架构笔记《凤凰架构》
- 【NLP】文本分类TorchText实战-AG_NEWS 新闻主题分类任务(PyTorch版)
- u盘格式化后数据能恢复吗?
- 超级计算机预测南方下雪,强寒潮南下在即,广东将要下雪?超级计算机:可能性不高...
- 数据结构-特殊矩阵【对称矩阵、上三角下三角矩阵、三对角矩阵】的压缩存储代码实现
- 29岁转行程序员,39岁成为总裁,宫崎英高的游戏成名之路!
- python根据输入的长和宽创建矩形
- 0626第一篇博客CSDN我就是那个学编程的女神。。经病!