小说爬虫之幻月书院requests和re库

刚学了正则表达式，直接用上爬虫来试试，不多说直接上代码：

#!/usr/bin/python3
import requests
import reclass HuanYue:def __init__(self):self.url = "http://www.huanyue123.com/book/7/7717/"self.headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36"}def parse(self, parse_url):response = requests.get(url=parse_url, headers=self.headers).content.decode('gbk')html = re.compile('<div id="htmlContent" class="contentbox clear"><div style=".*?" ><a href=".*?" style=".*?">.*?</a></div>(.*?)</div>', re.S).findall(response)# print(html[0].replace('&nbsp;&nbsp;&nbsp;&nbsp;', '    ').replace('<br />', ''))txt = html[0].replace('&nbsp;&nbsp;&nbsp;&nbsp;', '    ').replace('<br />', '')return txtdef write(self, txt):with open('C:\\Users\\cj\\Desktop\\小说.txt', 'a+', encoding='utf8') as f:f.write(txt)f.close()def run(self):req = requests.get(url=self.url, headers=self.headers).content.decode('gbk')text = re.compile('<li><a href="(.*?)">(.*?)</a></li>', re.S).findall(req)for url in text:parse_url = url[0]title = url[1]print('下载：', title)print('下载url：', parse_url)txt = self.parse(parse_url)self.write(txt)print(title, '下载完了！')if __name__ == '__main__':t1 = HuanYue()t1.run()

以上是随便找了一个小说进行爬取

小说爬虫之幻月书院requests和re库相关推荐

python爬虫库的常见用法_$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法...
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
python3爬虫记（一)------------------利用 requests 和 lxml 爬取小说
PS 本人第一次写博客,写的不好和不对的地方请见谅,欢迎各位指出和交流. (使用的是 anaconda3) (这里用到的requests 和 lxml 的详细内容参见 http://docs.pyth ...
小说爬虫强制绕过ssl验证
小说爬虫强制绕过ssl验证 requests.get(url,verify=False) verify=False 忽略证书验证 import requests # 取消忽略ssl的验证警告 impo ...
python 小说小说_python潇湘书院网站小说爬虫
很久没有写爬虫了,最近接到一个抓取小说的项目顺便做此纪录练练手,之后工作中可能也会有部分场景要用到爬虫,爬取竞争对手进行数据分析什么的. 目标网站:潇湘书院环境准备: python3 request ...
python 小说爬虫_Python实现的爬取小说爬虫功能示例
本文实例讲述了Python实现的爬取小说爬虫功能.分享给大家供大家参考,具体如下: 想把顶点小说网上的一篇持续更新的小说下下来,就写了一个简单的爬虫,可以爬取爬取各个章节的内容,保存到txt文档中,支 ...
简单 python 小说爬虫 ultimate
简单 python 小说爬虫想爬就爬带txt配置文件 day01(半成品) 划掉 - day02(成品) 书名史上第一剑修笔趣阁 url代码里找 ####################### ...
python超简单超基础的免费小说爬虫
python超简单超基础的免费小说爬虫需要准备的环境选取网页思路代码总结需要准备的环境 1.python 3.0及以上皆可 2.requests库,os,re 选取网页找一个免费的小说网 ...
Python顶点小说爬虫（《三寸人间》爬取）
Python顶点小说爬虫(<三寸人间>爬取) 获取整个页面 import requests from bs4 import BeautifulSoup url = "https: ...

小说爬虫之幻月书院requests和re库

小说爬虫之幻月书院requests和re库相关推荐

最新文章

热门文章