从https://www.kanunu8.com/book3/6879/爬取《动物农场》所有章节

在这里插入代码片
```import re
import os
import requestsdef get_toc(html):start_url='https://www.kanunu8.com/book3/6879/'toc_url_list=[]toc_block=re.findall('正文(.*?)</tbody>',html,re.S)[0]toc_url=re.findall(' href="(.*?)"',toc_block,re.S)for url in toc_url:toc_url_list.append(start_url+url)return toc_url_listdef get_article(html):chapter_name=re.search('size="4">(.*?)<',html,re.S).group(1)text_block=re.search('<p>(.*?)</p>',html,re.S).group(1)text_block=text_block.replace('<br />','')return chapter_name,text_blockdef save(chapter,article):os.makedirs('E:\爬虫\文件\动物农场',exist_ok=True)with open(os.path.join('E:\爬虫\文件\动物农场',chapter+'.txt'),'w',encoding='utf-8')as f:f.write(article)if __name__=='__main__':url=r'https://www.kanunu8.com/book3/6879/'html=requests.get(url).content.decode('gbk')toc_url_list=get_toc(html)for url in toc_url_list:url_html=requests.get(url).content.decode('gbk')chapter_name,text_block=get_article(url_html)save(chapter_name,text_block)

从https://www.kanunu8.com/book3/6879/爬取《动物农场》所有章节相关推荐

python爬取vip小说章节_python 爬取起点小说vip章节（失败）
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
python爬取起点vip小说章节_python 爬取起点小说vip章节（失败）
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
使用python3爬取黑客小说所有章节
#目标,把整本小说都爬取下来,并储存到本地 #目标url:https://www.liaobige.com/dush/44901/ #爬取整本黑客小说所有章节,并保存到本地 import reques ...
scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo
首先,要感谢 @数学狂魔博客的启发,https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序 ...
Python爬虫之利用requests，BeautifulSoup爬取小说标题、章节
爬取雪鹰领主标题和章节内容为列: 查看网页的源代码,如下图所示: 获取html内容部分 import requests headers = {'User-Agent': 'Mozilla/5.0 ( ...
https://p.3.cn/prices/mgets爬取京东商品信息报错error pdos_captcha
遇到这个问题首先是没有添加Headers请求头,我把请求头加上之后,不报错也没有值返回,头疼了一会儿之后发现大概是我用的请求不对,应该使用Get请求. public static String htt ...
Python分析并爬取起点中文网的章节数据，保存为txt文档
如题,分析起点中文网,并提取出来章节链接,保存为txt文档. 代码仅供交流使用,请勿用作商业用途,如有违规,请联系删除一,分析 1.打开带有章节的链接,例如:(随便选的一篇文章) 2.打开浏览器的抓 ...
爬虫爬取小说《动物农场》全部章节内容
核心代码如何构建请参考作者谢乾坤–<Python爬虫开发:从入门到实站>第四章-4.4.这里只补存剩下的代码. import requests import os #python对操作系统 ...
【Python 爬虫】多线程爬取
文章目录前言一.多进程库(multiprocessing) 二.多线程爬虫三.案例实操四.案例解析 1.获取网页内容 2.获取每一章链接 3.获取每一章的正文并返回章节名和正文 4.将每一章保 ...

从https://www.kanunu8.com/book3/6879/爬取《动物农场》所有章节

从https://www.kanunu8.com/book3/6879/爬取《动物农场》所有章节相关推荐

最新文章

热门文章