从https://www.kanunu8.com/book3/6879/爬取《动物农场》所有章节
在这里插入代码片
```import re
import os
import requestsdef get_toc(html):start_url='https://www.kanunu8.com/book3/6879/'toc_url_list=[]toc_block=re.findall('正文(.*?)</tbody>',html,re.S)[0]toc_url=re.findall(' href="(.*?)"',toc_block,re.S)for url in toc_url:toc_url_list.append(start_url+url)return toc_url_listdef get_article(html):chapter_name=re.search('size="4">(.*?)<',html,re.S).group(1)text_block=re.search('<p>(.*?)</p>',html,re.S).group(1)text_block=text_block.replace('<br />','')return chapter_name,text_blockdef save(chapter,article):os.makedirs('E:\爬虫\文件\动物农场',exist_ok=True)with open(os.path.join('E:\爬虫\文件\动物农场',chapter+'.txt'),'w',encoding='utf-8')as f:f.write(article)if __name__=='__main__':url=r'https://www.kanunu8.com/book3/6879/'html=requests.get(url).content.decode('gbk')toc_url_list=get_toc(html)for url in toc_url_list:url_html=requests.get(url).content.decode('gbk')chapter_name,text_block=get_article(url_html)save(chapter_name,text_block)
从https://www.kanunu8.com/book3/6879/爬取《动物农场》所有章节相关推荐
- python爬取vip小说章节_python 爬取起点小说vip章节(失败)
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
- python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
- 使用python3爬取 黑客 小说所有章节
#目标,把整本小说都爬取下来,并储存到本地 #目标url:https://www.liaobige.com/dush/44901/ #爬取整本黑客小说所有章节,并保存到本地 import reques ...
- scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo
首先,要感谢 @数学狂魔博客的启发,https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序 ...
- Python爬虫之利用requests,BeautifulSoup爬取小说标题、章节
爬取雪鹰领主标题和章节内容为列: 查看网页的源代码,如下图所示: 获取html内容部分 import requests headers = {'User-Agent': 'Mozilla/5.0 ( ...
- https://p.3.cn/prices/mgets爬取京东商品信息报错error pdos_captcha
遇到这个问题首先是没有添加Headers请求头,我把请求头加上之后,不报错也没有值返回,头疼了一会儿之后发现大概是我用的请求不对,应该使用Get请求. public static String htt ...
- Python分析并爬取起点中文网的章节数据,保存为txt文档
如题,分析起点中文网,并提取出来章节链接,保存为txt文档. 代码仅供交流使用,请勿用作商业用途,如有违规,请联系删除 一,分析 1.打开带有章节的链接,例如:(随便选的一篇文章) 2.打开浏览器的抓 ...
- 爬虫爬取小说《动物农场》全部章节内容
核心代码如何构建请参考作者谢乾坤–<Python爬虫开发:从入门到实站>第四章-4.4.这里只补存剩下的代码. import requests import os #python对操作系统 ...
- 【Python 爬虫】多线程爬取
文章目录 前言 一.多进程库(multiprocessing) 二.多线程爬虫 三.案例实操 四.案例解析 1.获取网页内容 2.获取每一章链接 3.获取每一章的正文并返回章节名和正文 4.将每一章保 ...
最新文章
- ovirt官方安装文档 附录F
- Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置
- python哪些类型可以作为迭代器_详解Python迭代和迭代器
- Transformer模型总结
- java tika pdf转图片_使用tika将pdf转为html
- Qt:OpenCV—Q图像处理基本操作(Code)
- Dools的DMN运行时示例
- JavaOne 2012:调查JVM水晶球
- python分类算法的应用_Python基于sklearn库的分类算法简单应用示例
- 网络诊断 网络连接配置
- 鼠标点击事件对象的clientX、pageX、offsetX、screenX、x
- 2022年为什么降薪也要跳槽?机会比涨薪很重要?
- java实现单个或多个文件的压缩、解压缩 支持zip、rar等格式
- pytorch实现风格迁移 style transfer
- 2015年腾讯阿里实习生招聘面试经历
- HTTPS(对称加密+非对称加密+证书)
- 【2020年天梯赛校选赛】7-16 愤怒的牛
- java实现手机日历_Java实现日历
- 阿里云大学公益人才培养平台上线,让科技更有温度,让人才大有作为
- 智能控制技术_基于Matlab的二阶系统模糊控制仿真实例_课程学习