在这里插入代码片
```import re
import os
import requestsdef get_toc(html):start_url='https://www.kanunu8.com/book3/6879/'toc_url_list=[]toc_block=re.findall('正文(.*?)</tbody>',html,re.S)[0]toc_url=re.findall(' href="(.*?)"',toc_block,re.S)for url in toc_url:toc_url_list.append(start_url+url)return toc_url_listdef get_article(html):chapter_name=re.search('size="4">(.*?)<',html,re.S).group(1)text_block=re.search('<p>(.*?)</p>',html,re.S).group(1)text_block=text_block.replace('<br />','')return chapter_name,text_blockdef save(chapter,article):os.makedirs('E:\爬虫\文件\动物农场',exist_ok=True)with open(os.path.join('E:\爬虫\文件\动物农场',chapter+'.txt'),'w',encoding='utf-8')as f:f.write(article)if __name__=='__main__':url=r'https://www.kanunu8.com/book3/6879/'html=requests.get(url).content.decode('gbk')toc_url_list=get_toc(html)for url in toc_url_list:url_html=requests.get(url).content.decode('gbk')chapter_name,text_block=get_article(url_html)save(chapter_name,text_block)

从https://www.kanunu8.com/book3/6879/爬取《动物农场》所有章节相关推荐

  1. python爬取vip小说章节_python 爬取起点小说vip章节(失败)

    今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...

  2. python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)

    今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...

  3. 使用python3爬取 黑客 小说所有章节

    #目标,把整本小说都爬取下来,并储存到本地 #目标url:https://www.liaobige.com/dush/44901/ #爬取整本黑客小说所有章节,并保存到本地 import reques ...

  4. scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

    首先,要感谢   @数学狂魔博客的启发,https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序 ...

  5. Python爬虫之利用requests,BeautifulSoup爬取小说标题、章节

    爬取雪鹰领主标题和章节内容为列: 查看网页的源代码,如下图所示:  获取html内容部分 import requests headers = {'User-Agent': 'Mozilla/5.0 ( ...

  6. https://p.3.cn/prices/mgets爬取京东商品信息报错error pdos_captcha

    遇到这个问题首先是没有添加Headers请求头,我把请求头加上之后,不报错也没有值返回,头疼了一会儿之后发现大概是我用的请求不对,应该使用Get请求. public static String htt ...

  7. Python分析并爬取起点中文网的章节数据,保存为txt文档

    如题,分析起点中文网,并提取出来章节链接,保存为txt文档. 代码仅供交流使用,请勿用作商业用途,如有违规,请联系删除 一,分析 1.打开带有章节的链接,例如:(随便选的一篇文章) 2.打开浏览器的抓 ...

  8. 爬虫爬取小说《动物农场》全部章节内容

    核心代码如何构建请参考作者谢乾坤–<Python爬虫开发:从入门到实站>第四章-4.4.这里只补存剩下的代码. import requests import os #python对操作系统 ...

  9. 【Python 爬虫】多线程爬取

    文章目录 前言 一.多进程库(multiprocessing) 二.多线程爬虫 三.案例实操 四.案例解析 1.获取网页内容 2.获取每一章链接 3.获取每一章的正文并返回章节名和正文 4.将每一章保 ...

最新文章

  1. ovirt官方安装文档 附录F
  2. Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置
  3. python哪些类型可以作为迭代器_详解Python迭代和迭代器
  4. Transformer模型总结
  5. java tika pdf转图片_使用tika将pdf转为html
  6. Qt:OpenCV—Q图像处理基本操作(Code)
  7. Dools的DMN运行时示例
  8. JavaOne 2012:调查JVM水晶球
  9. python分类算法的应用_Python基于sklearn库的分类算法简单应用示例
  10. 网络诊断 网络连接配置
  11. 鼠标点击事件对象的clientX、pageX、offsetX、screenX、x
  12. 2022年为什么降薪也要跳槽?机会比涨薪很重要?
  13. java实现单个或多个文件的压缩、解压缩 支持zip、rar等格式
  14. pytorch实现风格迁移 style transfer
  15. 2015年腾讯阿里实习生招聘面试经历
  16. HTTPS(对称加密+非对称加密+证书)
  17. 【2020年天梯赛校选赛】7-16 愤怒的牛
  18. java实现手机日历_Java实现日历
  19. 阿里云大学公益人才培养平台上线,让科技更有温度,让人才大有作为
  20. 智能控制技术_基于Matlab的二阶系统模糊控制仿真实例_课程学习

热门文章

  1. 一份全面详细的Android 车载系统开发入门指南与面试题
  2. 《大唐姻缘传》(李治篇)第三章 顺朕意媚娘进宫 诞龙儿福运连连
  3. SEC储量基本知识 2021-04-21
  4. (金融)银行贷款的用户增长项目——数据分析
  5. 基于html5+的nativejs实现android蓝牙串口通讯
  6. 人工智能相关数据集分享(一)
  7. 全球及中国电影市场品牌建设发展及投资潜力预测报告2021-2027年
  8. C - Magical Rearrangement
  9. 北漂离开北京后是一种什么样的体验
  10. java实现多线程爬取表情包