1. 用Python批量爬取全站小说

爬取这个网站小说:http://www.shuquge.com/txt/89644/index.html

2. 爬取一本书

# -*- coding: utf-8 -*-
"""
Created on Sat Feb  8 20:31:43 2020@author: douzi
"""import requests
from parsel import Selector
import re
import timedef main():index_url = 'http://www.shuquge.com/txt/89644/index.html'  # 想要爬取的小说tpl = 'http://www.shuquge.com/txt/89644/'   headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}# 获取小说目录页urllist = requests.get(index_url, headers=headers)index_sel = Selector(urllist.text)# <div class="listmain"> <dl><dt>《九星毒奶》最新章节</dt><dd><a href="29287710.html">1040 养龙皮?</a></dd>index = index_sel.css('.listmain a::attr(href)').getall()# 保存10章节for n in index:url = tpl + n# 第 n 章response = requests.get(url, headers=headers, timeout=30)response.encoding = response.apparent_encodingprint(response.request.url)# xpath css 选择器 提取网页数据结构(html) # lxml pyquery parselsel = Selector(response.text)title = sel.css('h1::text').get()print(title)match = re.search(r'[0-9]*', title.split()[0])if match:with open("./jiuxin/" + match.group(0) + '.txt', 'w', encoding = 'utf-8') as f:f.writelines(title)# <div id="content" class="showtxt">for line in sel.css('#content::text').getall():f.writelines(line)time.sleep(0.5)if __name__ == '__main__':main()   

3. 爬取一个分类

# -*- coding: utf-8 -*-
"""
Created on Sat Feb  8 20:31:43 2020@author: douzi
"""import requests
from parsel import Selector
import re
import time
import osheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}# 下载一章节
def download_one_chapter(url, book_name):# 第 n 章response = requests.get(url, headers=headers, timeout=30)response.encoding = response.apparent_encodingprint(response.request.url)# xpath css 选择器 提取网页数据结构(html) # lxml pyquery parselsel = Selector(response.text)title = sel.css('h1::text').get()print(title)with open('./'+book_name+'/'+title+'.txt','a+', encoding = 'utf-8') as f:f.writelines(title)# <div id="content" class="showtxt">for line in sel.css('#content::text').getall():f.writelines(line)f.write('\n\0')time.sleep(0.5)# 下载一本书
def download_one_book(index_url, bname):
#    index_url = 'http://www.shuquge.com/txt/89644/index.html'  # 想要爬取的小说:例,九星毒奶book_name = re.split('/', index_url)[-2]  # 例: 89644tpl = 'http://www.shuquge.com/txt/' + book_name + '/'# 获取小说目录页urllist = requests.get(index_url, headers=headers)urllist.encoding = urllist.apparent_encodingindex_sel = Selector(urllist.text)# <div class="listmain"> <dl><dt>《九星毒奶》最新章节</dt><dd><a href="29287710.html">1040 养龙皮?</a></dd>index = index_sel.css('.listmain a::attr(href)').getall()for n in index:url = tpl + ndownload_one_chapter(url, bname)# 下载一类别
def download_one_category():tpl = 'http://www.shuquge.com/category/7_{}.html'  # 想要爬取的类别# 3页for page in range(1, 4):category_url = tpl.format(page)print(category_url)# 获取小说类别页cate_list = requests.get(category_url, headers=headers)cate_list.encoding = cate_list.apparent_encodingindex_sel = Selector(cate_list.text)books_url = index_sel.css('span.s2 a::attr(href)').getall()books_name = index_sel.css('span.s2 a::text').getall()for book_url in books_url:# 如:变成随身老奶奶 http://www.shuquge.com/txt/109203/index.htmlbook_name = books_name[books_url.index(book_url)]print(book_name, book_url)if os.path.isdir('./' + book_name):os.removedirs(book_name)else:os.mkdir('./' + book_name)# 下载一本书download_one_book(book_url, book_name)if __name__ == '__main__':
#    download_one_book('asd')download_one_category()

python爬虫笔记(八) 实例3:用Python批量爬取全站小说【以书趣阁为例】相关推荐

  1. Python爬虫笔记之用BeautifulSoup及requests库爬取

    这次要爬取的是一个壁纸网站wallhaven,里面有很多用户上传的高清壁纸分享.点击进去会出现一个搜索页面,输入dota2,这就得到了我们要爬取的第一个url:"https://alpha. ...

  2. Python爬虫新手入门教学(十):爬取彼岸4K超清壁纸

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  3. Python爬虫新手入门教学(十七):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  4. Python爬虫新手入门教学(十三):爬取高质量超清壁纸

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  5. Python爬虫: 单网页 所有静态网页 动态网页爬取

    Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...

  6. python爬虫实战之图灵社区图书信息的爬取(找了久,才找到一个比较好爬取的网站)

    python爬虫实战之图灵社区图书信息的爬取 程序的描述 目标 获取图灵社区(https://www.ituring.com.cn/book)中40本图书的书名 将获取的信息以列表的形式输出到屏幕上, ...

  7. python怎么爬取b站_【Python爬虫实例学习篇】——4、超详细爬取bilibili视频

    [Python爬虫实例学习篇]--4.超详细爬取bilibili视频 由于经常在B站上学习,但无奈于家里网络太差,在线观看卡顿严重,于是萌生了下载视频的想法(如果只是单纯想下载视频,请用you-get ...

  8. Python爬虫新手入门教学(二):爬取小说

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  9. Python爬虫层层递进,从爬取一章小说到爬取全站小说!

    很多好看的小说只能看不能下载,教你怎么爬取一个网站的所有小说 知识点: requests xpath 全站小说爬取思路 开发环境: 版 本:anaconda5.2.0(python3.6.5) 编辑器 ...

最新文章

  1. 网络优化(中国计量大学现代科技学院第三届“中竞杯”程序设计校赛(网络赛))
  2. tensorflow tf.nn.max_pool_with_argmax返回最大池化对应索引值
  3. 《黑客攻防技术宝典Web实战篇@第2版》读书笔记1:了解Web应用程序
  4. properties 配置回车_Dell?H730P?Raid1?配置方法
  5. php 随机生成ip
  6. 高通平台printk输出log到串口
  7. Ubuntu 20.04 环境下 PyCharm 输入框不跟随光标问题
  8. SQL数据库学习总结
  9. 怎样才能走上架构师岗位
  10. 边境的悍匪—机器学习实战:第十六章使用RNN和注意力机制进行自然语言处理
  11. kali虚拟机-----破解wifi密码(WiFi渗透)
  12. 【论文阅读】Locally Adaptive Color Correction for Underwater Image Dehazing and Matching
  13. Hive 取非 Group by 字段数据的方法
  14. Formality学习笔记一:基本概念
  15. matlab实现LSB图像水印的嵌入与提取
  16. 未来五年数控切割机重点发展方向
  17. 如何快速提高英飞凌单片机编译器 TASKING TriCore Eclipse IDE 编译速度
  18. surfaceflinger原理讲解
  19. 毕业设计:基于机器学习的文本聚类 - 可用于舆情分析
  20. 关于linux使用动态库进行进程间通讯

热门文章

  1. 人工智能爆发背后的五个冷思考:行业如何脱虚入实?
  2. 线性代数之——矩阵范数和条件数
  3. android 7.11 官方下载,android11系统下载正式版|android11系统正式版-520下载站
  4. 大学计算机考试要买电脑吗,大一新生开学,要不要买电脑?先听听学姐这4个理由,然后再决定...
  5. 百度地图- - - 鹰眼轨迹- - - 历史轨迹和里程查询
  6. Windows Phone笔记(手机应用开发笔记)
  7. 中国10大顶级富豪惊人挥霍排行榜
  8. 【硬件】电容一端接电源,另一端接地,起什么作用,什么时候才会有这样的接法
  9. 2022年高处安装、维护、拆除考试练习题及模拟考试
  10. 无法修复此计算机蓝屏,怎么修复蓝屏错误-万兴恢复专家