1. 用Python批量爬取全站小说

爬取这个网站小说：http://www.shuquge.com/txt/89644/index.html

2. 爬取一本书

# -*- coding: utf-8 -*-
"""
Created on Sat Feb  8 20:31:43 2020@author: douzi
"""import requests
from parsel import Selector
import re
import timedef main():index_url = 'http://www.shuquge.com/txt/89644/index.html'  # 想要爬取的小说tpl = 'http://www.shuquge.com/txt/89644/'   headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}# 获取小说目录页urllist = requests.get(index_url, headers=headers)index_sel = Selector(urllist.text)# <div class="listmain"> <dl><dt>《九星毒奶》最新章节</dt><dd><a href="29287710.html">1040 养龙皮？</a></dd>index = index_sel.css('.listmain a::attr(href)').getall()# 保存10章节for n in index:url = tpl + n# 第 n 章response = requests.get(url, headers=headers, timeout=30)response.encoding = response.apparent_encodingprint(response.request.url)# xpath css 选择器 提取网页数据结构（html） # lxml pyquery parselsel = Selector(response.text)title = sel.css('h1::text').get()print(title)match = re.search(r'[0-9]*', title.split()[0])if match:with open("./jiuxin/" + match.group(0) + '.txt', 'w', encoding = 'utf-8') as f:f.writelines(title)# <div id="content" class="showtxt">for line in sel.css('#content::text').getall():f.writelines(line)time.sleep(0.5)if __name__ == '__main__':main()

3. 爬取一个分类

# -*- coding: utf-8 -*-
"""
Created on Sat Feb  8 20:31:43 2020@author: douzi
"""import requests
from parsel import Selector
import re
import time
import osheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}# 下载一章节
def download_one_chapter(url, book_name):# 第 n 章response = requests.get(url, headers=headers, timeout=30)response.encoding = response.apparent_encodingprint(response.request.url)# xpath css 选择器 提取网页数据结构（html） # lxml pyquery parselsel = Selector(response.text)title = sel.css('h1::text').get()print(title)with open('./'+book_name+'/'+title+'.txt','a+', encoding = 'utf-8') as f:f.writelines(title)# <div id="content" class="showtxt">for line in sel.css('#content::text').getall():f.writelines(line)f.write('\n\0')time.sleep(0.5)# 下载一本书
def download_one_book(index_url, bname):
#    index_url = 'http://www.shuquge.com/txt/89644/index.html'  # 想要爬取的小说:例，九星毒奶book_name = re.split('/', index_url)[-2]  # 例: 89644tpl = 'http://www.shuquge.com/txt/' + book_name + '/'# 获取小说目录页urllist = requests.get(index_url, headers=headers)urllist.encoding = urllist.apparent_encodingindex_sel = Selector(urllist.text)# <div class="listmain"> <dl><dt>《九星毒奶》最新章节</dt><dd><a href="29287710.html">1040 养龙皮？</a></dd>index = index_sel.css('.listmain a::attr(href)').getall()for n in index:url = tpl + ndownload_one_chapter(url, bname)# 下载一类别
def download_one_category():tpl = 'http://www.shuquge.com/category/7_{}.html'  # 想要爬取的类别# 3页for page in range(1, 4):category_url = tpl.format(page)print(category_url)# 获取小说类别页cate_list = requests.get(category_url, headers=headers)cate_list.encoding = cate_list.apparent_encodingindex_sel = Selector(cate_list.text)books_url = index_sel.css('span.s2 a::attr(href)').getall()books_name = index_sel.css('span.s2 a::text').getall()for book_url in books_url:# 如：变成随身老奶奶 http://www.shuquge.com/txt/109203/index.htmlbook_name = books_name[books_url.index(book_url)]print(book_name, book_url)if os.path.isdir('./' + book_name):os.removedirs(book_name)else:os.mkdir('./' + book_name)# 下载一本书download_one_book(book_url, book_name)if __name__ == '__main__':
#    download_one_book('asd')download_one_category()

python爬虫笔记（八）实例3：用Python批量爬取全站小说【以书趣阁为例】相关推荐

Python爬虫笔记之用BeautifulSoup及requests库爬取
这次要爬取的是一个壁纸网站wallhaven,里面有很多用户上传的高清壁纸分享.点击进去会出现一个搜索页面,输入dota2,这就得到了我们要爬取的第一个url:"https://alpha. ...
Python爬虫新手入门教学（十）：爬取彼岸4K超清壁纸
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十七）：爬取yy全站小视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十三）：爬取高质量超清壁纸
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫: 单网页所有静态网页动态网页爬取
Python爬虫: 单网页所有静态网页动态网页爬取前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...
python爬虫实战之图灵社区图书信息的爬取（找了久，才找到一个比较好爬取的网站）
python爬虫实战之图灵社区图书信息的爬取程序的描述目标获取图灵社区(https://www.ituring.com.cn/book)中40本图书的书名将获取的信息以列表的形式输出到屏幕上, ...
python怎么爬取b站_【Python爬虫实例学习篇】——4、超详细爬取bilibili视频
[Python爬虫实例学习篇]--4.超详细爬取bilibili视频由于经常在B站上学习,但无奈于家里网络太差,在线观看卡顿严重,于是萌生了下载视频的想法(如果只是单纯想下载视频,请用you-get ...
Python爬虫新手入门教学（二）：爬取小说
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫层层递进，从爬取一章小说到爬取全站小说！
很多好看的小说只能看不能下载,教你怎么爬取一个网站的所有小说知识点: requests xpath 全站小说爬取思路开发环境: 版本:anaconda5.2.0(python3.6.5) 编辑器 ...

python爬虫笔记（八）实例3：用Python批量爬取全站小说【以书趣阁为例】

1. 用Python批量爬取全站小说

2. 爬取一本书

3. 爬取一个分类

python爬虫笔记（八）实例3：用Python批量爬取全站小说【以书趣阁为例】相关推荐

最新文章

热门文章

python爬虫笔记（八） 实例3：用Python批量爬取全站小说【以书趣阁为例】

1. 用Python批量爬取全站小说

2. 爬取一本书

3. 爬取一个分类

python爬虫笔记（八） 实例3：用Python批量爬取全站小说【以书趣阁为例】相关推荐

最新文章

热门文章

python爬虫笔记（八）实例3：用Python批量爬取全站小说【以书趣阁为例】

python爬虫笔记（八）实例3：用Python批量爬取全站小说【以书趣阁为例】相关推荐