效果

网页分析

网页网址分析

对比我们可以发现，不同的网页只有后边的数字不一样。
得到前10页的网址：

urls = ['https://www.qidian.com/all/page{}/'.format(str (i)) for i in range(1,11)]

书内容位置分析

对比我们可以得到页面上不同的小说，都是在同一个<ul>的<li>里边。
得ul到的XPath后//*[@id="book-img-text"]/ul 在后边选择li 即可

#选择 <ul>节点中的所有《li>节点infos = selector.xpath('//*[@id="book-img-text"]/ul/li')

不同书内容位置分析

第一本书的标题的Xpath：//*[@id="book-img-text"]/ul/li[1]/div[2]/h4/a

第二本书的标题的Xpath：//*[@id="book-img-text"]/ul/li[2]/div[2]/h4/a

我们发现只有 ==li[ ]==中的小标不一样，于是有：

title = info.xpath('//*[@id="book-img-text"]/ul/li['+str(i)+']/div[2]/h4/a/text()')[0]

通过i的变化来达到切换的目的。

将内容存到Excel

需要使用第三方库：

pip install wlwt

使用步骤：

导入库：import xlwt
创建Worbook 对象，并指定编码：book = xlwt.Workbook(encoding='utf-8')
添加Sheet ：sheet = book.add_sheet('novels')
向Sheet 的Cell（1,1）位置添加文本：sheet.write(1,1,'世界，你好')
保存文件：book.save('novels.xls')

完整代码

import requests
from lxml import etree
import  xlwt
import  timeheaders = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
'Host' : 'www.qidian.com',
'Cookie':'_ga_PFYW0QLV3P=GS1.1.1629617197.2.1.1629617333.0'
}#//*[@id="book-img-text"]/ul/li[2]/div[2]/h4/a
def getOnePage(url):html = requests.get(url, headers=headers, allow_redirects=False)selector = etree.HTML(html.text)#选择 <ul>节点中的所有《li>节点infos = selector.xpath('//*[@id="book-img-text"]/ul/li')print(infos)result = []i = 1pre = '//*[@id="book-img-text"]/ul/li['for info in infos:# 注意的地方一 后边加[0]才能的字符串style_1 = info.xpath('//*[@id="book-img-text"]/ul/li['+str(i)+']/div[2]/p[1]/a[2]/text()')[0]style_2 = info.xpath('//*[@id="book-img-text"]/ul/li['+str(i)+']/div[2]/p[1]/a[3]/text()')[0]# 提取标题title = info.xpath('//*[@id="book-img-text"]/ul/li['+str(i)+']/div[2]/h4/a/text()')[0]# 提取作者author = info.xpath('//*[@id="book-img-text"]/ul/li['+str(i)+']/div[2]/p[1]/a[1]/text()')[0]# 风格style = style_1 +'.'+style_2# 完成度complete = info.xpath('//*[@id="book-img-text"]/ul/li['+str(i)+']/div[2]/p[1]/span/text()')[0]#简介introduce = info.xpath('//*[@id="book-img-text"]/ul/li['+str(i)+']/div[2]/p[2]/text()')[0]# 创建一个字典对象存入data = { 'title':title,'author':author,'style':style,'complete':complete,'introduce':introduce}result.append(data)# 换到下一本书i+=1print(result)return result#
header = ['标题','作者','类型','完成度','介绍']book = xlwt.Workbook(encoding='utf-8')sheet = book.add_sheet('novels')for h in range(len(header)):sheet.write(0,h,header[h])#getOnePage('https://www.qidian.com/all/')
# 注意的地方二  /不能少
urls = ['https://www.qidian.com/all/page{}/'.format(str (i)) for i in range(1,11)]
i=1
#urls = ['https://www.qidian.com/all/']
for url in urls:novels = getOnePage(url)print(novels)for novel in novels:print(novel)time.sleep(0.1)sheet.write(i,0,novel['title'])sheet.write(i, 1, novel['author'])sheet.write(i, 2, novel['style'])sheet.write(i, 3, novel['complete'])sheet.write(i, 4, novel['introduce'])i+=1
book.save('novels.xls')

还不知道要看什么小说嘛？爬取小说网站前10页的小说数据分析一波相关推荐

爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
利用CnkiSpider包快速爬取知网文献信息
CnkiSpider使用指南(by@zemengchuan) GitHub链接:https://github.com/zemengchuan/CnkiSpider 用途: CnkiSpider可以通过 ...
一日一技：爬取薄荷网食物热量
本文仅供学习参考. 薄荷健康秉承"为年轻家庭提供更健康.更美味的食品和饮料"的公司使命,为8000万用户提供个性化智能营养处方与一站式健康解决方案,致力于成为年轻家庭首选的健康生活 ...
python爬取小说写入txt_对新笔趣阁小说进行爬取，保存和下载！这就是Python的魅力...
原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说也算锻炼一下自己的技术,就以新笔 ...
python 录制网易云登陆_小白都能看懂：Python爬取网易云音乐下载教程
配置基础 Python Selenium Chrome浏览器(其它的也可以,需要进行相应的修改) 分析如果爬取过网易云的网站的小伙伴都应该知道网易云是有反爬取机制的,POST时需要对一些信息的参数进 ...
scrapy实现爬取全书网小说到Mysql数据库（附代码）
前言本篇文章实现python的scrapy框架爬取全书网小说,scrapy框架的安装我在这里就不在赘述了,建议window用户使用anaconda安装,这里比较省心一些.运行环境python3(实际 ...
Python爬取全书网小说全文——正则表达式的应用
1. 引言各位读者新年好,今天给大家带来的案例是爬取全书网小说全文,主要用到了正则表达式.我们知道,正则表达式一般用来进行格式化的精确匹配,用来爬取多文本的内容非常方便.本次采用面向过程的方法,理解 ...
SpiderFlow平台v0.3.0初次使用并爬取薄荷网的热量和减法功效
spider-flow 作为web爬虫他可以简单的说是新一代的爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫. 也就是说我们不用在刻意的为了一些数据就去学一下语言如python,我们只要画个 ...
Python爬取返利网（今日值得买）数据
双十一还没消停,双十二又来了.看返利网<今日值得买>的数据时时不断的在更新...... 1.爬取返利网的商品名,分类,推荐人,好评数和差评数 2.商品信息不断更新,查看页面源代码仅可以看见 ...

还不知道要看什么小说嘛？爬取小说网站前10页的小说数据分析一波

爬取小说数据

效果