网站网址

https://www.qidian.com/all

共有5个页面

分析

但是发现这个图片很小，那怎么办呢？
经过我的研究后发现，去掉地址后面的"/150"，就好了

完美！！！

代码

我是在桌面创建了一个名为“爬取起点中文网”，的文件夹，然后把py文件放在里面运行。所以在你运行我的代码的时候，需要更改以下代码，更改为你自己的文件路径

os.chdir(r"C:\Users\dell\Desktop\爬取起点中文网")

同样你也可以修改存储图片的路径。

当然py文件的名称可以随意定义，不会影响程序的运行

完整代码如下：

# 导入相应的库文件
import xlwt
import requests
from lxml import etree
import os# 初始化列表，存入爬虫数据
all_info_list = []# 定义获取爬虫信息的函数
def get_info(url):html = requests.get(url)selector = etree.HTML(html.text)# 定位大标签，以此循环infos = selector.xpath('//ul[@class="all-img-list cf"]/li')for info in infos:title = info.xpath('div[2]/h4/a/text()')[0]author = info.xpath('div[2]/p[1]/a[1]/text()')[0]style_1 = info.xpath('div[2]/p[1]/a[2]/text()')[0]style_2 = info.xpath('div[2]/p[1]/a[3]/text()')[0]style = style_1+'·'+style_2complete = info.xpath('div[2]/p[1]/span/text()')[0]introduce = info.xpath('div[2]/p[2]/text()')[0].strip()info_list = [title, author, style, complete, introduce]# 把数据存入列表all_info_list.append(info_list)# 爬取小说封面图片if not os.path.exists('./picture'):os.mkdir('./picture')img_src='https:'+info.xpath('div[1]/a/img/@src')[0]img_src=img_src[0:-4]img_name=title+'.jpg'img_data=requests.get(img_src).contentimg_path='picture/'+img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,"下载成功")os.getcwd()os.chdir(r"C:\Users\dell\Desktop\爬取起点中文网")# 程序主入口
if __name__ == '__main__':urls = ['http://a.qidian.com/? page={}'.format(str(i)) for i in range(1, 6)]# 获取所有数据print("开始爬取起点中文网小说封面图片......")for url in urls:get_info(url)print("起点中文网小说封面图片爬取完毕！")print("开始爬取起点中文网小说信息......")# 定义表头header = ['title', 'author', 'style', 'complete', 'introduce']# 创建工作簿book = xlwt.Workbook(encoding='utf-8')# 创建工作表sheet = book.add_sheet('Sheet1')for h in range(len(header)):# 写入表头sheet.write(0, h, header[h])i = 1  # 行数for list in all_info_list:j = 0  # 列数# 写入爬虫数据for data in list:sheet.write(i, j, data)j += 1i += 1# 保存文件book.save('xiaoshuo.xls')print("起点中文网小说信息爬取完毕!")

爬取结果

… …

Python爬取起点中文网小说信息及封面图片相关推荐

python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...
前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中环境:Python3.7 PyCharm Chrome浏览器主要模块:xlwt ...
java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息
qidian.py: import xlwt import requests from lxml import etree import time all_info_list = [] def get ...
python爬虫之爬取起点中文网小说
python爬虫之爬取起点中文网小说 hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手启帆助手 ⬆是项 ...
Python 爬取起点的小说（非vip）
Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...
python爬取起点vip小说章节_python 爬取起点小说vip章节（失败）
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
python爬虫——爬取起点中文网作品信息
首先打开起点中文网点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...
Python简单爬取起点中文网小说（仅学习）
目录前言一.爬虫思路二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文总结前言实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...
Python爬取起点中文网月票榜前500名网络小说介绍
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python request 爬虫爬取起点中文网小说
1.网页分析.进入https://www.qidian.com/,点击全部,进行翻页,你就会发现一个规律, url=https://www.qidian.com/all?orderId=&st ...
爬取起点中文网小说介绍信息
字数的信息(word)没有得到缺失 import xlwt import requests from lxml import etree import timeall_info_list=[] hea ...

Python爬取起点中文网小说信息及封面图片

文章目录

网站网址

分析

代码

爬取结果

Python爬取起点中文网小说信息及封面图片相关推荐

最新文章

热门文章