Python爬取起点中文网小说信息及封面图片
文章目录
- 网站网址
- 分析
- 代码
- 爬取结果
网站网址
https://www.qidian.com/all
共有5个页面
分析
但是发现这个图片很小,那怎么办呢?
经过我的研究后发现,去掉地址后面的"/150",就好了
完美!!!
代码
我是在桌面创建了一个名为“爬取起点中文网”,的文件夹,然后把py文件放在里面运行。所以在你运行我的代码的时候,需要更改以下代码,更改为你自己的文件路径
os.chdir(r"C:\Users\dell\Desktop\爬取起点中文网")
同样你也可以修改存储图片的路径。
当然py文件的名称可以随意定义,不会影响程序的运行
完整代码如下:
# 导入相应的库文件
import xlwt
import requests
from lxml import etree
import os# 初始化列表,存入爬虫数据
all_info_list = []# 定义获取爬虫信息的函数
def get_info(url):html = requests.get(url)selector = etree.HTML(html.text)# 定位大标签,以此循环infos = selector.xpath('//ul[@class="all-img-list cf"]/li')for info in infos:title = info.xpath('div[2]/h4/a/text()')[0]author = info.xpath('div[2]/p[1]/a[1]/text()')[0]style_1 = info.xpath('div[2]/p[1]/a[2]/text()')[0]style_2 = info.xpath('div[2]/p[1]/a[3]/text()')[0]style = style_1+'·'+style_2complete = info.xpath('div[2]/p[1]/span/text()')[0]introduce = info.xpath('div[2]/p[2]/text()')[0].strip()info_list = [title, author, style, complete, introduce]# 把数据存入列表all_info_list.append(info_list)# 爬取小说封面图片if not os.path.exists('./picture'):os.mkdir('./picture')img_src='https:'+info.xpath('div[1]/a/img/@src')[0]img_src=img_src[0:-4]img_name=title+'.jpg'img_data=requests.get(img_src).contentimg_path='picture/'+img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,"下载成功")os.getcwd()os.chdir(r"C:\Users\dell\Desktop\爬取起点中文网")# 程序主入口
if __name__ == '__main__':urls = ['http://a.qidian.com/? page={}'.format(str(i)) for i in range(1, 6)]# 获取所有数据print("开始爬取起点中文网小说封面图片......")for url in urls:get_info(url)print("起点中文网小说封面图片爬取完毕!")print("开始爬取起点中文网小说信息......")# 定义表头header = ['title', 'author', 'style', 'complete', 'introduce']# 创建工作簿book = xlwt.Workbook(encoding='utf-8')# 创建工作表sheet = book.add_sheet('Sheet1')for h in range(len(header)):# 写入表头sheet.write(0, h, header[h])i = 1 # 行数for list in all_info_list:j = 0 # 列数# 写入爬虫数据for data in list:sheet.write(i, j, data)j += 1i += 1# 保存文件book.save('xiaoshuo.xls')print("起点中文网小说信息爬取完毕!")
爬取结果
… …
Python爬取起点中文网小说信息及封面图片相关推荐
- python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...
前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...
- java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息
qidian.py: import xlwt import requests from lxml import etree import time all_info_list = [] def get ...
- python爬虫之爬取起点中文网小说
python爬虫之爬取起点中文网小说 hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手 ⬆是项 ...
- Python 爬取起点的小说(非vip)
Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...
- python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
- python爬虫——爬取起点中文网作品信息
首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...
- Python简单爬取起点中文网小说(仅学习)
目录 前言 一.爬虫思路 二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文 总结 前言 实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...
- Python爬取起点中文网月票榜前500名网络小说介绍
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- python request 爬虫爬取起点中文网小说
1.网页分析.进入https://www.qidian.com/,点击全部,进行翻页,你就会发现一个规律, url=https://www.qidian.com/all?orderId=&st ...
- 爬取起点中文网小说介绍信息
字数的信息(word)没有得到缺失 import xlwt import requests from lxml import etree import timeall_info_list=[] hea ...
最新文章
- RequireJs入门(一)
- 从hadoop框架与MapReduce模式中谈海量数据处理
- jQuery操作元素属性
- 为进阶Linux大佬打牢地基
- 如何搭建一套完整的深度学习系统?
- 开源需自立!Android、GitHub、Apache 全线告急!
- 使用as3控制动画的播放与暂停
- POJ 1330 Nearest Common Ancestors(LCA Tarjan算法)
- python setup.py install 和python setup.py develop的区别
- 《深入浅出统计学》之统计学知识小结
- 蜂窝教育:果粉们,上班玩手机的注意了
- Vc++安装包_Visual C++ 6.0中文版安装包下载及安装教程
- 专业的Windows鼠标右键菜单管理工具
- 超大硬盘linux快速格式化,Linux系统下超大硬盘快速格式化详解
- Cesium 影像卷帘对比
- 链路层链路发现协议(LLDP)讲解
- 漏洞:会话固定攻击(session fixation attack)
- R语言大全(后续更新和优化结构)
- 产品读书《怪诞行为学》
- 5G改变的不仅是网速,还可以改变这些......
热门文章
- louvain算法python_【转载】LOUVAIN算法
- 01 GOF设计模式的定义和分类
- robocode java_IBM Robocode Java学习利器(1)Robocode 入门
- 运动控制器之追剪应用Demo
- 集成海康威视Sadp SDK实现重置密码
- 在SOLIDWORKS Electrical中,如何创建电气原理图符号库?
- jdk16新特性_jdk8到jdk16新特性
- [开发笔记]-FireWorks常用操作快捷键
- 使用API Monitor监测到目标程序对系统API函数的调用(常用分析工具)
- 读书笔记:调试软件 张银奎