文章目录

  • 网站网址
  • 分析
  • 代码
  • 爬取结果

网站网址

https://www.qidian.com/all


共有5个页面

分析


但是发现这个图片很小,那怎么办呢?
经过我的研究后发现,去掉地址后面的"/150",就好了

完美!!!

代码

我是在桌面创建了一个名为“爬取起点中文网”,的文件夹,然后把py文件放在里面运行。所以在你运行我的代码的时候,需要更改以下代码,更改为你自己的文件路径

os.chdir(r"C:\Users\dell\Desktop\爬取起点中文网")

同样你也可以修改存储图片的路径。

当然py文件的名称可以随意定义,不会影响程序的运行

完整代码如下:

# 导入相应的库文件
import xlwt
import requests
from lxml import etree
import os# 初始化列表,存入爬虫数据
all_info_list = []# 定义获取爬虫信息的函数
def get_info(url):html = requests.get(url)selector = etree.HTML(html.text)# 定位大标签,以此循环infos = selector.xpath('//ul[@class="all-img-list cf"]/li')for info in infos:title = info.xpath('div[2]/h4/a/text()')[0]author = info.xpath('div[2]/p[1]/a[1]/text()')[0]style_1 = info.xpath('div[2]/p[1]/a[2]/text()')[0]style_2 = info.xpath('div[2]/p[1]/a[3]/text()')[0]style = style_1+'·'+style_2complete = info.xpath('div[2]/p[1]/span/text()')[0]introduce = info.xpath('div[2]/p[2]/text()')[0].strip()info_list = [title, author, style, complete, introduce]# 把数据存入列表all_info_list.append(info_list)# 爬取小说封面图片if not os.path.exists('./picture'):os.mkdir('./picture')img_src='https:'+info.xpath('div[1]/a/img/@src')[0]img_src=img_src[0:-4]img_name=title+'.jpg'img_data=requests.get(img_src).contentimg_path='picture/'+img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,"下载成功")os.getcwd()os.chdir(r"C:\Users\dell\Desktop\爬取起点中文网")# 程序主入口
if __name__ == '__main__':urls = ['http://a.qidian.com/? page={}'.format(str(i)) for i in range(1, 6)]# 获取所有数据print("开始爬取起点中文网小说封面图片......")for url in urls:get_info(url)print("起点中文网小说封面图片爬取完毕!")print("开始爬取起点中文网小说信息......")# 定义表头header = ['title', 'author', 'style', 'complete', 'introduce']# 创建工作簿book = xlwt.Workbook(encoding='utf-8')# 创建工作表sheet = book.add_sheet('Sheet1')for h in range(len(header)):# 写入表头sheet.write(0, h, header[h])i = 1  # 行数for list in all_info_list:j = 0  # 列数# 写入爬虫数据for data in list:sheet.write(i, j, data)j += 1i += 1# 保存文件book.save('xiaoshuo.xls')print("起点中文网小说信息爬取完毕!")

爬取结果


… …



Python爬取起点中文网小说信息及封面图片相关推荐

  1. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  2. java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息

    qidian.py: import xlwt import requests from lxml import etree import time all_info_list = [] def get ...

  3. python爬虫之爬取起点中文网小说

    python爬虫之爬取起点中文网小说 hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手 ⬆是项 ...

  4. Python 爬取起点的小说(非vip)

                      Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...

  5. python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)

    今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...

  6. python爬虫——爬取起点中文网作品信息

    首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...

  7. Python简单爬取起点中文网小说(仅学习)

    目录 前言 一.爬虫思路 二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文 总结 前言 实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...

  8. Python爬取起点中文网月票榜前500名网络小说介绍

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  9. python request 爬虫爬取起点中文网小说

    1.网页分析.进入https://www.qidian.com/,点击全部,进行翻页,你就会发现一个规律, url=https://www.qidian.com/all?orderId=&st ...

  10. 爬取起点中文网小说介绍信息

    字数的信息(word)没有得到缺失 import xlwt import requests from lxml import etree import timeall_info_list=[] hea ...

最新文章

  1. RequireJs入门(一)
  2. 从hadoop框架与MapReduce模式中谈海量数据处理
  3. jQuery操作元素属性
  4. 为进阶Linux大佬打牢地基
  5. 如何搭建一套完整的深度学习系统?
  6. 开源需自立!Android、GitHub、Apache 全线告急!
  7. 使用as3控制动画的播放与暂停
  8. POJ 1330 Nearest Common Ancestors(LCA Tarjan算法)
  9. python setup.py install 和python setup.py develop的区别
  10. 《深入浅出统计学》之统计学知识小结
  11. 蜂窝教育:果粉们,上班玩手机的注意了
  12. Vc++安装包_Visual C++ 6.0中文版安装包下载及安装教程
  13. 专业的Windows鼠标右键菜单管理工具
  14. 超大硬盘linux快速格式化,Linux系统下超大硬盘快速格式化详解
  15. Cesium 影像卷帘对比
  16. 链路层链路发现协议(LLDP)讲解
  17. 漏洞:会话固定攻击(session fixation attack)
  18. R语言大全(后续更新和优化结构)
  19. 产品读书《怪诞行为学》
  20. 5G改变的不仅是网速,还可以改变这些......

热门文章

  1. louvain算法python_【转载】LOUVAIN算法
  2. 01 GOF设计模式的定义和分类
  3. robocode java_IBM Robocode Java学习利器(1)Robocode 入门
  4. 运动控制器之追剪应用Demo
  5. 集成海康威视Sadp SDK实现重置密码
  6. 在SOLIDWORKS Electrical中,如何创建电气原理图符号库?
  7. jdk16新特性_jdk8到jdk16新特性
  8. [开发笔记]-FireWorks常用操作快捷键
  9. 使用API Monitor监测到目标程序对系统API函数的调用(常用分析工具)
  10. 读书笔记:调试软件 张银奎