# 爬取qidian网站图书信息(书名、作者、简介、图片url)
import requests
from lxml import etree
import jsonclass BookSpider(object):def __init__(self):self.url = 'https://www.qidian.com/finish?action=hidden&orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=2&page={}'self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}self.data_list = []# 1、构建所有urldef get_url_list(self):url_list = []for i in range(1,6):url = self.url.format(i)url_list.append(url)return url_list# 2、发请求def send_request(self,url):data = requests.get(url,headers=self.headers).content.decode()print(url)return data# 3、解析数据 xpathdef parse_xpath_data(self,data):parse_data = etree.HTML(data)# 1、解析出所有的书book_list = parse_data.xpath('//div[@class="book-img-text"]/ul/li')# 2、解析出每本书的信息for book in book_list:book_dict = {}# 1、书名字book_dict['book_name'] = book.xpath('.//div[@class="book-mid-info"]/h4/a/text()')[0]# book_name = book.xpath('//div[@class="book-mid-info"]/h4/a/text()') # //div前不加 . 解析(查找)的是全部范围  ,加 . 是再上一次解析(book)基础上继续解析(查询)# 2、书的图片urlbook_dict['book_img_url'] = book.xpath('.//div[@class="book-img-box"]/a/img/@src')[0]# 3、书的作者book_dict['book_author'] = book.xpath('.//div[@class="book-mid-info"]/p[@class="author"]/a[@class="name"]/text()')[0]# 4、书的简介book_dict['book_info'] = book.xpath('.//div[@class="book-mid-info"]/p[@class="intro"]/text()')[0].strip() #加strip()去空格self.data_list.append(book_dict)# 4、保存数据def save_data(self):json.dump(self.data_list,open('book.json','w'))# 5、统筹调用def start(self):url_list = self.get_url_list()# 循环遍历,发送请求for url in url_list:data = self.send_request(url)self.parse_xpath_data(data)self.save_data()
BookSpider().start()

爬取起点网站图书信息(书名、作者、简介、图片url)相关推荐

  1. scrapy框架的简单使用——爬取当当网图书信息

    ** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...

  2. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  3. python 爬虫 爬取当当网图书信息

    初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

  4. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  5. Scrapy :爬取培训网站讲师信息

    Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...

  6. 用python爬取交大图书馆图书信息

    由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...

  7. python爬虫——爬取起点中文网作品信息

    首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...

  8. 爬虫项目 | 爬取XX网站招聘信息

    /***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/ 项目背景和功能 毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题 ...

  9. 爬虫Scrapy框架学习(三)-爬取苏宁图书信息案例

    爬取苏宁图书案例 1.项目文件架构 2.爬取数据网页页面 3.suning.py文件 # -*- coding: utf-8 -*- import scrapy from copy import de ...

最新文章

  1. ue4 截图_UE4中创建赛博朋克中国城市
  2. 怎么在服务器上注册vbs组件,Windows下查看PC服务器硬件序列号的vbs脚本
  3. HDU 2574 HDOJ 2574 Hdu Girls' Day ACM 2574 IN HDU
  4. 前端技术周刊 2018-12-03:DOM
  5. Full_of_Boys训练5总结
  6. 《小强升职记》读后感和思维导图
  7. Hadoop RPC框架
  8. bzoj 1406: [AHOI2007]密码箱
  9. MyBatis -- 对表进行增删改查(基于注解的实现)
  10. 负数的补码公式是什么_为什么0xffffffff是-1?(计算机对整型的存储)
  11. 深入理解计算机系统李秋豪,《深入理解计算机系统》第7章:重定位PC相对引用的理解...
  12. 虚拟机桥接模式联网设置
  13. linux 设置unix格式化,linux格式化
  14. 计算机怎样打开鼠标点的键盘,电脑软键盘怎么打?
  15. apt-get update 更新失败----如何清除破损而且陈旧的PPA仓库 (W: Failed to fetch http://ppa.launchpad.net/jonathonf/pyt)
  16. 【独家】一文读懂文字识别(OCR)
  17. phython入门开始
  18. Angular最新教程-第七节HTTP get post 设置头部 跨域访问
  19. 《老师好》有感-学历迷思
  20. 图片文字怎么转换成文本?分享几个好方法

热门文章

  1. iOS开发:音乐播放器
  2. 韦东山jz2440开发板重烧系统
  3. nodejs中使用ioredis库操作redis
  4. 【MySQL】MySQL高手是如何练成的?
  5. 做一个快乐的程序员,去感受爱
  6. Java Solr:(一)Solr 简介
  7. python实现线性回归之梯度下降法,梯度下降详解
  8. js原型链,继承和promis的基本理解
  9. BOM清单:生产组装的重要依据
  10. C语言试题123之有 5 个人坐在一起,问第五个人多少岁?他说比第 4 个人大 2 岁。问第 4 个人岁数,他说比第 3 个人大 2 岁。问第三个人,又说比第 2 人大两岁。问第 2 个人,说比第一个