爬取起点网站图书信息（书名、作者、简介、图片url）

# 爬取qidian网站图书信息（书名、作者、简介、图片url）
import requests
from lxml import etree
import jsonclass BookSpider(object):def __init__(self):self.url = 'https://www.qidian.com/finish?action=hidden&orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=2&page={}'self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}self.data_list = []# 1、构建所有urldef get_url_list(self):url_list = []for i in range(1,6):url = self.url.format(i)url_list.append(url)return url_list# 2、发请求def send_request(self,url):data = requests.get(url,headers=self.headers).content.decode()print(url)return data# 3、解析数据 xpathdef parse_xpath_data(self,data):parse_data = etree.HTML(data)# 1、解析出所有的书book_list = parse_data.xpath('//div[@class="book-img-text"]/ul/li')# 2、解析出每本书的信息for book in book_list:book_dict = {}# 1、书名字book_dict['book_name'] = book.xpath('.//div[@class="book-mid-info"]/h4/a/text()')[0]# book_name = book.xpath('//div[@class="book-mid-info"]/h4/a/text()') # //div前不加 . 解析（查找）的是全部范围  ，加 . 是再上一次解析（book）基础上继续解析（查询）# 2、书的图片urlbook_dict['book_img_url'] = book.xpath('.//div[@class="book-img-box"]/a/img/@src')[0]# 3、书的作者book_dict['book_author'] = book.xpath('.//div[@class="book-mid-info"]/p[@class="author"]/a[@class="name"]/text()')[0]# 4、书的简介book_dict['book_info'] = book.xpath('.//div[@class="book-mid-info"]/p[@class="intro"]/text()')[0].strip() #加strip（）去空格self.data_list.append(book_dict)# 4、保存数据def save_data(self):json.dump(self.data_list,open('book.json','w'))# 5、统筹调用def start(self):url_list = self.get_url_list()# 循环遍历，发送请求for url in url_list:data = self.send_request(url)self.parse_xpath_data(data)self.save_data()
BookSpider().start()

爬取起点网站图书信息（书名、作者、简介、图片url）相关推荐

scrapy框架的简单使用——爬取当当网图书信息
** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
先来看看页面长啥样的:https://book.douban.com/top250 我们将要爬取哪些信息:书名.链接.评分.一句话评价-- 1. 爬取单个信息我们先来尝试爬取书名,利用之 ...
python 爬虫爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...
python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...
前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中环境:Python3.7 PyCharm Chrome浏览器主要模块:xlwt ...
Scrapy ：爬取培训网站讲师信息
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
用python爬取交大图书馆图书信息
由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...
python爬虫——爬取起点中文网作品信息
首先打开起点中文网点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...
爬虫项目 | 爬取XX网站招聘信息
/***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/ 项目背景和功能毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题 ...
爬虫Scrapy框架学习（三）-爬取苏宁图书信息案例
爬取苏宁图书案例 1.项目文件架构 2.爬取数据网页页面 3.suning.py文件 # -*- coding: utf-8 -*- import scrapy from copy import de ...

爬取起点网站图书信息（书名、作者、简介、图片url）

爬取起点网站图书信息（书名、作者、简介、图片url）相关推荐

最新文章

热门文章