RedisCrawlSpider爬取当当图书信息

首先查看以下当当网的页面结构，可以看到的是图书的大小分类都在class="con flq_body"的div中。记得要看看页面源代码中是否有这些数据噢

然后可以看到所有小分类的链接都在class="inner dl"的dl标签中，所以使用link_extractor可以直接提取，再到详情页面获取大小分类。
然后将下一页的链接也提取出来，这样就可以获取到所有的数据咯

具体分析已经做完就可以开始敲代码，首先开始写一个crawlspider文件。可以自己写import，如果嫌麻烦可以直接使用cmd创建

from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpiderclass SpiderSpider(CrawlSpider):name = 'dd_book'allowed_domains = ['dangdang.com']# redis_key = 'dangdang'start_urls = ['http://book.dangdang.com/']rules = (# 直接提取小分类的页面的链接并请求页面Rule(LinkExtractor(restrict_xpaths='//dl[@class="inner_dl"]/dd/a'), callback='parse_data',follow=True),# 提取下一页的链接并请求  因为scrapy的请求是放在调度器中Rule(LinkExtractor(restrict_xpaths='//ul[@name="Fy"]/li/a'), callback='parse_data'))def parse_data(self, response):print(response)

以下为打印的response结果：

同时记住不要忘记提取他的分类噢

可以看到已经请求到这些图书的链接。然后再开始获取这些页面的图书信息，可以看到这些图书都在class="bigimg"的ul标签下的li标签里，只需要提取到ul标签下的所有的li标签，遍历之后再提取就好了

提取图书信息的代码如下：

    def parse_data(self, response):item = {}# 获取分类信息item['big_sort'] = response.xpath('//div[@class="crumbs_fb_left"]/div[1]/a/text()').extract_first()item['small_sort'] = response.xpath('//div[@class="crumbs_fb_left"]/div[2]/a/text()').extract_first()# 因为当当有些图书页面结构不一样，所以的话会查询不到，需要加一个判断if item['big_sort']:# 获取该页面下所有的包含图书信息的li标签lis = response.xpath('//ul[@class="bigimg"]/li')# 遍历提取需要的信息for li in lis:item['book_name'] = li.xpath('./a/@title').extract_first()item['price_now'] = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()').extract_first()item['price_pre'] = li.xpath('./p[@class="price"]/span[@class="search_pre_price"]/text()').extract_first()item['book_shop'] = li.xpath('./p[@class="search_shangjia"]/a/text()').extract_first()# print(item)yield item

运行结果如下，可以看到所有需要的信息都被提取到了，他的价格竟然可以直接获取，哈哈，也是很容易就获取到了呢，就是他有的图书页面的结构是不一样的，所以需要加一个判断，不一样的结构页面我就不爬咯
然后再settings文件中添加以下配置

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True    # 为false Redis关闭了 Redis数据也会被清空
REDIS_URL = "redis://127.0.0.1:6379"

修改spider文件，让他继承RedisCrawlSpider，然后不需要start_urls，这个需要我们使用redis客户端手动压入，对了别忘记开启redis服务端噢，现在就实现了分布式爬虫，关闭爬虫之后，下次再开始就不会继续爬取上次已经爬过的内容

from scrapy_redis.spiders import RedisCrawlSpider
from copy import deepcopyclass SpiderSpider(RedisCrawlSpider):name = 'dd_book'allowed_domains = ['dangdang.com']redis_key = 'dangdang'# start_urls = ['http://book.dangdang.com/']

到现在就可以使用pipeline直接保存爬取到的信息咯，再配置项中开启pipeline，我选择保存在MongoDB，因为MongoDB比较适合保存字典类型的文件，pipeline文件如下，MongoDB使用的时候也不能忘记开启服务端哟

from pymongo import MongoClientclass DangdangPipeline(object):def __init__(self):self.mongo_cli = MongoClient(host='localhost', port=27017)self.db = self.mongo_cli['dang_dang_book']def process_item(self, item, spider):self.db.dang_dang_book.insert_one(item)print(item, '已保存')return item

最终保存结果如下，大概不到3分钟获取了1万多条数据，settings中还设置了delay为3秒，速度还是挺快的：

RedisCrawlSpider爬取当当图书信息相关推荐

爬取当当图书排行榜（榜单自选），格式：爬取结果包含但不限于[排名书名作者]，注意输出格式对齐
目录爬取当当图书排行榜查看当当图书排行榜,分析其网址各部分代表的意义,选取特定分类和时间区间进行爬取解析网页内容,查看所需信息(排名,书名,作者,出版社,价格)的位置: 筛选所需数据,输出并保存 ...
【selenium爬虫】 selenium自动化爬取京东图书信息
一.题目要求:搜索京东图书页,自动点击详情页进入,爬取数据信息并且存储到csv中二.解题思路:1.需要下载一个chromedriver.exe.下载地址:ChromeDriver Mirror 注意: ...
Python数据爬虫学习笔记（21）Scrapy爬取当当图书数据并存储至SQLite数据库
一.需求:在当当网的程序设计类图书商品界面中,爬取图书的名称.详情链接以及评论数,并将信息存储至SQLite数据库. 二.URL及网页源码分析: 1.URL分析,注意到商品搜索页的URL具有以下结构: ...
我的第一个Scrapy 程序 - 爬取当当网信息
前面已经安装了Scrapy,下面来实现第一个测试程序. 概述 Scrapy是一个爬虫框架,他的基本流程如下所示(下面截图来自互联网) 简单的说,我们需要写一个item文件,定义返回的数据结构:写一个s ...
scrapy 爬取当当图书名字图片
1.创建项目和创建爬虫参考上一篇博客. 2.dang.py import scrapy from scrapy_dangdang.items import ScrapyDangdangItemclas ...
Python网络爬虫实战练习：爬取豆瓣图书信息
一.注意事项 1.文件名尽量使用英文,避免出现编码问题 2.含中文的文件写入,注意标注编码,如: with open(r"C:\Users\10335\Desktop\response.tx ...
在当当买了python怎么下载源代码-Python爬取当当、京东、亚马逊图书信息代码实例...
注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...
java爬取当当网所有分类的图书信息(ISBN,作者,出版社,价格,所属分类等)
java爬取当当网所有分类的图书信息(ISBN,作者,出版社,价格,所属分类等) 顺手写的,没有建立新项目,放我自己的项目的一个文件夹里了,有兴趣的朋友可以拉下来试试 https://gitee.co ...
Python爬虫离线爬取当当网畅销书Top500的图书信息
本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...
python 爬虫爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

RedisCrawlSpider爬取当当图书信息

RedisCrawlSpider爬取当当图书信息相关推荐

最新文章

热门文章