[Python]scrapy爬取当当网书籍相关信息

　　最近想买两本程序设计的书籍，也就在当当网上面看了下，发现真是太多的书了。所以想着利用爬虫知识爬取下程序设计相关书籍的一些信息。
00_1. 首先是今天所用到的东西
　　python 3.5 + scrapy 1.5
00_2.scrapy的相关简单命令
I. 创建爬虫项目之前

# 通过view指令可以下载指定网站，并用默认浏览器打开scrapy view http://www.baidu.com
# 通过version可以查看scrapy的版本scrapy version
# 通过 startproject创建一个新的项目scrapy startproject myproject
# 利用bench 可以创建服务器以最大速度去爬去网页，从而得到爬取的最大速度scrapy bench

II. 进入爬虫项目之后，会出现新的命令

# 利用genspider创建爬虫文件。（这里是利用模板创建爬虫文件）
# 一个爬虫项目可以有多个爬虫文件
# 利用 -l 列出这里的模板列表scrapy genspider -lAvailable templates:basiccrawlcsvfeedxmlfeed# 利用basic 创建爬虫文件scrapy genspider -t basic weisuen baidu.com
# 利用check来测试爬虫文件是否可以scrapy check weisuen Ran 0 contracts in 0.000s
OK# 利用 crawl 可以运行爬虫
# 使用--nolog可以控制是否输出日志信息，主要用于看程序是否出现问题scrapy crawl weisuen --nolog
# 利用list显示可以使用的爬虫文件scrapy list

01.网页分析
基础网页： http://category.dangdang.com/pg2-cp01.54.06.00.00.00.html
　01_1.提取信息分析　　　
　　右键，检查网页源代码，分别复制我们关心的书籍的信息，在网页源码中检索下，观察我们需要的信息是否能直接从源码中获取。
　　可以发现我们想获取的书名、价格、评论数、链接均为加密，也就是说在网站源码中可以直接获取，这样我们可以直接通过Xpath方法获得即可。（这里也可以使用正则或者其他方法，根据自己喜欢，因为前面博文中已经用正则完成过，这里选择用Xpath完成）

这里是对应的Xpath式子，可能不是最简洁的，大家可以根据自己能力修改

it["title"] = response.xpath("//p[@class='name']/a[@name='itemlist-title']/text()").extract()
it["Comment_Num"] = response.xpath("//p[@class='search_star_line']/a/text()").extract()
it["price"] = response.xpath("//p[@class='price']/span[@class='search_now_price']/text()").extract()
it["link"] = response.xpath("//p[@class='name']/a[@name='itemlist-title']/@href").extract()

　01_2.网页网址分析
　　　我们想分析当当网计算机-程序设计目录下的所有图书，就要遍历所有页面（这里大概有一百页），可以复制每一页的网址观察规律，以便构造网址。

第二页：http://category.dangdang.com/pg2-cp01.54.06.00.00.00.html
第三页：http://category.dangdang.com/pg3-cp01.54.06.00.00.00.html
第四页：http://category.dangdang.com/pg4-cp01.54.06.00.00.00.html

　　很明显，这里pa代表了页面后面的数字代表了页码。

　02.代码书写
　其实完成了分析阶段，代码的书写阶段就比较简单了。关于scrapy，主要是items、pipelines、和自己创建的爬虫文件部分的书写。关于新建的爬虫文件的书写，这里新建是以basic模板为例。

# -*- coding: utf-8 -*-
import scrapy
from DangDang.items import DangdangItem
from scrapy.http import Request
class DangdSpider(scrapy.Spider):name = 'DangD'allowed_domains = ['dangdang.com']start_urls = ['http://www.dangdang.com/']def parse(self, response):it = DangdangItem()it["title"] = response.xpath("//p[@class='name']/a[@name='itemlist-title']/text()").extract()it["Comment_Num"] = response.xpath("//p[@class='search_star_line']/a/text()").extract()it["price"] = response.xpath("//p[@class='price']/span[@class='search_now_price']/text()").extract()it["link"] = response.xpath("//p[@class='name']/a[@name='itemlist-title']/@href").extract()yield itfor page in range(2, 51):url = 'http://category.dangdang.com/pg{}-cp01.54.06.00.00.00.html'.format(page)yield Request(url, callback=self.parse)break

Ps.具体工程中在pipelines中添加了输出到数据库的内容，根据自己对数据库的了解更改。
　　具体完整工程见Github（点击链接），欢迎大家指正相关问题，这也是第一次自助运用scrapy。的确发现scrapy很强大，很简洁，方便大型爬虫项目的书写。

[Python]scrapy爬取当当网书籍相关信息相关推荐

python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息一.环境搭建二.简介三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面书籍商品html页面解析其他商品html页面解析四.代码实现 ...
Scrapy爬取当当网的商品信息存到MySQL数据库
Scrapy爬取当当网的商品信息存到MySQL数据库 Scrapy 是一款十分强大的爬虫框架,能够快速简单地爬取网页,存到你想要的位置.经过两天的摸索,终于搞定了一个小任务,将当当网的商品信息爬下来存 ...
python爬虫-爬取当当网书籍信息存到Excel中
文章目录一.任务二.分析 (一).单页面的信息分析源代码分析目标信息定位与分析代码设计 (二).所有目标页面链接分析目标链接分析代码设计三.注意要点四.完整代码五.参考一.任务 ...
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我 ...
python实战|用scrapy爬取当当网数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者:Python进击者 ( 想要学习Python?Pyth ...
在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
Scrapy爬取当当网图书销售前100
scrapy爬取当当网图书畅销榜一.采集任务爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜进入当当网图书畅销榜[http: ...
python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
Scarpy爬取当当网书籍
目录 1:Scarpy (1) Scrapy是什么: (2)安装scrapy: 2.scrapy项目的创建以及运行 1.创建scrapy项目: 2.项目组成: 3.创建爬虫文件 4.爬虫文件的基本组 ...

[Python]scrapy爬取当当网书籍相关信息

[Python]scrapy爬取当当网书籍相关信息相关推荐

最新文章

热门文章