第一节：Scrapy开源框架初探

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。具体开发流程如下：

一、确定待抓取网站

当您需要从某个网站中获取信息，但该网站未提供API或能通过程序获取信息的机制时， Scrapy可以助你一臂之力。

二、定义要抓取的数据

定义我们需要爬取的数据。在Scrapy中，这是通过 Scrapy Items 来完成的。(在本例子中为种子文件)

我们定义的Item:

  1 # Define here the models for your scraped items
  2 #
  3 # See documentation in:
  4 # http://doc.scrapy.org/topics/items.html
  5
  6 from scrapy.item import Item, Field
  7
  8 class TutorialItem(Item):
  9     # define the fields for your item here like:
 10     # name = Field()
 11     title=Field()
 12     link=Field()
 13     desc=Field()
 14
 15
 16

View Code

三、编写抓取数据的Spiders（核心）

定义种子初始URL、针对后续链接的规则以及从页面中提取数据的规则。

  1 #coding=utf-8
  2
  3 from scrapy.spider import BaseSpider
  4 from scrapy.selector import HtmlXPathSelector
  5 from tutorial.items import TutorialItem
  6
  7 class DmozSpider(BaseSpider):
  8     name = "dmoz"
  9     allowed_domains = ["dmoz.org"]
 10     start_urls = [
 11         "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
 12         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
 13     ]
 14
 15     def parse(self, response):
 16         # filename = response.url.split("/")[-2]
 17         # # open(filename, 'wb').write(response.body)
 18         # with open(filename,'wb') as f:
 19         #   f.write(response.body)
 20         hxs = HtmlXPathSelector(response)
 21         sites = hxs.select('//ul/li')
 22         items = []
 23
 24         for site in sites:
 25             item = TutorialItem()
 26             item['title'] = site.select('a/text()').extract()
 27             item['link'] = site.select('a/@href').extract()
 28             item['desc'] = site.select('text()').extract()
 29             items.append(item)
 30
 31         return items
 32
 33
 34

View Code

四、执行Spider，保存数据

转载于:https://www.cnblogs.com/dmir/p/5472891.html

第一节：Scrapy开源框架初探相关推荐

初探Scrapy爬虫框架之百度网页爬取
初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存一.scrapy框架简介二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...
Karpathy更新深度学习开源框架排名：TensorFlow第一，PyTorch第二
上周,Keras作者.谷歌研究科学家François Chollet晒出一张图,他使用Google Search Index,展示了过去三个月,ArXiv上提到的深度学习框架排行,新智元也做了报道: ...
Android开源框架Afinal第一篇——揭开圣女的面纱
Android开源框架Afinal第一篇--揭开圣女的面纱分类: Android开源框架哪点事2013-09-02 14:25 260人阅读评论(0) 收藏举报 Afinal 这是Afinal在 ...
HowToDoIt 开源框架爱好者组织发布第一份项目总结
开发四年只会写业务代码,分布式高并发都不会还做程序员? >>> HowToDoIt 是一群开源框架爱好者一起成立的一个组织, 组织成员有 JFinal, Nutz, t-io, ...
【CV实战】年轻人的第一个深度学习CV项目应该是什么样的？（支持13大深度学习开源框架）...
计算机视觉发展至今,许多技术已经非常成熟了,在各行各业落地业务非常多,因此不断的有新同学入行.本次我们就来介绍,对于新手来说,如何做一个最合适的项目.本次讲述一个完整的工业级别图像分类项目的标准流程, ...
（前端版）RuoYi(若依开源框架)研究第一天
前端版RouYi(开源框架)研究第一天项目结构 ├── build // 构建相关 ├── bin // 执行脚本 ├── public // 公共文件 │ ├── favicon.ico // f ...
Scrapy框架初探
Scrapy 貌似是 Python 最出名的爬虫框架 0. 文档中文文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.ht ...
Python Scrapy爬虫框架实战应用
通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...
【v2.x OGE-example 第一节】绘制实体
2019独角兽企业重金招聘Python工程师标准>>> 前言: OGE即 OGEngine,是由橙子游戏开发的基于Java支持跨平台的开源游戏引,从12年4月项目成立至今已经有2年多 ...