文章目录

1. 前言
2. 序列化格式
- 2.1 JSON
- 2.2 JSON lines
- 2.3 CSV
- 2.4 XML
- 2.5 Pickle
- 2.6 Marshal
3. 存储
- 3.1 存储的URI参数
- 3.2 本地文件系统
- 3.3 FTP
- 3.4 S3
- 3.5 标准输出
4. 设置
5. 参考文献

1. 前言

在实现scraper时，常需要的功能之一是能够正确地存储被抓取的数据，这意味着用被抓取的数据（通常称为“导出提要”）生成一个“导出文件”，供其他系统使用。

Scrapy通过Feed导出提供了这样一个开箱即用的功能。允许你根据抓取的items使用多种序列化格式和存储后端生成feeds。

2. 序列化格式

为了序列化抓取到的数据，feed导出需要使用Item exporters。开箱即用地支持如下几种格式：

JSON。
JSON lines。
CSV。
XML。

当然，也可以通过FEED_EXPORTERS设置自己想要的格式。

2.1 JSON

FEEDs设置中的format键的值为：json
使用的Exporter：JsonItemExporter
feed较大时使用JSON lines更好。

2.2 JSON lines

FEEDs设置中的format键的值为：jsonlines
使用的Exporter：JsonLinesItemExporter

2.3 CSV

FEEDs设置中的format键的值为：csv
使用的Exporter：CsvItemExporter
使用FEED_EXPORT_FIELDS指明要导出的列和列的顺序。CSV必设此项，因为它根其它格式不太一样，它的列头是固定的。

2.4 XML

FEEDs设置中的format键的值为：xml
使用的Exporter：XmlItemExporter

2.5 Pickle

FEEDs设置中的format键的值为：pickle
使用的Exporter：PickleItemExporter

2.6 Marshal

FEEDs设置中的format键的值为：marshal
使用的Exporter：MarshalItemExporter

3. 存储

当你要使用feed导出时，你可以在FEEDS设置中定义一个或多个URI。feed导出支持多种存储后端类型，都通过URI来定义。

开箱即用地支持如下几种：

本地文件系统（Local filesystem）
FTP
S3（需要 botocore）
标准输出（Standard output）

如果所需的外部库不可用，则某些存储后端可能不可用。例如，只有在 botocore 库已安装情况下，S3后端才可用。

3.1 存储的URI参数

在URI中可以有很多参数。

%(time)%。创建feed的时间戳。
%(name)%。spider的name。
也可将sider的其他属性作为URI的参数。当feed创建时，URI中的参数会被实际的值替换。

例子，

存储在FTP中（每一个spider一个目录）。ftp://user:password@ftp.example.com/scraping/feeds/%(name)s/%(time)s.json
存储在S3中（每一个spider一个目录）。s3://mybucket/scraping/feeds/%(name)s/%(time)s.json

3.2 本地文件系统

feed存储在本地文件系统。

URI语法：file
URI示例：file:///tmp/export.csv
是否需要额外的库：否

请注意，对于本地文件系统存储，如果指定了/tmp/export.csv之类的绝对路径，则可以省略该方案。不过，这仅适用于Unix系统。

3.3 FTP

feed存储在FTP服务器。

URI语法：ftp
URI示例：ftp://user:pass#ftp.example.com/path/to/export.csv
是否需要额外的库：否
FTP支持两种连接模式：主动和被动。Scrapy默认使用被动连接模式。将FEED+STORAGE_FTP_ACTIVE设为True，则使用主动连接模式。

3.4 S3

feed存储在Amazon S3。

URI语法：s3
URI示例：
- s3://mybucket/path/to/export.csv
- s3://aws_key:aws_secret@mybucket/path/to/export.csv。需要设置AWS证书。
是否需要额外的库：botocore。

3.5 标准输出

feed被写入Scrapy进程的标准输出。

4. 设置

详情见 Scrapy官方文档 - Feed exports

5. 参考文献

[1] Scrapy官方文档 - Feed exports

初识 Scrapy - Feed导出相关推荐

Scrapy: Feed exports
Feed exports New in version 0.10. 当执行抓取的时候,一个最经常需要的特性就是正确并经常的保存榨取的数据,也就是说生成有抓取来的数据的导出文件(通常叫做export f ...
初识Scrapy,在充满爬虫的世界里做一个好公民
欢迎来到你的Scrapy之旅.通过本文,我们旨在将你从一个只有很少经验甚至没有经验的Scrapy初学者,打造成拥有信心使用这个强大的框架从网络或者其他源爬取大数据集的Scrapy专家.本文将介绍Scr ...
python自动化开发-[第二十四天]-高性能相关与初识scrapy
今日内容概要 1.高性能相关 2.scrapy初识上节回顾: 1. Http协议Http协议:GET / http1.1/r/n...../r/r/r/na=1TCP协议:sendall(" ...
Python3网络爬虫1：初识Scrapy
转载出处:https://blog.csdn.net/c406495762/article/details/72858983 官方:https://scrapy-chs.readthedocs.io/ ...
初识 scrapy 框架 - 安装
前面豆子学习了基本的urllib的模块,通过这个模块可以写一些简单的爬虫文件.如果要处理大中型的爬虫项目,urllib就显得比较low了,这个时候可以使用scrapy框架来实现,很多基本的处理在scr ...
python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy
scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行: ...
Python3网络爬虫(十二)：初识Scrapy之再续火影情缘
转载请注明作者和出处: http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 前言 ...
初识Scrapy之再续火影情缘
前言 Scrapy框架之初窥门径 1 Scrapy简介 2 Scrapy安装 3 Scrapy基础 31 创建项目 32 Shell分析 4 Scrapy程序编写 41 Spiders程序测试 42 ...
Python爬虫之Scrapy框架系列（1）——初识Scrapy框架【安装+简介+运行流程+组件介绍】
目录: 1.Scrapy模块安装 2.Scrapy框架简介 2.1 Scrapy是个啥? 2.2 我们为啥要用这玩意呢? 3.运行流程 3.1 引入: 3.2 进入正题: 3.3 数据流: 3.4 中 ...

初识 Scrapy - Feed导出