1、流程框架
2、在命令行中输入scrapy,会有scrapy常见命令参数
在命令中输入scrapy startproject quote创建一个叫quote的项目
cd到创建好的项目目录中,然后执行scrapy genspider quotes quotes.toscrape.com,创建spider,指定spider名称--->quotes,
指定spider抓取的网址-->quotes.toscrape.com

这是一个scrapy框架默认目录结构
scrapy.cfg --> 配置文件,指定settings配置文件路径
quote/ ---> 该项目的python模块,之后您将在此加入代码。
quote/items.py --> 用来保存数据接口
quote/middlewares.py --> 存储中间件
quote/pipelines.py --> 项目中的pipelines文件
quote/settings.py --> 定义一些配置信息
quote/spiders/ --> 放置spider代码的目录
3、在命令行中输入scrapy crawl quotes,会输出一些配置信息
scrapy还有一个命令行调试模式,直接在命令行执行scrapy shell quotes.toscrape.com
extract_first是输入第一个匹配的,是字符串,extract是匹配有多个结果的,输出列表类型
执行scrapy crawl quotes -o quotes.json可以保持到本地文件,还支持quotes.jl .csv ,还有支持向ftp传输数据
scrapy crawl -o ftp://user:password@ftp.server.com/path/quotes.csv
使用-o是可以指定保持需要的文件格式,这个保持方法scrapy都已经集成好了
4、抓取了一个网址先测试scrapy,具体代码请参考GitHub
https://github.com/watchxu/python/tree/master/ScrapyQuotes

转载于:https://www.cnblogs.com/watchslowly/p/9238048.html

Scrapy框架基础使用相关推荐

  1. 第五章 Scrapy爬虫框架(5.1 Scrapy框架基础)

    Scrapy是一个高级Web爬虫框架,用于爬取网站并从页面中提取结构化数据.它可以用于数据挖掘.数据监控和自动化测试等多个方面.与之前讲过的Requests库和Selenium库不同,Scrapy更适 ...

  2. scrapy框架基础学习之囧事百科

    基础: 一.安装scrapy框架 pip install scrapy pip --default-timeout=2000 install -U scrapy 来下载scrapy让它的延迟检测时间变 ...

  3. java启动scrapy爬虫,爬虫入门之Scrapy 框架基础功能(九)详解

    Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...

  4. 11.Scrapy框架基础-使用Scrapy抓取数据并保存到mongodb

    目录 一.Scrapy安装 1.mac系统 2.windows系统 二.使用scrapy爬取数据 1.新建一个scrapy工程 2.在spiders下新建一个爬虫文件 3.提取网页数据 三.保存数据到 ...

  5. python爬虫scrapy框架基础

    我使用的软件是pychram 最近几周也一直在学习scrapy,发现知识点比较混乱,今天来总结一下.我是按照<精通python网络爬虫核心技术框架与项目实战>这本书来写的.讲的比较简洁,想 ...

  6. Python基础知识回顾及scrapy框架爬虫基础

    1.函数 函数参数:必须 默认 关键 可变 函数种类:外部 内部 匿名 lambda 装饰函数:@语法糖 函数总是要返回的 ,若没有return,None总是被返回   2.面向对象: 对象:已存在, ...

  7. 爬虫基础(五)-----scrapy框架简介

    ---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...

  8. Python|并发编程|爬虫|单线程|多线程|异步I/O|360图片|Selenium及JavaScript|Scrapy框架|BOM 和 DOM 操作简介|语言基础50课:学习(12)

    文章目录 系列目录 原项目地址 第37课:并发编程在爬虫中的应用 单线程版本 多线程版本 异步I/O版本 总结 第38课:抓取网页动态内容 Selenium 介绍 使用Selenium 加载页面 查找 ...

  9. 爬虫基础分享Scrapy框架流程图与安装

    从头开发一个爬虫程序是一项烦琐的工作,为了避免因制造轮子而消耗大量时间,在实际应用中我们可以选择使用一些优秀的爬虫框架,使用框架可以降低开发成本,提高程序质量,让我们能够专注于业务逻辑.所以,我们一起 ...

最新文章

  1. 远程办公是巨头游戏?十倍扩容,他们如何做到百万级并发流量
  2. python requests 重定向_认识Python最最最常用语重要的库Requests
  3. QT中Widget去除系统提供工具以及系统默认边框
  4. 用c#开发微信 系列汇总
  5. What are Unix swap (.swp) files?
  6. 全国计算机等级考试题库二级C操作题100套(第89套)
  7. js 常用js正则表达式大全
  8. Firefox已阻止此网站安装未经验证的附加组件的解决办法
  9. worknc的后处理如何安装_这些压缩空气后处理问题,大部分人都没有关注到
  10. 一个上帝视角的java游戏_从上帝视角看Java如何运行
  11. docker 容器的常用命令及配置
  12. C/C++ debug(一)
  13. MyBatis集合Spring(三)之mapper
  14. 教你如何用C语言做一个简单的贪吃蛇
  15. GitHub上java的开源项目(java程序员必备)
  16. uniapp创建电子签名
  17. CF140C New Year Snowmen (#贪心+优先队列)
  18. android 通知权限设置在哪,Android 打开消息通知权限
  19. 收藏 | 美国数字资产行政命令中文版全文
  20. 双目测距数学原理详解

热门文章

  1. 快速学习正则表达式,不用死记硬背,这里有份中文资源和互动学习网站
  2. 常用的正则表达式分享
  3. 光伏产品发展之路:从反倾销到欧盟加收税款
  4. 浅谈身为小白学习Linux系统的四点实用建议
  5. 给定一个介于0和1之间的实数,类型为double,打印它的二进制表示
  6. python的类和对象——类的静态字段番外篇
  7. Cocos2d-x 生成真正的随机数
  8. Spring MVC 单元调试和访问
  9. STC用PCA测量脉宽_用于相干激光雷达的大能量长脉宽单频激光器 | COL
  10. C 语言编程 — 静态库、动态库和共享库