前言

image.png

我建议新手都从Python3开始学习,可以不去学习Python2了,毕竟以后一定会被Python3代替,当然,也有一些库它现在只兼容Python2,那我们就再考虑了,我的Python版本是Python3.5.2

安装Scrapy

先要确定自己的Python版本 配置好环境变量,在cmd中输入python命令

image.png

同时也需要配置好pip命令

image.png

Scrapy框架是基于twisted的异步架构的,所以我们安装Twisted

下载对应版本的.whl文件先安装twisted库,当然你也需要选择适合自己的版本下载

下载地址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

image.png

安装twisted

打开命令提示符窗口,输入命令:pip install (下载好的twisted模块的whl文件路径)

安装scrapy

twisted库安装成功后,就可以安装scrapy了,在命令提示符窗口直接输入命令:

pip install scrapy回车

安装关联模块pypiwin32,在命令提示符窗口直接输入命令: pip install pypiwin32 回车

Scrapy测试,生成一个Scrapy框架

创建项目

运行命令:

scrapy startproject p1(your_project_name)

自动创建目录的结果:

image.png

文件说明:

scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)

items.py 设置数据存储模板,用于结构化数据,如:Django的Model

pipelines 数据处理行为,如:一般结构化的数据持久化

settings.py 配置文件,如:递归的层数、并发数,延迟下载等

spiders 爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

scrapy终端常用命令

可用scrapy命令

在终端中输入以下命令,查看scrapy有哪些命令语法

scrapy -h

image.png

scrapy的命令有两种分类-全局命令与项目命令

比如我们在命令行直接输入scrapy startproject myproject这个命令,实际上是在全局环境中使用的。

而当我们运行爬虫时候输入scrapy crawl myspider时,实际上是在项目环境内运行的。

#全局变量

startproject

runspider

shell

fetch

#项目命令

crawl

parse

genspider

创建项目

全局命令。使用scrapy第一步是在命令行中,创建爬虫项目。

语法: scrapy startproject

在 当前目录下创建一个名为 projectname 的Scrapy项目。

scrapy startproject myproject

目录结构如下

scrapy.cfg

projectname/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

myspider.py

创建好项目后,将当前工作目录切换到项目目录中。使用

cd myproject

之后就可以使用scrapy的项目命令操作scrapy项目了。

生成spider

项目命令。创建spider。一般创建的spider名字是跟域名一样的,比如www.baidu.com,我们穿件的爬虫命令

scrapy genspider baidu baidu.com

一般规律如下

scrapy genspider spidername domain.com

爬取

项目命令。 语法:scrapy crawl

fetch

全局命令。语法:scrapy fetch

使用本语句下载指定的url,并将获取到的内容返回为scrapy中的response对象。

scrapy fetch https://i.meituan.com

shell

全局命令。语法:scrapy shell [url]

Scrapy shell是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码,用来测试提取数据的代码。该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 免去了每次修改后运行spider的麻烦。

scrapy shell运行后,就会有以下对象,可以进行方便的调试。

scrapy shell https://www.baidu.com/

parse

项目命令。语法: scrapy parse [options]

获取给定的URL并使用相应的spider分析处理。如果您提供 --callback 选项,则使用spider的该方法处理,否则使用 parse。

--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider

--a NAME=VALUE: 设置spider的参数(可能被重复)

--callback or -c: spider中用于解析返回(response)的回调函数

--pipelines: 在pipeline中处理item

runspider

全局命令语法:scrapy runspider

在未创建项目的情况下,运行一个编写在python脚本中的spider。

python scrapy框架 简书_Python的Scrapy框架相关推荐

  1. python scrapy框架 简书_python爬虫框架——Scrapy架构原理介绍

    说起写爬虫,大多数第一时间想到的就是python了.python语法简洁明了,加上及其丰富好用的库,用它来写爬虫有天然的优势. 之前学python的时候也用requests+lxml写过几个爬虫玩,但 ...

  2. python scrapy框架 简书_python scrapy 实战简书网站

    1:创建项目 2:创建爬虫 3:编写start.py文件用于运行爬虫程序# -*- coding:utf-8 -*- #作者: baikai #创建时间: 2018/12/14 14:09 #文件: ...

  3. python 串口助手 简书_python用pyserial读取串口问题解决

    object is not callable Error: 'bool' object is not callable 没有返回值 正确代码: ser = serial.Serial('COM7', ...

  4. 小甲鱼python课后题简书_Python练习题100道

    1.有四个数字:1,2,3,4,能组成多少个互不相同且无重复数字的三位数?各是多少? 方法一:遍历所有可能,把重复的剃掉. total=0 for i in range(1,5): for j in ...

  5. python学习笔记简书_Python学习笔记

    本人在廖雪峰的python教程学习python,在此记录一些笔记,记一些重要的东西,以便查询及复习. 输入与输出 用print()在括号中加上字符串,就可以向屏幕上输出指定的文字. print()会依 ...

  6. python excel 饼图 简书_Python可视化29_matplotlib-饼图(pie)

    本文详细介绍python 使用matplotlib.pyplot.pie绘制饼图(pie) 本文快速预览 更多好文,欢迎随缘关注@ image image 目录 默认参数 修改配色 饼图某部分突出or ...

  7. python 串口助手 简书_python 制作串口工具(二)

    如需转载,请标明出处! Beautiful is better than ugly. 前言 继续上一篇使用 python 制作串口工具(一),完成要实现的串口工具代码逻辑! 实现 最终效果: imag ...

  8. python飞机大战简书_python中的小游戏——飞机大战

    精灵类---plane_sprites #这个模块放一些常用的工具和基础类和精灵类 #在其他模块调用 import pygame import random #设置游戏屏幕大小 这是一个常量 SCRE ...

  9. 小甲鱼python课后题简书_Python 练习题汇总

    1.赋值运算 image.png 2.条件语句 image.png 3.假如输入的位置是ADC 打印后裔.黄忠.虞姬 假如输入的位置是肉盾打印亚瑟.陈咬金 假如输入的位置是法师打印王昭君.妲己 假如输 ...

  10. python excel 饼图 简书_Python实现绘画多个饼图

    实现多饼图绘制,简单饼图实现及pie详细介绍,可参考第一篇. 1.效果展示 Figure_1.png 2.代码 import matplotlib.pyplot as plt # 同时绘制四个饼图 l ...

最新文章

  1. java im 框架_Netty实战:设计一个IM框架
  2. 在Linux上安装Python 3
  3. sqlite库 —— 为什么要使用 SQLite 数据库?
  4. ::selection
  5. canvas笔记-arcTo的使用及绘制弯月
  6. 微信小程序 自定义tabBar
  7. 室内定位程序_基于增强现实的室内导航系统如何设计架构
  8. 军哥lnmp一键安装包详解
  9. mysql repair 索引_MySQ索引操作命令总结(创建、重建、查询和删除索引命令详解)...
  10. xp计算机怎样看ip地址,XP电脑ip地址怎么查看?XP系统怎么样查看电脑的IP地址?...
  11. 身份证阅读器身份证读卡器Linux系统二次开发包(含Linux身份证相片解码库)
  12. 江苏2021高考成绩查询全省排名,江苏高考排名查询方法,2021年江苏高考成绩位次全省排名查询...
  13. 最流行的前端框架vue基础
  14. MySQL用逗号进行拼接、以逗号进行分割
  15. 2022-7-8 Leetcode 904.水果成篮
  16. php面试英文自我介绍范文带翻译,英文自我介绍范文3篇
  17. 现要求输入一个整数n,请输出斐波那契数列的第n项
  18. 小明的烦恼——找字符串
  19. 醉翁之意不在酒 “三维地籍”背后大棋局
  20. R语言sharpiro_r语言实验报告总结(共9篇).doc

热门文章

  1. Java邮件发送:带附件 or 不带附件 is nothing
  2. VNC服务的使用和使用qemu-img工具创建更多格式的磁盘映像文件
  3. JavaScript函数实例(一)
  4. Android --- GreenDao的实现(ORM框架)
  5. Intellij IDEA创建第一个项目的视频
  6. apache做yum源_svn+apache的yum源安装方式
  7. python安装成功之后教程_python安装教程 Pycharm安装详细教程
  8. sap business one 开发_敏捷软件开发实践:估算与计划读书笔记120第18章 估算速度...
  9. Android拍照返回图片
  10. mysql命令 -a_mysql常用命令