阅读文本大概需要3分钟。

上篇《分布式爬虫管理平台Crawlab开发搭建》把爬虫的管理后台搭建起来了;捣鼓一番发现要真正爬取数据还有下不少的功夫。这篇看看怎么搭建python+scrapy环境。

0x01:安装Python3

  • 下载python安装包,具体版本根据自己的系统要求

    https://www.python.org/downloads/windows/

  • 下载安装完成后直接cmd输入python,可正常查看版本

注:安装过程中请注意一定要请勾选pip安装并加入到环境变量中,否则后续无法正常安装第三方类库。

0x02:安装爬虫所需的一些常用类库

  • 安装 selenimu 自动化web包,cmd进入任意目录,执行

pip install selenium

  • 安装 pymysql 连接mysql包,cmd进入任意目录,执行。方便以后把爬取的数据插入数据库

    pip install pymysql

  • 安装 pillow 图片处理包

    pip install pillow

备注:pillow官网

     https://pillow.readthedocs.io/en/latest/installation.html

  • 安装 pypiwin32 操作底层dll包

    pip install pypiwin32

  • 安装 requests 发送web请求包

    pip install requests

  • 安装 scrapy 爬虫框架包

    pip install scrapy

备注:安装爬虫框架必须依赖的第三方类库Twisted,在使用pip安装时会出现下载文件失败而无法安装问题,可以先下载Twisted安装文件。然后使用pip install安装Twisted。

pip install 下载Twisted文件绝对路径

下载地址如下(下载与Python版本匹配的whl文件):

https://www.lfd.uci.edu/~gohlke/pythonlibs/  

  • 安装解析网页内容包

    pip install bs4

0x03:验证scrapy 是否安装成功

进入cmd,输入 scrapy 查看scrapy是否安装成功

0x04:创建爬虫项目

  • 创建项目,只需一行命令即可创建名为 tutorial 的Scrapy项目:

scrapy startproject tutorial

tutorial项目的目录结构大概如下:

  • 创建爬虫的模板文件

    进入 ./tutorial/tutorial 执行:

    scrapy genspider QuoteSpider  "http://www.baidu.com"

QuoteSpider是文件名,http://www.baidu.com是要爬取的域名, ./tutorial/tutorial/spiders 目录下生成一个QuoteSpider.py文件。文件内容如下:

修改一下QuoteSpider.py文件:

import scrapyclass QuotespiderSpider(scrapy.Spider):    name = 'QuoteSpider'# 允许爬取的域名# allowed_domains = ['landchina.mnr.gov.cn']    start_urls = ['http://landchina.mnr.gov.cn/scjy/tdzr/index_1.htm']def parse(self, response): # resonse相当于从网络中返回内容所存储的或对应的对象        fname = response.url.split('/')[-1] # 定义文件名字,把response中的内容写到一个html文件中with open(fname, 'wb') as f: # 从响应的url中提取文件名字作为保存为本地的文件名,然后将返回的内容保存为文件            f.write(response.body)                   self.log('Saved file %s.' % fname) # self.log是运行日志,不是必要的

这个代码很简单就是爬取一个页面,并保存到文件中。

执行tutorial爬虫项目,在cmd目录中执行

scrapy crawl QuoteSpider

执行日志如下

可以在 tutorial 目录下看的 index_1.htm 文件;该文件就是爬取到的内容。

往期精彩

01 Sentinel如何进行流量监控

02 Nacos源码编译

03 基于Apache Curator框架的ZooKeeper使用详解

04 spring boot项目整合xxl-job

05 互联网支付系统整体架构详解

关注我

每天进步一点点

喜欢!在看☟

搭建python_Crawlab准备之python+scrapy环境搭建相关推荐

  1. python scrapy 环境搭建_Python Scrapy 爬虫(一):环境搭建

    Life is short, I use Python 三年前的一天,我在灵隐寺求佛时,偶遇一高僧,法号智息.大师见我眉头紧皱,心事重重,于是便主动上前来开导我.大师充满智慧地告诉我了一句真理:&qu ...

  2. python scrapy 环境搭建_python+scrapy环境搭建步骤描述

    Python3(3.5.4)搭建爬虫系统步骤描述: 1.下载python安装包,路径:https://www.python.org/downloads/windows/  选择3.5.4版本64位的安 ...

  3. Python scrapy环境搭建

    一.Scrapy安装 Scrapy有很多依赖包,在windows 下安装很复杂.直接pip安装scrapy会报出很多错误.具体依赖问题使用下面安装的例子 1.1 传统方法 先安装框架需要的依赖包,然后 ...

  4. 苹果系统安装python环境_mac下python相关环境搭建(python开发必经之路之mac快速上手)...

    小结 本篇文章是对上一篇文章<MacOS的小结及终端shell的选择和相关配置全过程(zsh+iTerm2+powerline全解)>的一些拓展和总结,对于相关问题的详细解释和拓展点的标注 ...

  5. Python学习--环境搭建

    Python学习入门–环境搭建 Python简介 在进行Python环境搭建之前 ,先简单的介绍一下Python这门语言. Python, 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido ...

  6. Python selenium环境搭建

    Python selenium环境搭建 一.python下载安装 1.       python获取路径:https://www.python.org/downloads/release/python ...

  7. python opengl_Python环境搭建之OpenGL

    以下内容为我python OpenGl 环境搭建历程: win7 64位操作系统,python3.5.3 ,无其他相关. 直接cmd或PowerShell输入以下命令: pip install PyO ...

  8. python服务器环境搭建(2)——安装相关软件

    在上一篇我们在本地的虚拟服务器上安装好CentOS7后,我们的python web服务.自定义的python service或python脚本需要在服务器上运行,还需要在服务器安装各种相关的软件才行, ...

  9. intelRealsense D435 python开发环境搭建

    首先说一下电脑的配置 系统:win7 语言:python2.7 安装 应该是从D系列开始官方的开发文档都整合在了github,事实上,官方也有python环境安装说明,只是全部是英文,英语好的同学可以 ...

最新文章

  1. 基于Hadoop的大数据平台实施记——整体架构设计[转]
  2. 更新TensorFlow 2.0的旧代码
  3. 设计磁标读写模块-STC8G1K08-HALL
  4. 一文串起从NLP到CV 预训练技术和范式演进
  5. 未能加载程序集或它的一个依赖项_英伟达发布kaolin:一个用于加速3D深度学习研究的PyTorch库...
  6. 倍福TwinCAT(贝福Beckhoff)常见问题(FAQ)-PLC支持哪些PLC语言类型
  7. PHP json_encode 只支持utf8编码
  8. 台式机自动关机+自动重启问题
  9. . NET5正式版本月来袭,为什么说gRPC大有可为?
  10. 雷达的工作原理示意图_电磁阀的构成和工作原理示意图
  11. ESLint + lint-staged 禁用老项目中的es6
  12. 教你在Windows轻松修改Hosts文件
  13. linux低级格式化工具下载,硬盘低格工具(Hard Disk Low Level Format Tool)
  14. XILINX FPGA最小逻辑单元CLBs, Slices和LUT区别
  15. 计算机显卡型号中数字含义详解,显卡型号中字母和数字所代表的含义.doc
  16. Xposed模块编写方法
  17. 如何在体育场创造极致观看体验
  18. 【python环境下Z3约束求解器学习笔记】And和Or的用法
  19. ArcBlock冒志鸿:区块链3.0时代最先应用于政府服务体系|筱静观察
  20. ChinaSoft 论坛巡礼 | 形式化方法工业应用前沿

热门文章

  1. PHP CURL 使用代理访问服务器
  2. python-字典方法
  3. 查看屏幕大小_疑似“iPhone 12” 的OLED屏幕组件泄露
  4. word光标一直闪动_6个一分钟就能学会的Word实用小技巧,你会几个?【Word教程】...
  5. perl mysql dml_MySQL Connector执行SQL语句的三种方式
  6. 鸿蒙os开发小程序,9岁小学生展示鸿蒙OS开发:这操作太秀了
  7. np.random.choice用法
  8. OpenCV示例学习(七):离散傅里变换(DFT)算子:getOptimalDFTSize(),copyMakeBorder(),magnitude(),log(),normalize()
  9. Linux学习之嵌入式Linux编程文件IO(C语言版)
  10. ubuntu安装nvidia显卡驱动+cuda9.0+cudnn7.0+查看cuda版本+安装tensorrt+python查看gpu显存