初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。

Windows 平台:

我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。

官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程。

1.安装Python

安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在D盘,D:\python2.7.7,就把以下两个路径添加到Path变量中

1
D:\python2.7.7;D:\python2.7.7\Scripts

配置好了之后,在命令行中输入 python –version,如果没有提示错误,则安装成功

2.安装pywin32

在windows下,必须安装pywin32,安装地址:http://sourceforge.net/projects/pywin32/

下载对应版本的pywin32,直接双击安装即可,安装完毕之后验证:

在python命令行下输入

import win32com

如果没有提示错误,则证明安装成功

3.安装pip

pip是用来安装其他必要包的工具,首先下载 get-pip.py

下载好之后,选中该文件所在路径,执行下面的命令

1
python get-pip.py

执行命令后便会安装好pip,并且同时,它帮你安装了setuptools

安装完了之后在命令行中执行

1
pip --version

如果提示如下,说明就安装成功了,如果提示不是内部或外部命令,那么就检查一下环境变量有没有配置好吧,有两个路径。

4.安装pyOPENSSL

在Windows下,是没有预装pyOPENSSL的,而在Linux下是已经安装好的。

安装地址:https://launchpad.net/pyopenssl

5.安装 lxml

lxml的详细介绍 点我 ,是一种使用 Python 编写的库,可以迅速、灵活地处理 XML

直接执行如下命令

1
pip install lxml

就可完成安装,如果提示 Microsoft Visual C++库没安装,则 点我 下载支持的库。

6.安装Scrapy

最后就是激动人心的时刻啦,上面的铺垫做好了,我们终于可以享受到胜利的果实啦!

执行如下命令

1
pip install Scrapy

pip 会另外下载其他依赖的包,这些就不要我们手动安装啦,等待一会,大功告成!

7.验证安装

输入 Scrapy

如果提示如下命令,就证明安装成功啦,如果失败了,请检查上述步骤有何疏漏。

Linux Ubuntu 平台:

Linux 下安装非常简单,只需要执行几条命令几个

1.安装Python

1
sudo apt-get install python2.7 python2.7-dev

2.安装 pip

首先下载 get-pip.py

下载好之后,选中该文件所在路径,执行下面的命令

1
sudo python get-pip.py

3.直接安装 Scrapy

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ,可以分别输入

1
sudo pip install lxml

出现下面的提示这证明已经安装成功

1
Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages

如果想验证 openssl,则直接输入openssl 即可,如果跳转到 OPENSSL 命令行,则安装成功。

接下来直接安装 Scrapy 即可

1
sudo pip install Scrapy

安装完毕之后,输入 scrapy

注意,这里linux下不要输入Scrapy,linux依然严格区分大小写的,感谢kamen童鞋提醒。

如果出现如下提示,这证明安装成功

1
2
3
4
5
6
7
8
9
10
11
12
13
14

Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory

截图如下

如有问题,欢迎留言!祝各位小伙伴顺利安装!

Python爬虫进阶三之Scrapy框架安装配置相关推荐

  1. Python 爬虫进阶三之 Scrapy 框架安装配置

    初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架 Scrapy,这安装过程也是煞费苦心哪,在此整理如下. 官网 官方安装文档 安装p ...

  2. python爬虫架构设置_Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  3. Python 爬虫进阶二之 PySpider 框架安装配置

    PySpider官方文档 项目地址 官方文档 安装 phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持 web 而不需浏览器支持,其 ...

  4. python爬虫的基本原理以及scrapy框架的使用

    正则表达式基础 正则表达式用于处理字符串,拥有自己独立的语法以及一个独立的处理引擎. 不同提供正则表达式的语言里正则表达式的语法都式一样. . 和 * + . 匹配任意一个字符 *匹配0或多次前面出现 ...

  5. [python爬虫之路day19:] scrapy框架初入门day1——爬取百思不得姐段子

    好久没学习爬虫了,今天再来记录一篇我的初入门scrapy. 首先scrapy是针对大型数据的爬取,简单便捷,但是需要操作多个文件以下介绍: 写一个爬虫,需要做很多的事情.比如: 发送网络请求, 数据解 ...

  6. 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息

    使用Scrapy框架爬取拉勾网招聘信息 最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线一样, ...

  7. Python爬虫实战之利用Scrapy框架爬取传智播客课程数据

    1.文件结构: 2.lesson.py代码 import scrapy from ts.items import TsItem from scrapy.http import Requestclass ...

  8. python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)

    爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...

  9. python学习(三)scrapy爬虫框架(二)——创建一个scrapy爬虫

    在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤 第一步:确定要爬取的数据 以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...

最新文章

  1. [软件工程基础]团队作业Week3
  2. 探讨PHP获取checkbox值
  3. 调用方法[manageapp]时发生异常_探讨通过Feign配合Hystrix进行调用时异常的处理
  4. Python入门学习笔记08(random模块)
  5. java中显示动态信息的方法_java里的动态表单技术
  6. 10034 - Freckles 克鲁斯克尔最小生成树!~
  7. java 根据类名示例化类_Java LocalDateTime类| AdjustInto()方法与示例
  8. CyberArk:被忽略的特权账号管理已进入蓝海
  9. 严格匹配_2020湖北省考招录“刚柔并济”强调“人岗匹配”
  10. 特斯拉上市十年回报率高达12倍,马斯克做对了什么?
  11. VMware + Ubuntu16.04 网络无法使用问题
  12. think php上传图片,基于ThinkPHP5.0实现图片上传插件
  13. quartus波形仿真破解MODELSIM
  14. 遥感原理与应用总结——第五章:遥感图像几何处理
  15. 教妹学Java(十一):操作符简介
  16. Tensorflow2对GPU内存的分配策略
  17. 10015---JavaScript--表单验证
  18. Linux运维踩过的坑---Temporary failure in name resolution
  19. 电梯卫士等对计算机的应用,小班安全活动教案:电梯小卫士教案
  20. dicom是指_DCM是什么文件

热门文章

  1. C++实现字符串分割函数split()
  2. hdu 4588 Count The Carries 南京邀请赛
  3. 解题报告——例题5-8 Unix is 命令(UVa 400)——26行代码解决
  4. Web前端开发笔记——第三章 CSS语言 第五节 盒子模型
  5. python安装卡在core inter_python – 如何在我的机器上安装numpy / core ...
  6. iphone震动反馈怎么设置_如何评价 iPhone 上的振动反馈?
  7. Linux启动容器端口,docker安装 创建镜像 启动容器 的 使用方法
  8. postgresql 编码_上万份编码测试,大数据统计反映了公司在招聘时倾向的技能是什么...
  9. linux mysql 单机主从_MariaDB单机双实例主从复制
  10. java stringbuffer倒置_Java程序设计05——String和StringBuffer