初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架 Scrapy,这安装过程也是煞费苦心哪,在此整理如下。

官网

官方安装文档

安装python

安装 Python 安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在 D 盘,D:\python2.7.7,就把以下两个路径添加到 Path 变量中

D:\python2.7;D:\python2.7\Scripts

配置好了之后,在命令行中输入 python —version,如果没有提示错误,则安装成功

>python --version
Python 2.7.18

安装pip

pip 是用来安装其他必要包的工具,首先下载 get-pip.py 下载好之后,选中该文件所在路径,执行下面的命令

python get-pip.py

执行命令后便会安装好 pip,并且同时,它帮你安装了 setuptools 安装完了之后在命令行中执行

pip --version

安装pywin32

安装 pywin32 在 windows 下,必须安装 pywin32,执行

pip install pywin32

在 python 命令行下输入 import win32com 如果没有提示错误,则证明安装成功

安装pyOPENSSL

在 Windows 下,是没有预装 pyOPENSSL 的,而在 Linux 下是已经安装好的。 安装地址:https://launchpad.net/pyopenssl

安装LXML

lxml 的详细介绍 ,lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML 直接执行如下命令

pip install lxml

就可完成安装,如果提示 Microsoft Visual C++ 库没安装,则点 Microsoft Visual C++ 库 下载支持的库。

安装scrapy

pip install Scrapy
>scrapy
c:\python27\lib\site-packages\OpenSSL\crypto.py:14: CryptographyDeprecationWarning: Python 2 is no longer supported by the Python core team. Support for it is now de
precated in cryptography, and will be removed in the next release.from cryptography import utils, x509
Scrapy 1.8.0 - no active projectUsage:scrapy <command> [options] [args]Available commands:bench         Run quick benchmark testfetch         Fetch a URL using the Scrapy downloadergenspider     Generate new spider using pre-defined templatesrunspider     Run a self-contained spider (without creating a project)settings      Get settings valuesshell         Interactive scraping consolestartproject  Create new projectversion       Print Scrapy versionview          Open URL in browser, as seen by Scrapy

Python 爬虫进阶三之 Scrapy 框架安装配置相关推荐

  1. Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  2. python爬虫架构设置_Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  3. Python 爬虫进阶二之 PySpider 框架安装配置

    PySpider官方文档 项目地址 官方文档 安装 phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持 web 而不需浏览器支持,其 ...

  4. python爬虫的基本原理以及scrapy框架的使用

    正则表达式基础 正则表达式用于处理字符串,拥有自己独立的语法以及一个独立的处理引擎. 不同提供正则表达式的语言里正则表达式的语法都式一样. . 和 * + . 匹配任意一个字符 *匹配0或多次前面出现 ...

  5. [python爬虫之路day19:] scrapy框架初入门day1——爬取百思不得姐段子

    好久没学习爬虫了,今天再来记录一篇我的初入门scrapy. 首先scrapy是针对大型数据的爬取,简单便捷,但是需要操作多个文件以下介绍: 写一个爬虫,需要做很多的事情.比如: 发送网络请求, 数据解 ...

  6. 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息

    使用Scrapy框架爬取拉勾网招聘信息 最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线一样, ...

  7. Python爬虫实战之利用Scrapy框架爬取传智播客课程数据

    1.文件结构: 2.lesson.py代码 import scrapy from ts.items import TsItem from scrapy.http import Requestclass ...

  8. python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)

    爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...

  9. python学习(三)scrapy爬虫框架(二)——创建一个scrapy爬虫

    在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤 第一步:确定要爬取的数据 以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...

最新文章

  1. 马斯克躺枪得州最严堕胎法案,因拒绝表态遭炮轰!“不站女权就抵制特斯拉”...
  2. 《树莓派渗透测试实战》——总结
  3. Linux内核中的进程等待与其实现解析
  4. c#实现 改进弧长法判断点在多边形里面
  5. [机器学习]AutoML---谷歌开源AdaNet:基于TensorFlow的AutoML框架
  6. C#高级技师语法,你会吗?
  7. 怎样学好C++ ----高手的话
  8. PDM系统服务器管理,基于PDM的异地协同设计系统
  9. QQ小工具网页版源码
  10. Springmvc 返回html视图解决
  11. 阿里拟 20 亿美元收购网易考拉;联通 5G 套餐最低 190 元;Rust 1.37.0 发布 | 极客头条...
  12. photoshop的页面制作练习2
  13. OKR组织敏捷目标和绩效管理第二课 O、KR和案例讲解
  14. HDFS 透明加密使用、Keystore和Hadoop KMS、加密区域、透明加密关键概念和架构、KMS配置
  15. LTspice绘制方波
  16. [转载]GIS派系大解密(转)_拔剑-浆糊的传说_新浪博客
  17. C99 designator ‘name’ outside aggregate initializer
  18. SAP MM06物料删除
  19. 你还记得当年上课天天玩 JAVA游戏吗
  20. 彻底清除SMSS.EXE病毒

热门文章

  1. 字符串替换方法的优劣
  2. 我们应当学会辞旧迎新——《不一样的天空》
  3. 让人吐血的文章,要被气死了
  4. Python中的If,Elif和Else语句
  5. Bootstrap教程:学习构建第一个Bootstrap 4网站
  6. 外星人图像和外星人太空船_卫星图像:来自太空的见解
  7. Centos7-卸载自带的jdk 安装jdk8
  8. HTTP 错误 404.3 - Not Found 由于扩展配置问题而无法提供您请求的页面
  9. 很好的理解遗传算法的样例
  10. 【js】日期插件 my97日期控件