Python 爬虫进阶三之 Scrapy 框架安装配置
初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架 Scrapy,这安装过程也是煞费苦心哪,在此整理如下。
官网
官方安装文档
安装python
安装 Python 安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在 D 盘,D:\python2.7.7,就把以下两个路径添加到 Path 变量中
D:\python2.7;D:\python2.7\Scripts
配置好了之后,在命令行中输入 python —version,如果没有提示错误,则安装成功
>python --version
Python 2.7.18
安装pip
pip 是用来安装其他必要包的工具,首先下载 get-pip.py 下载好之后,选中该文件所在路径,执行下面的命令
python get-pip.py
执行命令后便会安装好 pip,并且同时,它帮你安装了 setuptools 安装完了之后在命令行中执行
pip --version
安装pywin32
安装 pywin32 在 windows 下,必须安装 pywin32,执行
pip install pywin32
在 python 命令行下输入 import win32com 如果没有提示错误,则证明安装成功
安装pyOPENSSL
在 Windows 下,是没有预装 pyOPENSSL 的,而在 Linux 下是已经安装好的。 安装地址:https://launchpad.net/pyopenssl
安装LXML
lxml 的详细介绍 ,lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML 直接执行如下命令
pip install lxml
就可完成安装,如果提示 Microsoft Visual C++ 库没安装,则点 Microsoft Visual C++ 库 下载支持的库。
安装scrapy
pip install Scrapy
>scrapy
c:\python27\lib\site-packages\OpenSSL\crypto.py:14: CryptographyDeprecationWarning: Python 2 is no longer supported by the Python core team. Support for it is now de
precated in cryptography, and will be removed in the next release.from cryptography import utils, x509
Scrapy 1.8.0 - no active projectUsage:scrapy <command> [options] [args]Available commands:bench Run quick benchmark testfetch Fetch a URL using the Scrapy downloadergenspider Generate new spider using pre-defined templatesrunspider Run a self-contained spider (without creating a project)settings Get settings valuesshell Interactive scraping consolestartproject Create new projectversion Print Scrapy versionview Open URL in browser, as seen by Scrapy
Python 爬虫进阶三之 Scrapy 框架安装配置相关推荐
- Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
- python爬虫架构设置_Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
- Python 爬虫进阶二之 PySpider 框架安装配置
PySpider官方文档 项目地址 官方文档 安装 phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持 web 而不需浏览器支持,其 ...
- python爬虫的基本原理以及scrapy框架的使用
正则表达式基础 正则表达式用于处理字符串,拥有自己独立的语法以及一个独立的处理引擎. 不同提供正则表达式的语言里正则表达式的语法都式一样. . 和 * + . 匹配任意一个字符 *匹配0或多次前面出现 ...
- [python爬虫之路day19:] scrapy框架初入门day1——爬取百思不得姐段子
好久没学习爬虫了,今天再来记录一篇我的初入门scrapy. 首先scrapy是针对大型数据的爬取,简单便捷,但是需要操作多个文件以下介绍: 写一个爬虫,需要做很多的事情.比如: 发送网络请求, 数据解 ...
- 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息
使用Scrapy框架爬取拉勾网招聘信息 最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线一样, ...
- Python爬虫实战之利用Scrapy框架爬取传智播客课程数据
1.文件结构: 2.lesson.py代码 import scrapy from ts.items import TsItem from scrapy.http import Requestclass ...
- python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)
爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...
- python学习(三)scrapy爬虫框架(二)——创建一个scrapy爬虫
在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤 第一步:确定要爬取的数据 以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...
最新文章
- 马斯克躺枪得州最严堕胎法案,因拒绝表态遭炮轰!“不站女权就抵制特斯拉”...
- 《树莓派渗透测试实战》——总结
- Linux内核中的进程等待与其实现解析
- c#实现 改进弧长法判断点在多边形里面
- [机器学习]AutoML---谷歌开源AdaNet:基于TensorFlow的AutoML框架
- C#高级技师语法,你会吗?
- 怎样学好C++ ----高手的话
- PDM系统服务器管理,基于PDM的异地协同设计系统
- QQ小工具网页版源码
- Springmvc 返回html视图解决
- 阿里拟 20 亿美元收购网易考拉;联通 5G 套餐最低 190 元;Rust 1.37.0 发布 | 极客头条...
- photoshop的页面制作练习2
- OKR组织敏捷目标和绩效管理第二课 O、KR和案例讲解
- HDFS 透明加密使用、Keystore和Hadoop KMS、加密区域、透明加密关键概念和架构、KMS配置
- LTspice绘制方波
- [转载]GIS派系大解密(转)_拔剑-浆糊的传说_新浪博客
- C99 designator ‘name’ outside aggregate initializer
- SAP MM06物料删除
- 你还记得当年上课天天玩 JAVA游戏吗
- 彻底清除SMSS.EXE病毒