python3 爬虫 requests安装_爬虫开发环境部署
欲善其事必先利其器
提起爬虫我们首先就会想到python,虽然其他的语言也可以做出爬虫,但是都没有python方便,python有许多第三方库可以为我们所用,所以我们会以python的角度学习爬虫。
这里介绍的是Windows下的安装过程
目录
1、Python3的安装 2、请求库的安装
3、解析库的安装 4、OCR 识别库
Python3的安装
既然要用python开发那么第一步肯定要安装好python环境。
官方网站:http://python.org
下载地址:http://www.python.org/downloads
官方文档:http://docs.python.org/3
直接在官方网站下载python3的安装包,当前最新的版本是3.8.1,小编用的是3.7.3,这里就以3.7.3为例(其他版本的也一样)
点击下载就好了
pip选项记得点上,这个是帮助我们下载第三方库的工具
Add Python to environment variables选项选上,它可以自主的将python加入环境变量中,省去了我们手动操作
安装完成后,按Win+R运行cmd命令在命令行输入python
如果出现了这些就说明你的python安装完成了。
2、请求库的安装
2.1、requests的安装 2.2、selenium的安装
2.3、ChromeDriver的安装
常用的请求库有requests、selenium
- 2.1、 requests的安装
requests属于第三方库,python不会自带这个库,就需要我们手动安装。
相关连接:
PyPI:https://pypi.python.org/pypi/requests
官方文档:http://www.python-requests.org
中文文档:http://docs.python-requests.org/zh_CN/latest
1、pip安装
在安装的时候我们还安装了一个pip的第三方库的下载工具还记得吗
在命令界面输入:pip install requests
即可完成requests库的安装(因为pip链接的是国外的源所以会比较的慢,建议加个国内的源就会快很多,安装python库都可以加这个源)
这里用的是豆瓣源:
pip install -i https://pypi.douban.com/simple/ requests
这是最简单是安装方式
2、wheel安装
Wheel是python的一种安装包,其后缀为.whl,在无法用pip直接下载的时候可以选择下载wheel文件再安装,再用pip命令加文件铭安装即可。
在这之前要安装wheel库
pip install wheel
然后到pypi下载对应wheel文件
在wheel文件下进入命令行(只需要文件路径的命令行输入cmd’即可)
pip install requests-2.22.0-py2.py3-none-any.whl
这样也可以完成安装
- 2.2、Selenium的安装
Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。对于一些JavaScript渲染的界面来说,这种抓取非常有效,可以避过很多反爬机制。
相关连接:
官方网站:http://www.seleniumhq.org
Pypi:https://pypi.python.org/pypi/selenium
官方文档:http://selenium-python.readthedocs.io
中文文档:http://selenium-python-zh.readthedocs.io
推荐直接用pip安装即可:
pip install selenium
- 2.3、ChromeDriver的安装
前面我们安装好了Selenium,但它只是一个自动化测试工具,还需要配合浏览器一起使用。
推荐使用谷歌浏览器,至于下载这里就不再赘述了,有很多方法。
之后安装ChromeDriver。只有安装了ChromeDriver才能驱动Chrome。
相关连接:
下载地址:http://npm.taobao.org/mirrors/chromedriver/
ChromeDriver要与Chrome的版本相对应
建议把chromedriver.exe文件加入到python的Scripts目录下;也可以将其单独配置到环境变量
3、解析库的安装
3.1、lxml的安装 3.2、pyquery的安装
3.1、lxml的安装
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据(xpath就是这个库的一个功能)
相关连接:
官方网站:http://lxml.de
Pypi: https://pypi.python.org/pypi/lxml
推荐直接用pip安装即可:
pip install lxml
如果有问题的话就用wheel安装,链接为:https://pypi.org/project/lxml/#files
下载后进入文件所在目录运行:
pip install lxml-4.4.2-cp27m-win_amd64.whl
- 3.2、pyquery的安装
类似于jquery的python库,支持css选择器
官方文档:http://pyquery.readthedocs.io
Pypi:https://pypi.python.org/pyquery
推荐pip安装:
pip install pyquery
也可以用wheel安装
4、OCR 识别库
- Tesserocr的安装
tesserocr 是 Python 的一个 OCR 识别库,但其实是对 tesseract做的一层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract
相关链接:
Tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract
Tesserocr pypi: https://pypi.python.org/pypi/tesserocr
Tesseract的安装
名字中带有dev的为开发版本,不带dev的为稳定版,推荐下稳定版
勾选Addition language data(download),安装OCR支持的语言包,这样OCR就可以识别多国语言,之后一直点Next即可,安装过程中会出项很多语言包无法下载,可以直接忽略,不影响正常使用。
之后再安装tesserocr
pip install tesserocr pillow
python3 爬虫 requests安装_爬虫开发环境部署相关推荐
- Python开发环境部署详细教程,附上免费Python开发平台
Python开发环境部署详细教程来啦!本文将带大家搭建一个Python虚拟环境和基于网页的用于交互计算的应用程序Jupyter Notebook. 如果这么简单的部署教程你还是学不会,没关系,在文章末 ...
- Python基础知识(Python的简介、Python环境的安装、集成开发环境Pycharm的安装)
1.Python的简介 python是跨平台的计算机语言.解释型语言.交互式语言.面向对象语言.初学者最好学的语言 什么是跨平台:意思就是说可以在很多操作系统中执行.比如:可以在windows操作系统 ...
- linux python2.7安装教程_Linux中RedHat下安装Python2.7开发环境的详细教程-学派吧-
这篇文章主要为大家详细介绍了Linux RedHat下安装Python2.7.pip.ipython环境.eclipse和PyDev环境,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 Linux ...
- Windows下安装Object C开发环境,及Hello Word(转)
Windows下安装Object C开发环境,及Hello Word 最近想学习iphone开发,但是由于没有c基础,只有java基础.所以先从基础学习,首先是搭建环境,目前手头没有mac机子,只能先 ...
- 微软发布 VS Code Java 安装程序,一键安装所有 Java 开发环境
北京时间 2019 年 6 月 14 日 ,微软发布了 VS Code Java 安装程序,方便开发者能一键安装所有 Java 开发环境. 几乎是在三年前,在微软苏黎世办公室的编程马拉松中,来自 Re ...
- linux python2.7安装教程_Linux RedHat下安装Python2.7开发环境
Linux RedHat下安装Python2.7.pip.ipython环境.eclipse和PyDev环境 准备工作,源Python2.6备份: 根据which python具体目录而定,进行备份 ...
- 在 Windows10 系统中安装 Homestead 本地开发环境
在 windows10 系统中安装 homestead 本地开发环境 在 windows10 环境下安装 homestead 开发环境,网上有很多相关教程其中大多都是 mac 环境,很多大神都是用户的 ...
- Ubuntu安装以太坊开发环境
Ubuntu安装以太坊开发环境 摘要 版本说明 介绍 开发环境的搭建 搭建以太坊 安装Nodejs 安装Solidity 安装Truffle 示例程序的运行 以太坊运行 Truffle框架的使用 Tr ...
- Windows安装Go语言开发环境+配置
Go 是一个开源的编程语言,它能让构造简单.可靠且高效的软件变得容易. 今天我们就来简单的介绍下Windows下安装go语言开发环境的简单的教程和一些配置,我想对于刚刚入手的小伙伴来说,这个教程还是很 ...
最新文章
- 继续转 [转]php版本的cron定时任务执行器
- 递归与递推 普通排队问题及带约束条件的排队问题 c代码
- Linux命令(8):headtail命令
- Gradle方式构建Java多项目
- 如何在Vue项目中使用vw实现移动端适配
- openstack-KVM-vCPU
- RGB转HDMI模块解决方案
- Python实现B站MP4格式音频与视频的合并!超详细的教程!
- 计算机负数是取反加1,负数补码是取反加一,但-42取反后末位是1,如何加1?
- android自动亮度流程,Android 如何实现亮度自动调节
- hp打印机一直显示正在打印中_打印机显示正在打印却没反应 - 卡饭网
- 程序员怎样更优雅的接私活赚外快
- Oracle公司中文翻译为“甲骨文”的来源是什么?
- 科学防雷接地和雷电防护方案
- 【转】则表达式匹配居民身份证
- 金蝶k3单据编码规则_编码规则
- 硬盘的主流技术,最新的硬盘技术
- 博客园博客Wiz测试
- 华硕电脑黑屏 怎么按都开不了机解决方法
- 无线网络的应用——无人机蜂群