欲善其事必先利其器

提起爬虫我们首先就会想到python,虽然其他的语言也可以做出爬虫,但是都没有python方便,python有许多第三方库可以为我们所用,所以我们会以python的角度学习爬虫。

这里介绍的是Windows下的安装过程

目录

1、Python3的安装 2、请求库的安装

3、解析库的安装 4、OCR 识别库

Python3的安装

既然要用python开发那么第一步肯定要安装好python环境。

官方网站:http://python.org

下载地址:http://www.python.org/downloads

官方文档:http://docs.python.org/3

直接在官方网站下载python3的安装包,当前最新的版本是3.8.1,小编用的是3.7.3,这里就以3.7.3为例(其他版本的也一样)

点击下载就好了

pip选项记得点上,这个是帮助我们下载第三方库的工具

Add Python to environment variables选项选上,它可以自主的将python加入环境变量中,省去了我们手动操作

安装完成后,按Win+R运行cmd命令在命令行输入python

如果出现了这些就说明你的python安装完成了。

2、请求库的安装

2.1、requests的安装 2.2、selenium的安装

2.3、ChromeDriver的安装

常用的请求库有requests、selenium


  • 2.1、 requests的安装

requests属于第三方库,python不会自带这个库,就需要我们手动安装。

相关连接:

PyPI:https://pypi.python.org/pypi/requests

官方文档:http://www.python-requests.org

中文文档:http://docs.python-requests.org/zh_CN/latest

1、pip安装

在安装的时候我们还安装了一个pip的第三方库的下载工具还记得吗

在命令界面输入:pip install requests

即可完成requests库的安装(因为pip链接的是国外的源所以会比较的慢,建议加个国内的源就会快很多,安装python库都可以加这个源)

这里用的是豆瓣源:

pip install -i https://pypi.douban.com/simple/ requests

这是最简单是安装方式

2、wheel安装

Wheel是python的一种安装包,其后缀为.whl,在无法用pip直接下载的时候可以选择下载wheel文件再安装,再用pip命令加文件铭安装即可。

在这之前要安装wheel库

pip install wheel

然后到pypi下载对应wheel文件

在wheel文件下进入命令行(只需要文件路径的命令行输入cmd’即可)

pip install requests-2.22.0-py2.py3-none-any.whl

这样也可以完成安装

  • 2.2、Selenium的安装

Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。对于一些JavaScript渲染的界面来说,这种抓取非常有效,可以避过很多反爬机制。

相关连接:

官方网站:http://www.seleniumhq.org

Pypi:https://pypi.python.org/pypi/selenium

官方文档:http://selenium-python.readthedocs.io

中文文档:http://selenium-python-zh.readthedocs.io

推荐直接用pip安装即可:

pip install selenium

  • 2.3、ChromeDriver的安装

前面我们安装好了Selenium,但它只是一个自动化测试工具,还需要配合浏览器一起使用。

推荐使用谷歌浏览器,至于下载这里就不再赘述了,有很多方法。

之后安装ChromeDriver。只有安装了ChromeDriver才能驱动Chrome。

相关连接:
下载地址:http://npm.taobao.org/mirrors/chromedriver/

ChromeDriver要与Chrome的版本相对应

建议把chromedriver.exe文件加入到python的Scripts目录下;也可以将其单独配置到环境变量

3、解析库的安装

3.1、lxml的安装 3.2、pyquery的安装


3.1、lxml的安装

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据(xpath就是这个库的一个功能)

相关连接:

官方网站:http://lxml.de

Pypi: https://pypi.python.org/pypi/lxml

推荐直接用pip安装即可:

pip install lxml

如果有问题的话就用wheel安装,链接为:https://pypi.org/project/lxml/#files

下载后进入文件所在目录运行:

pip install lxml-4.4.2-cp27m-win_amd64.whl

  • 3.2、pyquery的安装

类似于jquery的python库,支持css选择器

官方文档:http://pyquery.readthedocs.io

Pypi:https://pypi.python.org/pyquery

推荐pip安装:

pip install pyquery

也可以用wheel安装

4、OCR 识别库

  • Tesserocr的安装

tesserocr 是 Python 的一个 OCR 识别库,但其实是对 tesseract做的一层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract

相关链接:

Tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract

Tesserocr pypi: https://pypi.python.org/pypi/tesserocr

Tesseract的安装

名字中带有dev的为开发版本,不带dev的为稳定版,推荐下稳定版

勾选Addition language data(download),安装OCR支持的语言包,这样OCR就可以识别多国语言,之后一直点Next即可,安装过程中会出项很多语言包无法下载,可以直接忽略,不影响正常使用。

之后再安装tesserocr

pip install tesserocr pillow

python3 爬虫 requests安装_爬虫开发环境部署相关推荐

  1. Python开发环境部署详细教程,附上免费Python开发平台

    Python开发环境部署详细教程来啦!本文将带大家搭建一个Python虚拟环境和基于网页的用于交互计算的应用程序Jupyter Notebook. 如果这么简单的部署教程你还是学不会,没关系,在文章末 ...

  2. Python基础知识(Python的简介、Python环境的安装、集成开发环境Pycharm的安装)

    1.Python的简介 python是跨平台的计算机语言.解释型语言.交互式语言.面向对象语言.初学者最好学的语言 什么是跨平台:意思就是说可以在很多操作系统中执行.比如:可以在windows操作系统 ...

  3. linux python2.7安装教程_Linux中RedHat下安装Python2.7开发环境的详细教程-学派吧-

    这篇文章主要为大家详细介绍了Linux RedHat下安装Python2.7.pip.ipython环境.eclipse和PyDev环境,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 Linux ...

  4. Windows下安装Object C开发环境,及Hello Word(转)

    Windows下安装Object C开发环境,及Hello Word 最近想学习iphone开发,但是由于没有c基础,只有java基础.所以先从基础学习,首先是搭建环境,目前手头没有mac机子,只能先 ...

  5. 微软发布 VS Code Java 安装程序,一键安装所有 Java 开发环境

    北京时间 2019 年 6 月 14 日 ,微软发布了 VS Code Java 安装程序,方便开发者能一键安装所有 Java 开发环境. 几乎是在三年前,在微软苏黎世办公室的编程马拉松中,来自 Re ...

  6. linux python2.7安装教程_Linux RedHat下安装Python2.7开发环境

    Linux RedHat下安装Python2.7.pip.ipython环境.eclipse和PyDev环境 准备工作,源Python2.6备份: 根据which python具体目录而定,进行备份 ...

  7. 在 Windows10 系统中安装 Homestead 本地开发环境

    在 windows10 系统中安装 homestead 本地开发环境 在 windows10 环境下安装 homestead 开发环境,网上有很多相关教程其中大多都是 mac 环境,很多大神都是用户的 ...

  8. Ubuntu安装以太坊开发环境

    Ubuntu安装以太坊开发环境 摘要 版本说明 介绍 开发环境的搭建 搭建以太坊 安装Nodejs 安装Solidity 安装Truffle 示例程序的运行 以太坊运行 Truffle框架的使用 Tr ...

  9. Windows安装Go语言开发环境+配置

    Go 是一个开源的编程语言,它能让构造简单.可靠且高效的软件变得容易. 今天我们就来简单的介绍下Windows下安装go语言开发环境的简单的教程和一些配置,我想对于刚刚入手的小伙伴来说,这个教程还是很 ...

最新文章

  1. 继续转 [转]php版本的cron定时任务执行器
  2. 递归与递推 普通排队问题及带约束条件的排队问题 c代码
  3. Linux命令(8):headtail命令
  4. Gradle方式构建Java多项目
  5. 如何在Vue项目中使用vw实现移动端适配
  6. openstack-KVM-vCPU
  7. RGB转HDMI模块解决方案
  8. Python实现B站MP4格式音频与视频的合并!超详细的教程!
  9. 计算机负数是取反加1,负数补码是取反加一,但-42取反后末位是1,如何加1?
  10. android自动亮度流程,Android 如何实现亮度自动调节
  11. hp打印机一直显示正在打印中_打印机显示正在打印却没反应 - 卡饭网
  12. 程序员怎样更优雅的接私活赚外快
  13. Oracle公司中文翻译为“甲骨文”的来源是什么?
  14. 科学防雷接地和雷电防护方案
  15. 【转】则表达式匹配居民身份证
  16. 金蝶k3单据编码规则_编码规则
  17. 硬盘的主流技术,最新的硬盘技术
  18. 博客园博客Wiz测试
  19. 华硕电脑黑屏 怎么按都开不了机解决方法
  20. 无线网络的应用——无人机蜂群

热门文章

  1. 【Leetcode】二叉树展开为列表(递归思想)
  2. 学长毕业日记 :本科毕业论文写成博士论文的神操作20170404
  3. mysql 全表连接_MySQL学习—多表查询(内连接,外链接,全连接)
  4. 解析C/C++的预处理指令
  5. asp.net中此页的状态信息无效,可能已损坏的解决之道
  6. conversion to dalvik format failed with error 1 解决
  7. 使用bash上传项目到osc@git上
  8. 程序员面试系列——选择排序
  9. web前后台数据交互
  10. C++ 十进制转其他进制