最全python爬虫库安装详解
目录
一、请求库的安装
1.requests 的安装
2.Selenium的安装
3.ChromeDrive 的安装
4.GeckoDriver 的安装
5.PhantomJS 的安装
6.aiohttp 的安装
二、解析库的安装
1.lxml 的安装
2.Beautiful Soup 的安装
3.pyquery 的安装
4.tesserocr 的安装
一、请求库的安装
1、requests 的安装
1. 相关链接
- GitHub:https://github.com/requests/requests
- PyPI:requests · PyPI
- 官方文档:http://www.python-requests.org
- 中文文档:http://docs.python-requests.org/zh_CN/latest
2 . pip 安装
pip install requests
2、Selenium的安装
1.相关链接
- 官方网站:https://www.seleniumhq.org
- GitHub: selenium/py at trunk · SeleniumHQ/selenium · GitHub
- PyPI: https://pypi.python.org/pypi/selenium
- 官方文梢:https://selenium-python.readthedocs.io
- 中文文档:Selenium with Python中文翻译文档 — Selenium-Python中文文档 2 documentation
2.pip 安装
pip install selenium
3、ChromeDrive 的安装
前面我们成功安装好了Selenium库,但是他是一个自动化测试工具,需要浏览器来配合使用。
首先,下载 hrome 浏览器。
随后安装 ChromeDriver 因为只有安装 ChromeDriver ,才能驱动 Chrome 浏览器完成相应的操作 下面我们来介绍下怎样安装 ChromeDriver。
- 官方网站: https://sites.google.com/a/chromium.org/chrome.ver
- 下载地址 :https://chromedriver.storage.googleapis.com/index.html
2.准备工作
4. 下载 ChromeDriver
打开 ChromeDriver 的官方网站,可以看到最新版本为 96.04664.18 ,其支持的 Chrome 浏览器版本为 96.04664
5.环境变量配置
6. 验证安装
随后再在程序中测 Python 代码:
from selenium import webdriver
browser = webdriver.Chrome()
返回:
运行之后 如果弹出一个空Chrome 浏览器,则证明所有的配置都没有问题。如果没有弹出,
4.GeckoDriver 的安装
上面,我们了解了ChromeDriver的配置方法,配置完成后可以用Selenium驱动Chrome浏览器做对应的网页抓取。
那么对应Firefox来说,也可以用同样的方式完成Selenium的对接,这时需要安装另一个驱动GeckoDriver,接下来我们接受一下它的安装过程。
- GitHub: GitHub - mozilla/geckodriver: WebDriver for Firefox
- 下载地址: Releases · mozilla/geckodriver · GitHub
2. 准备工作
确保已经正确安装了Firefox浏览器并且能正常运行。
3.下载 GeckoDriver
在GitHub 上找 GeckoDriver 的发行版,并找到最新版的,如下是0.30
因我的电脑是win10,64位的所以下载如图的
4. 环境变量配置
geckodriver
返回如下,则证明安装成功且配置正确
from selenium import webdriver
browser = webdriver.Firefox()
返回,不知为啥这次pycharm里运行会报错,于是我用了Anaconda运行
5.PhantomJS 的安装
- 官方网站: PhantomJS - Scriptable Headless Browser
- 官方文梢:Quick Start with PhantomJS
- 下载地址1: Download PhantomJS
- 下载地址2:
- API 接门说明:Command Line Interface | PhantomJS
from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get('https://www.baidu.com')
print(browser.current_url)
如果返回如下,则说明selenium版本过高,需要安装低版本的,因为最新版已经放弃了phantomjs
1.先把selenium卸载,代码如下:
pip uninstall selenium
2.安装selenium==2.48.0版本的,代码如下:
pip install selenium==2.48.0
完美运行成功!!!!!
返回:
6.aiohttp 的安装
- 官方文档: Welcome to AIOHTTP — aiohttp 3.8.1 documentation
- GitHub: GitHub - aio-libs/aiohttp: Asynchronous HTTP client/server framework for asyncio and Python
- PyPI: aiohttp · PyPI
2. pip 安装
pip install aiohttp
pip install cchardet aiodns
二、解析库的安装
1、lxml 的安装
- 官方网站:lxml - Processing XML and HTML with Python
- GitHub: https://github.com/lxml/lxml
- PyPI: https://pypi.org/pyp/lxml
pip install lxml
#或
pip3 install lxml
pip install lxml 3.8.0-cp36-cp36m-win_amd64 .whl
#或
pip3 install lxml 3.8.0-cp36-cp36m-win_amd64 .whl
如果没有错误报出,则证明库已经安装好了
2.Beautiful Soup 的安装
- 官方文档:Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation
- 中文文档:Beautiful Soup 4.4.0 文档 — Beautiful Soup 4.2.0 documentation
- PyPI: beautifulsoup4 · PyPI
pip install beautifulsoup4
#或
pip3 install beautifulsoup4
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)
运行结果如下:
运行一致,则证明安装成功。
3.pyquery 的安装
- GitHub: GitHub - gawel/pyquery: A jquery-like library for python
- PyPI : pyquery · PyPI
- 官方文档:pyquery: a jquery-like library for python — pyquery 1.3.x documentation
pip install pyquery
#或
pip3 install pyquery
pip install pyquery-1.2.17-py2.py3-none-any.whl
#或
pip3 install pyquery-1.2.17-py2.py3-none-any.whl
import pyquery
运行结果如下:
运行没有报错,则证明安装成功。
4.tesserocr 的安装
1.OCR
- tesserocr GitHub: GitHub - sirfz/tesserocr: A Python wrapper for the tesseract-ocr API
- tesserocr Py PI: tesserocr · PyPI
- tesserac 下载地址:Index of /tesseract
- tesserac GitHub :https://github.com/tesseract-ocr/tesseract
- tesserac 语言包 :https://github.com/tesseract-ocr/tessdata
- tesseract 文档: Manual Pages | tessdoc
下载完成后双击, 好像没有中文版的
然后一直点 next 和 i agree 就行,直到
pip install tesserocr pillow
#或
pip3 install tesserocr pillow
4.验证安装
打开照片所在文件夹,按住 shift 击右键 打开 powershell窗口 输入下面命令:
tesseract image.png stdout -l eng
得到结果:
然后,我们看一下在python中如何演示:
首先,现安装库
pip install pytesseract
如何想要在python中使用 pytesseract 库,则需要先添加 tesseract 的环境变量
1.将tesseract.exe添加到环境变量PATH中
我的电脑——右键——属性——高级系统设置——环境变量——将 tesseract.exe 所在的文件夹的路径添加到 path 中
2. 修改pytesseract.py文件,指定tesseract.exe安装路径
然后打开它
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd=r'D:\Tesseract-OCR\tesseract.exe'
image=Image.open('D:\桌面\python\jupyter\image.png')#所要识别的图片的位置
#默认是英文,如果是英文就不需更改
text=pytesseract.image_to_string(image)
#默认是英文,如果是中文,要将语言改成中文。
# text=pytesseract.image_to_string(image,lang='chi_sim')
print(text)
返回:
库,先安装到这里,后面还有很多很多,等我慢慢补充,嘿嘿!!!
最全python爬虫库安装详解相关推荐
- python random库安装,详解python第三方库的安装、PyInstaller库、random库
python第三方库的安装 PyInstaller库 PyInstaller库能够在不同操作系统下将python源文件打包,变成直接可运行的可执行文件. 可以通过-F参数对python源文件生成一个独 ...
- python爬虫入门实例-Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 要求是把你所在城市过去一年的历史数据爬出来. 分析网站 我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有 ...
- python编程入门与案例详解-Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...
- Python爬虫JS解密详解,学会直接破解80%的网站(一)!!!
文章目录 1.网页查看 2.有道翻译简单实现源码 3.JS解密(详解) 4.python实现JS解密后的完整代码 4.1.实现效果 5.JS解密后完整代码升级版 5.1.实现效果 CSDN独家福利降临 ...
- Python标准库time详解
Python标准库time详解 1.time库 时间戳(timestamp)的方式:通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量 结构化时间(struct_time ...
- Python 之 新手安装详解 、安装目录说明 及 修改pip默认包安装位置
写在前面 之前一直是搞底层相关的东西,目前,需要研究一下Python,特此记录! 下载 首先需要说明的是,Python 是开源跨平台的,不同系统下的安装区别较大.Python最新源码.安装包, ...
- python爬虫之pyquary详解
PyQuery是Python中一个强大的Web解析库,它能够将HTML页面通过CSS选择器来进行解析,十分方便实用.本文将详细介绍使用PyQuery实现Python爬虫的方法,包括PyQuery的安装 ...
- python爬虫urllib模块详解
1.urllib模块简介 python2有urllib和urllib2两种模块,都用来实现网络请求的发送.python3将urllib和urllib2模块整合并命名为urllib模块.urllib模块 ...
- Python爬虫教程之——详解http请求头中的User-agent与Referer
** 重要提示: 本文已迁移至我的个人博客:https://ericnth.cn/essay/2020/04/python-spider-ua-referer/,请前往此链接访问以获得最新的内容,以及 ...
最新文章
- 业界首个!华为联合中国信通院等发布《网络体系强基展望白皮书》
- Knative 基于流量的灰度发布和自动弹性实践
- 【项目管理】ITTO-相关方管理
- redis之(十一)redis实现缓存的功能
- partition by 函数
- 供应商寄售库存管理_【论文解读】物流联合外包下库存管理模式对供应链运作的影响...
- 使用Jenkins,GitHub和Docker的最先进的持续集成和部署管道
- Alpha 冲刺 (1/10)
- 沃尔玛宣布与TikTok达成直播带货合作?
- CSS基础part1
- 程序员的数学【概率论】
- html做出文字凹凸效果,css3怎么实现字体凹陷凸出效果?(附代码)
- Spring Boot 接入 Dubbo 指导文档
- 利用nginx实现内网地图瓦片代理
- R语言 在R中实现vlookup的功能
- 最新最快的HTTP代理服务器,国内外HTTP代理服务器,游戏代理服务器,Q代理服务器,代理IP...
- SQL Server认证培训与考试
- 目前ipad协议和安卓协议能实现微信百分之90功能 扫码进群 注册 阅读 关注支付功能等都能实现吗?ipad协议源码
- Unable to determine the relationship represented by navigation ‘XXX‘ of type ‘XXX‘.
- thingsboard 编译及分析