Python3爬虫环境配置——解析库安装(附tesserocr安装方法)

抓取网页代码后,第二步就是提取信息,为了方便程序设计,这里不采用繁琐的正则提取,利用社区里强大的Python解析库,如lxml、Beautiful Soup、pyquery等。此外,还有非常强大的解析方法,如XPath解析和CSS选择器解析,可以高效便捷地提取网页信息。

一、常用库

常用的解析库参见上文列举,安装常用解析库的方式同社区其他三方库,可以使用pip、wheel、conda等方式进行安装。以pip为例,可以在终端(命令提示符)执行如下命令安装:

pip install lxml

pip install beautifulsoup4

pip install pyquery

安装后可以写一个导入包的程序进行验证是否安装成功,如针对Beautiful Soup进行验证的代码如下:

from bs4 import BeautifulSoup

soup = BeautifulSoup('

Hello

',lxml)

print(soup.p.string)

如果输出Hello证明安装成功。

lxml和Beautiful Soup都是针对HTML和xml进行解析的解析库。lxml支持XPath解析方式,解析效率高。而Beautiful Soup拥有丰富的API和多样的解析方式。而pyquery提供了和jQuery类似的语法解析HTML文档,支持CSS选择器,使用方便。

二、OCR库的安装

在爬虫过程中,不可避免地需要进行验证码验证,大多是图形验证码,可以使用OCR直接识别,常用库为tesserocr。

tesserocr是Python的一个OCR识别库,但本质上是针对tesseract的一层Python API封装,所以在安装tesserocr之前需要首先安装tesseract,下载地址为:https://digi.bib.uni-mannheim.de/tesseract/ 可以看到各种版本的tesseract,如下图:tesseract-OCR版本

其中,名字里带dev的是开发版,下载时可以选择不带dev的稳定版。

接下来,就可以安装tesserocr了。同样以pip为例,如下命令:

pip install tesserocr pillow

安装tesserocr时可能会遇到这种情况:缺少运行库提示

这是因为缺少了其运行时所需的microsoft visual c++ 14.0支持库(我在安装时就出现了这种情况,获取相关支持库关注公众号回复Error01) 上述方式有一定几率失败,而且要安装较大的软件,虽然对于我推广号有帮助,但不建议大家使用。

关于tesserocr的安装,由于我使用的是Anaconda环境,在这个环境下成功安装了。分享一下详细的安装过程。

①首先你得安装Anaconda3,可以自行百度。

②最新版本的Windows平台Anaconda3不需要创建Python环境什么的,但是据网上经验看,有些版本需要创建环境,可以使用如下命令:

安装Python3.7:

conda install -c anaconda python=3.7.3

创建Python环境:

conda create -n aspider_project python=3.7.3

activate aspider_project

deactivate

创建之后就可以安装tesserocr库了,但是国外的镜像安装比较慢,可以使用国内的镜像,如清华的镜像,使用如下命令增加镜像:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main

conda config --set show_channel_urls yes

如果以后要删除的话,可以使用如下命令:

conda config --remove-key channels

之后就可以安装了:

conda install -c simonflueckiger tesserocr Pillow

conda list #查看已安装的库

其他应用推荐一篇博文:https://blog.csdn.net/qq_40803626/article/details/89646828​blog.csdn.net

关注公众号“数据摸鱼”,获取更多Python、数据分析等资源。

python3.6爬虫环境安装要多少内存_Python3爬虫环境配置——解析库安装(附tesserocr安装方法)...相关推荐

  1. python mysql教程视频_第四课:MySQL环境安装-(崔庆才_Python3爬虫入门到精通课程视频 34课)总结...

    输入localhost密码123456 Linux下安装mysql 命令输入Sudo su接着sudo apt-get install mysql-server mysql-client 安装设置密码 ...

  2. python安装没有pip选项_python-3.x – 在ubuntu上没有pip的python安装

    我需要在一个自定义Docker容器中安装一个Python包,我正在使用官方的'ubuntu'Docker映像构建,所以我想最小化它使用的空间. Python3安装正常并运行,但由于某种原因,不包括pi ...

  3. dpf linux安装db2_值得一看!数据库及Mysql入门,附详细安装教程

    #什么是数据 用来描述事物的符号记录.可以是数字.文字.图形等,有多种形式,经过数字化之后存入计算机 #什么是数据库 数据库(Database)就是一个用来存放数据库的仓库,是按照一定的数据结构来组织 ...

  4. python入门--安装eclipse并配置PyDev插件(附Anaconda安装教程)

    我的eclipse又双叒叕出问题了,于是下定决心重新安装一下.重新安装的动力来自于我又可以写博客了,开个玩笑,其实是要交实验报告了和结课论文了,离开了eclipse简直没法活,好了废话不多说,下面直接 ...

  5. 删除薛定谔安装文件夹后导致无法卸载或重新安装解决方案(附正常卸载方法)

    https://www.schrodinger.com/kb/1757 参考官方的说明 下载官方工具 https://content.schrodinger.com/regcurezip/Schrod ...

  6. Ubuntu 10.10安装配置指南Ubuntu 11.10 图形安装教程

    Ubuntu 11.10 (Oneiric Ocelot )图形(图解)安装教程.基本设置.网络设置.软件源.语言与输入法.硬件驱动.Unity.Gnome3.Ubuntu文档.制作USB Live. ...

  7. 02Hadoop安装教程_单机、伪分布式配置

    02 Hadoop2.7 安装教程_单机.伪分布式配置 文章目录 **02** Hadoop2.7 安装教程_单机.伪分布式配置 **1.hadoop基础知识** 1.1 hadoop是什么? 1.2 ...

  8. 【Android 逆向】修改运行中的 Android 进程的内存数据 ( 运行环境搭建 Android 模拟器安装 | 拷贝 Android 平台可执行文件和动态库到 /data/system )

    文章目录 一.运行环境搭建 Android 模拟器安装 二.拷贝 Android 平台可执行文件和动态库到 /data/system 目录下 一.运行环境搭建 Android 模拟器安装 使用低版本的 ...

  9. python3 selenium安装教程_Python3爬虫利器之Selenium的安装

    Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击.下拉等操作.对于一些JavaScript渲染的页面来说,这种抓取方式非常有效.下面我们来看看Selenium的安装 ...

最新文章

  1. 【Linux】ubuntu下词典软件Goldendict介绍(可屏幕取词)和StarDict(星际译王)的安装...
  2. Ladda – 把加载提示效果集成到按钮中,提升用户体验
  3. Effective Objective-C 2.0 编写高质量iOS与OS X代码的52个有效方法笔记-协议与分类...
  4. Solarized ----vim配色方案
  5. ecshop flow.php goods_number,修复ECSHOP一重要BUG,当商品设置数量优惠时,加入不同属性的商品数量优惠判断错误...
  6. Win10微软帐户切换不回Administrator本地帐户的解决方法【亲测】
  7. 第一段VBA脚本留念
  8. 关于ashx的基本应用
  9. 1015 德才论 (25 分)—PAT (Basic Level) Practice (中文)
  10. AcWing 166. 数独
  11. 02 | 给你一张知识地图,计算机组成原理应该这么学
  12. 17讲项目实战签证页面
  13. WinServer-the security database on the server does not have a computer account for
  14. 使用Python合并Excel文件
  15. Micheal Collins nlp课程笔记(二)Tagging Problems and Hidden Markov Models
  16. Excel文件损坏打不开的常见原因及解决方法
  17. Ubuntu LTS 18.04 双硬盘双系统安装以个人优化
  18. 背包问题——01背包
  19. 【Python】Windows下安装scipy库步骤
  20. 代理服务器有什么作用

热门文章

  1. 10个问题看透Transformer
  2. 找论文太难?试试这款「文本生成」论文搜索工具
  3. 提高图形匹配精度,亮风台提出「完全可训练」的图匹配方法|CVPR 2020 Oral
  4. PyTorch如何构建和实验神经网络
  5. 从零开始一起学习SLAM | 掌握g2o顶点编程套路
  6. 如何保证工业相机工作的精准与稳定?
  7. 3D 视觉 相关知识-SLAM框架-常见方案对比
  8. 《30天吃掉那只 TensorFlow2.0 》(附下载)
  9. 第十一篇:Discourse 话语/论述
  10. 【Unity_UWP】Unity 工程发布win10 UWP 时的本地文件读取 (上篇)