Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式。

1. 相关链接

  • 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc

  • 中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh

  • PyPI:https://pypi.python.org/pypi/beautifulsoup4

2. 准备工作

Beautiful Soup的HTML和XML解析器是依赖于lxml库的,所以在此之前请确保已经成功安装好了lxml库,具体的安装方式参见上节。

3. pip安装

目前,Beautiful Soup的最新版本是4.x版本,之前的版本已经停止开发了。这里推荐使用pip来安装,安装命令如下:

pip3 install beautifulsoup4

命令执行完毕之后即可完成安装。

4. wheel安装

当然,我们也可以从PyPI下载wheel文件安装,链接如下:https://pypi.python.org/pypi/beautifulsoup4

然后使用pip安装wheel文件即可。

5. 验证安装

安装完成之后,可以运行下面的代码验证一下:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)

运行结果如下:

Hello

如果运行结果一致,则证明安装成功。

注意,这里我们虽然安装的是beautifulsoup4这个包,但是在引入的时候却是bs4。这是因为这个包源代码本身的库文件夹名称就是bs4,所以安装完成之后,这个库文件夹就被移入到本机Python3的lib库里,所以识别到的库文件名就叫作bs4。

因此,包本身的名称和我们使用时导入的包的名称并不一定是一致的。

来源:华为云社区  作者:崔庆才丨静觅

【Python3网络爬虫开发实战】1.3.2-Beautiful Soup的安装相关推荐

  1. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

  2. 【Python3网络爬虫开发实战】3-基本库的使用 1.2-处理异常

    前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的. urllib的error模块定义 ...

  3. 《Python3网络爬虫开发实战(第二版)》上市了!!!!

    " 阅读本文大概需要 5 分钟. " 告诉大家一个好消息:我的好朋友崔庆才老师的<Python3网络爬虫开发实战(第二版)>现在正式上市了!!!! 没错,就是这本: 就 ...

  4. python3网络爬虫代码_《Python3网络爬虫开发实战代码》

    <Python3网络爬虫开发实战代码>\appium\.git\COMMIT_EDITMSG, 7 , 2017-08-15 <Python3网络爬虫开发实战代码>\appiu ...

  5. 【Python3网络爬虫开发实战】4-解析库的使用-3 使用pyquery

    在上一节中,我们介绍了Beautiful Soup的用法,它是一个非常强大的网页解析库,你是否觉得它的一些方法用起来有点不适应?有没有觉得它的CSS选择器的功能没有那么强大? 如果你对Web有所涉及, ...

  6. 【Python3网络爬虫开发实战】 1.7-App爬取相关库的安装

    [摘要] 除了Web网页,爬虫也可以抓取App的数据.App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的.由于App没有浏览器这种可以比较直观地看到后台请求的工具 ...

  7. 《崔庆才Python3网络爬虫开发实战教程》学习笔记(3):抓取猫眼电影榜单TOP100电影,并存入Excel表格

    本篇博文是自己在学习崔庆才的<Python3网络爬虫开发实战教程>的学习笔记系列,如果你也要这套视频教程的话,关注我公众号[小众技术],关注后回复[PYTHON],无套路免费送你一个学习大 ...

  8. 《崔庆才Python3网络爬虫开发实战教程》学习笔记(5):将爬虫爬取到的数据存储到TXT,Word,Excel,Json等文件中

    本篇博文是自己在学习崔庆才的<Python3网络爬虫开发实战教程>的学习笔记系列,此套教程共5章,加起来共有34节课,内容非常详细丰富!如果你也要这套视频教程的话,关注我公众号[小众技术] ...

  9. 《Python3网络爬虫开发实战(第二版)》内容介绍

    这是「进击的Coder」的第 505 篇分享 作者:崔庆才 大家好,本节首先来预告下即将出版的<Python3网络爬虫开发实战(第二版)>的主要内容. 由于我已经把书的总体的内容介绍写在了 ...

最新文章

  1. delphi 10 seattle 中 解决IOS 9 限制使用HTTP 服务问题
  2. Facebook更名“元宇宙”遭质疑,外媒提出三大现实问题
  3. 弹出并点击弹框关闭 自定义toast_关于别名配置使用弹框交互应用的思考
  4. 软件的极简主义的三个大敌:配置文件,冗余的参数,和大量复杂的接口。
  5. vue实现消息badge 标记_Vue $mount实战之实现消息弹窗组件
  6. Ruby eventmachine install
  7. python+Treelite:Sklearn树模型训练迁移到c、java部署
  8. 信息学奥赛一本通C++语言-----1142:单词的长度
  9. 【Java】为什么不推荐程序员去外包公司?
  10. Framework篇 - PackageManagerService 启动分析
  11. Java+Swing+MySQL机票预订和管理系统
  12. mysql 查询每个科目分数大于80
  13. Leetcode 143 链表对折
  14. 一个前端的MONGO救赎--1
  15. AVI 文件格式分析
  16. mysql打开注册表命令_怎么打开注册表文件?
  17. linux 服务器端listen(5)
  18. halcon学习拓展系列—《halcon精髓之坐标系仿射篇》
  19. 论文中插入mathtype出现行间距不一致的问题
  20. Windows窃取U盘数据

热门文章

  1. . mybatis指定配置文件的根元素_MyBatis框架
  2. PX4编译文件 Makefile 剖析
  3. 1网络编程OSI协议
  4. Visual studio docker build no such file or directory
  5. 记录平时发现的一些小知识点
  6. 有时间了要研究一下Stack Exchange的开源项目
  7. IIS之Web服务器
  8. 基本BASH SHELL脚本命令——Linux系统管理命令-检测程序、检测磁盘空间
  9. android 属性动画还原,属性动画和补间动画
  10. python下表运算_python科学计算_numpy_广播与下标