【Python3网络爬虫开发实战】1.3.2-Beautiful Soup的安装
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式。
1. 相关链接
官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc
中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh
PyPI:https://pypi.python.org/pypi/beautifulsoup4
2. 准备工作
Beautiful Soup的HTML和XML解析器是依赖于lxml库的,所以在此之前请确保已经成功安装好了lxml库,具体的安装方式参见上节。
3. pip安装
目前,Beautiful Soup的最新版本是4.x版本,之前的版本已经停止开发了。这里推荐使用pip来安装,安装命令如下:
pip3 install beautifulsoup4
命令执行完毕之后即可完成安装。
4. wheel安装
当然,我们也可以从PyPI下载wheel文件安装,链接如下:https://pypi.python.org/pypi/beautifulsoup4
然后使用pip安装wheel文件即可。
5. 验证安装
安装完成之后,可以运行下面的代码验证一下:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)
运行结果如下:
Hello
如果运行结果一致,则证明安装成功。
注意,这里我们虽然安装的是beautifulsoup4这个包,但是在引入的时候却是bs4。这是因为这个包源代码本身的库文件夹名称就是bs4,所以安装完成之后,这个库文件夹就被移入到本机Python3的lib库里,所以识别到的库文件名就叫作bs4。
因此,包本身的名称和我们使用时导入的包的名称并不一定是一致的。
来源:华为云社区 作者:崔庆才丨静觅
【Python3网络爬虫开发实战】1.3.2-Beautiful Soup的安装相关推荐
- [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...
- 【Python3网络爬虫开发实战】3-基本库的使用 1.2-处理异常
前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的. urllib的error模块定义 ...
- 《Python3网络爬虫开发实战(第二版)》上市了!!!!
" 阅读本文大概需要 5 分钟. " 告诉大家一个好消息:我的好朋友崔庆才老师的<Python3网络爬虫开发实战(第二版)>现在正式上市了!!!! 没错,就是这本: 就 ...
- python3网络爬虫代码_《Python3网络爬虫开发实战代码》
<Python3网络爬虫开发实战代码>\appium\.git\COMMIT_EDITMSG, 7 , 2017-08-15 <Python3网络爬虫开发实战代码>\appiu ...
- 【Python3网络爬虫开发实战】4-解析库的使用-3 使用pyquery
在上一节中,我们介绍了Beautiful Soup的用法,它是一个非常强大的网页解析库,你是否觉得它的一些方法用起来有点不适应?有没有觉得它的CSS选择器的功能没有那么强大? 如果你对Web有所涉及, ...
- 【Python3网络爬虫开发实战】 1.7-App爬取相关库的安装
[摘要] 除了Web网页,爬虫也可以抓取App的数据.App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的.由于App没有浏览器这种可以比较直观地看到后台请求的工具 ...
- 《崔庆才Python3网络爬虫开发实战教程》学习笔记(3):抓取猫眼电影榜单TOP100电影,并存入Excel表格
本篇博文是自己在学习崔庆才的<Python3网络爬虫开发实战教程>的学习笔记系列,如果你也要这套视频教程的话,关注我公众号[小众技术],关注后回复[PYTHON],无套路免费送你一个学习大 ...
- 《崔庆才Python3网络爬虫开发实战教程》学习笔记(5):将爬虫爬取到的数据存储到TXT,Word,Excel,Json等文件中
本篇博文是自己在学习崔庆才的<Python3网络爬虫开发实战教程>的学习笔记系列,此套教程共5章,加起来共有34节课,内容非常详细丰富!如果你也要这套视频教程的话,关注我公众号[小众技术] ...
- 《Python3网络爬虫开发实战(第二版)》内容介绍
这是「进击的Coder」的第 505 篇分享 作者:崔庆才 大家好,本节首先来预告下即将出版的<Python3网络爬虫开发实战(第二版)>的主要内容. 由于我已经把书的总体的内容介绍写在了 ...
最新文章
- delphi 10 seattle 中 解决IOS 9 限制使用HTTP 服务问题
- Facebook更名“元宇宙”遭质疑,外媒提出三大现实问题
- 弹出并点击弹框关闭 自定义toast_关于别名配置使用弹框交互应用的思考
- 软件的极简主义的三个大敌:配置文件,冗余的参数,和大量复杂的接口。
- vue实现消息badge 标记_Vue $mount实战之实现消息弹窗组件
- Ruby eventmachine install
- python+Treelite:Sklearn树模型训练迁移到c、java部署
- 信息学奥赛一本通C++语言-----1142:单词的长度
- 【Java】为什么不推荐程序员去外包公司?
- Framework篇 - PackageManagerService 启动分析
- Java+Swing+MySQL机票预订和管理系统
- mysql 查询每个科目分数大于80
- Leetcode 143 链表对折
- 一个前端的MONGO救赎--1
- AVI 文件格式分析
- mysql打开注册表命令_怎么打开注册表文件?
- linux 服务器端listen(5)
- halcon学习拓展系列—《halcon精髓之坐标系仿射篇》
- 论文中插入mathtype出现行间距不一致的问题
- Windows窃取U盘数据
热门文章
- . mybatis指定配置文件的根元素_MyBatis框架
- PX4编译文件 Makefile 剖析
- 1网络编程OSI协议
- Visual studio docker build no such file or directory
- 记录平时发现的一些小知识点
- 有时间了要研究一下Stack Exchange的开源项目
- IIS之Web服务器
- 基本BASH SHELL脚本命令——Linux系统管理命令-检测程序、检测磁盘空间
- android 属性动画还原,属性动画和补间动画
- python下表运算_python科学计算_numpy_广播与下标