文 | 潮汐

来源:Python 技术「ID: pythonall」

现在的朋友们都很聪明,只要会爬虫都知道 BeautifulSoup,但是随着知识点越来越多,很多伙伴可能只知道如何使用这个爬虫工具,并不知道 BeatifulSoup 的详尽用法,今天的文章就带大家了解 BeautifulSoup 的基础详细用法。

BeautifulSoup 是什么???

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 扩展库。BeautifulSoup 通过合适的转换器实现文档导航、查找、修改文档等。它可以很好的处理不规范标记并生成剖析树(Parse Tree);它提供的导航功能(Navigating),可以简单又快速地搜索剖析树以及修改剖析树。BeautifulSoup 技术通常用来分析网页结构,抓取相应的 Web 文档,对于不规则的 HTML 文档,它提供了一定的补全功能,从而节省了开发者的时间和精力。今天的文章就一起学习 BeatifulSoup 的详细用法吧~

环境部署

安装 BeautifulSoup

BeautifulSoup 主要通过 pip 指令进行安装,在命令提示符 CMD 环境下或者在 PyCharm 的命令行窗口进行安装都可,即调用 pip install bs4 命令进行安装,bs4 即 BeautifulSoup4。

由于我本地环境已经安装了,显示如下:

没安装的小伙伴可以去直接输入命令尝试安装,如果已安装就可以直接上手实践。

当 BeautifulSoup 扩展包安装成功后,就可以在命令行输入from bs4 import BeautifulSoup 语句导入该扩展包,测试安装是否成功,如果没有异常报错即安装成功,如下所示:

BeautifulSoup 解析 HTML 获取网页信息

BeautifulSoup 解析 HTML

BeautifulSoup 解析 HTML 的原理是创建一个 BeautifulSoup 对象,然后调用 BeautifulSoup 包的 prettify() 函数格式化输出网页信息。

实例如下:

from bs4 import BeautifulSouphtml = """
<html><head><title>Hello Python</title></head><body><p>BeatifulSoup 技术详解</p></body>
</html>
"""
# 结果会按照标准的缩进格式的结构输出
soup = BeautifulSoup(html)
print(soup.prettify())

使用 BeautifulSoup 解析网页输出结果如下:

BeatifulSoup 解析会把 HTMl 网页的所有标签信息和内容按照 HTML 标签的缩进全部输出。

用 BeautifulSoup 解析 HTML 文档时,它会将 HTML 文档类似 DOM 文档树一样处理,使用 prettify() 函数输出结果时会自动补齐标签,这是 BeautifulSoup 的一个优点,即使 BeautifulSoup 得到了一个损坏的标签,它也产生一个转换 DOM 树,并尽可能和原文档内容含义一致,这种措施通常能够帮助更正确地搜集数据。

实例如下: 将一个网址输入后直接用 prettify() 函数获取

from bs4 import BeautifulSouphtml = 'https://www.baidu.com/'
# 结果会按照标准的缩进格式的结构输出
soup = BeautifulSoup(html)
print(soup.prettify())

输出内容如下:

<html><body><p>https://www.baidu.com/</p></body>
</html>

输出的内容自动补齐了标签,并按照 HTML 格式输出。

BeautifulSoup 获取网页标签信息

上面的知识讲解如何用 BeautifulSoup 解析了网页,在解析完网页之后,如果想获取某个标签的内容信息,怎么实现呢?比如获取以下超文本的 标题,接下来将教大家如何使用 BeautifulSoup 技术获取网页标签信息。获取网页标题代码如下:

from bs4 import BeautifulSoup# 获取标题
def get_title():#创建本地文件soup对象soup = BeautifulSoup(open('test.html','rb'), "html.parser")#获取标题title = soup.titleprint('标题:', title)if __name__ == '__main__':get_title()

输出内容如下:

同样的获取其他标签的内容也一样,如 HTML 的头部 a 标签

# 获取a标签内容
def get_a():#创建本地文件soup对象soup = BeautifulSoup(open('test.html','rb'), "html.parser")#获取a标签内容a = soup.aprint('a标签的内容是:', a)

输出内容如下:

a标签的内容是: <a href="https://www.baidu.com">ddd</a>

定位标签并获取内容

前面的内容简单介绍了 BeautifulSoup 获取title、a等标签,但是如何定位标签并获取到相应标签的内容呢,这里就需要使用 BeatifulSoup 的 find_all()函数,详细使用方式如下:

def get_all():soup = BeautifulSoup(open('test.html', 'rb'), "html.parser")# 从文档中找到<a>的所有标签链接for a in soup.find_all('a'):print(a)# 获取<a>的超链接for link in soup.find_all('a'):print(link.get('href'))if __name__ == '__main__':get_all()

输出内容如下:

<a href="https://www.baidu.com">ddd</a>
https://www.baidu.com
ddd

以上是关于 BeautifulSoup 如何定位标签并获取内容的方式。

总结

本文主要讲解关于 BeautifulSoup 知识点的最基础部分,下文将讲解关于 BeautifulSoup 的核心用法,咱们下期见~

参考

BeautifulSoup 官网
https://blog.csdn.net/Eastmount

PS:公号内回复「Python」即可进入Python 新手学习交流群,一起 100 天计划!

老规矩,兄弟们还记得么,右下角的 “在看” 点一下,如果感觉文章内容不错的话,记得分享朋友圈让更多的人知道!

代码获取方式】

识别文末二维码,回复:潮汐

巨细!小姐姐告诉你关于 BeautifulSoup 的一切(上)!相关推荐

  1. 成功入职字节跳动的小姐姐告诉你,Android面试吃透这一篇就没有拿不到的offer!

    文章目录 写在前面 来,发车了! 1. 战略定位:Android面试都会问些什么? 2. 运筹帷幄:我需要形成什么样的知识体系? 3. 披襟斩将:我需要掌握多少知识? 4. 锦上添花:面试过程中适用的 ...

  2. 人物专访 | 《复仇者联盟》特效工作室的小姐姐告诉你如何建立自己的工作室

    在夏威夷岛上做VFX是种怎么的体验?如何在远离伦敦.洛杉矶.温哥华这样的都市喧嚣外建立一个视觉特效工作室?今天,有着长达25年特效制作职业生涯的小姐姐Lindsay Hallett来告诉你! Lind ...

  3. 让杨超越小姐姐告诉你,计算机编程中的透明性是什么意思?

    计算机编程中的透明性是什么意思? 生活中的透明: 生活案例1.  这位美女穿的这件衣服挺透明的,可以隐约看见她的咪咪!这里的透明,指的是我们的眼睛可以穿透美女的衣服,看到美女衣服里面的敏感部位,大家都 ...

  4. 《黑寡妇》和《惊奇队长》的生产总监小姐姐告诉你降低VFX生产压力的6条原则

    视觉特效流程自诞生以来,到现在计算机生成工作流的兴起,发生了很大的变化.保持不变的是生产中人的要素:让人们集中注意力.了解所有信息和降低他们的压力. 如何实现这一目标,同时管理现代VFX生产中产生的内 ...

  5. 《黑寡妇》特效工作室Trixter的制片小姐姐告诉你一个成功制片人的必备技能

    Trixter是德国有名的视觉效果工作室.完成过一系列重量级影视项目的制作,如即将发行的漫威电影<黑寡妇>,此前还参与过<钢铁侠>.<银河护卫队2>小格鲁特和< ...

  6. python面向对象编程从零开始_Python面向对象编程从零开始(3)—— 小姐姐请客上篇

    前言 好了,接着昨天的故事继续. 上文说到我和小姐姐相互自我介绍了 今天我们继续讲我与小姐姐的故事: self的作用 class Car: def drive(self): print('我正在开车' ...

  7. 爬了下知乎上的高颜值小姐姐!美翻了!

         作者:shenzhongqiang   来源:Python与数据分析 国庆阅兵方阵中的军乐队小姐姐火了,看到朋友圈好多小伙伴说自己恋爱了.除了军乐队的小姐姐,知乎上也有很多漂亮小姐姐的照片. ...

  8. python手绘效果图_用Python做个海量小姐姐素描图

    素描作为一种近乎完美的表现手法有其独特的魅力,随着数字技术的发展,素描早已不再是专业绘画师的专利,今天这篇文章就来讲一讲如何使用python批量获取小姐姐素描画像.文章共分两部分: 第一部分介绍两种使 ...

  9. 为什么小姐姐能摇一晚上不倒?

    引言 西安大唐不夜城"不倒翁"女孩街头表演的视频曾一夜走红网络.在大唐不夜城步行街,"不倒翁"小姐姐身姿轻盈眼神妩媚令人梦回大唐,一颦一笑将中国唐朝美人的妩媚娇 ...

最新文章

  1. 用tensorflow实现yolov3
  2. hca卡 linux 查看_将Linux装入U盘随身带走!Awesome!
  3. Tensorflow中2D卷积API使用
  4. 米斯特白帽培训讲义(v2)漏洞篇 文件上传
  5. Libevent 事件循环(1)
  6. LINUX的awk和sed的常用用法 正则表达式 grep egrep用法
  7. putty安装和使用
  8. 盘点机PDA搭配蓝牙便携打印机,条码标签打印,超市仓库条码管理,条码标签纸
  9. 光纤通信是不是计算机类的,光纤通信专业属于什么门类
  10. lattice若干bug
  11. python暴力解压rar压缩包
  12. Android 项目必备(十七)-->实现身份证认证功能
  13. 【金猿产品展】沃丰科技GaussMind——用技术提升客户体验
  14. Xxx饭堂系统 JAVA+SQL+JDBC完成一个小项目(下篇)
  15. Java实现模拟斗地主洗牌、发牌、看牌并排序
  16. PAT-L2-027(名人堂与代金券)(结构体排序)
  17. Hiredis快速入门
  18. MySQL 5.7 表分区技术(二):RANGE分区
  19. 程序员养娃记:撸一手好代码,却带不好一个娃?!
  20. Linux获取当前目录名,shell获取当前目录名

热门文章

  1. mac terminal终端打开指定文件夹 当前文件夹打开terminal
  2. 查看电脑核数和线程数
  3. redis哨兵、集群
  4. Pycharm使用tkinter
  5. git初步使用(登录和创建仓库)
  6. Yann LeCun:深度学习与人工智能的未来(附PPT与译文)
  7. 3、JVM JDK 和 JRE
  8. 二、MySQL操作数据库
  9. 社区儿童计算机活动总结,幼儿园与社区活动总结
  10. OpenWrt下使用iperf测试多跳网络性能