Beautiful Soup是Python中常用的HTML/XML解析库,它可以将HTML/XML文档解析为树形结构,方便用户进行各种操作。

以下是Beautiful Soup库的一些主要功能和示例:

1、解析HTML/XML文档

使用Beautiful Soup解析HTML/XML文档非常简单,只需使用BeautifulSoup类即可。例如,以下代码演示了如何使用Beautiful Soup解析HTML文档:

from bs4 import BeautifulSouphtml_doc = """
<html>
<head><title>Example HTML Document</title>
</head>
<body><h1>Example HTML Document</h1><p>This is an example HTML document.</p><ul><li>Item 1</li><li>Item 2</li><li>Item 3</li></ul>
</body>
</html>
"""soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

输出结果为:

<html><head><title>Example HTML Document</title></head><body><h1>Example HTML Document</h1><p>This is an example HTML document.</p><ul><li>Item 1</li><li>Item 2</li><li>Item 3</li></ul></body>
</html>

2、查找元素

使用Beautiful Soup查找HTML/XML文档中的元素非常方便。可以使用find()find_all()方法进行查找。例如,以下代码演示了如何查找HTML文档中的<h1>元素:

from bs4 import BeautifulSouphtml_doc = """
<html>
<head><title>Example HTML Document</title>
</head>
<body><h1>Example HTML Document</h1><p>This is an example HTML document.</p><ul><li>Item 1</li><li>Item 2</li><li>Item 3</li></ul>
</body>
</html>
"""soup = BeautifulSoup(html_doc, 'html.parser')
h1 = soup.find('h1')
print(h1.text)

输出结果为:Example HTML Document

3、修改元素

使用Beautiful Soup修改HTML/XML文档中的元素非常简单。例如,以下代码演示了如何修改HTML文档中的<h1>元素:

from bs4 import BeautifulSouphtml_doc = """
<html>
<head><title>Example HTML Document</title>
</head>
<body><h1>Example HTML Document</h1><p>This is an example HTML document.</p><ul><li>Item 1</li><li>Item 2</li><li>Item 3</li></ul>
</body>
</html>
"""soup = BeautifulSoup(html_doc, 'html.parser')
h1 = soup.find('h1')
h1.string = 'New Title'
print(soup.prettify())

输出结果为:

<html><head><title>Example HTML Document</title></head><body>
<h1>New Title</h1>
<p>This is an example HTML document.</p>
<ul><li>Item 1</li><li>Item 2</li><li>Item 3</li>
</ul>

</body> </html> ```

4、删除元素

使用Beautiful Soup删除HTML/XML文档中的元素也非常简单。例如,以下代码演示了如何删除HTML文档中的<p>元素:

from bs4 import BeautifulSouphtml_doc = """
<html>
<head><title>Example HTML Document</title>
</head>
<body><h1>Example HTML Document</h1><p>This is an example HTML document.</p><ul><li>Item 1</li><li>Item 2</li><li>Item 3</li></ul>
</body>
</html>
"""soup = BeautifulSoup(html_doc, 'html.parser')
p = soup.find('p')
p.extract()
print(soup.prettify())

输出结果为:

<html><head><title>Example HTML Document</title></head><body><h1>Example HTML Document</h1><ul><li>Item 1</li><li>Item 2</li><li>Item 3</li></ul></body>
</html>

以上就是Beautiful Soup库的主要功能和示例。Beautiful Soup还有许多其他功能,例如修改元素属性、处理字符串、遍历树形结构等。

Beautiful Soup的使用例子相关推荐

  1. Python爬虫利器之Beautiful Soup的全世界最强用法 五百行文章!

    0. 前言 爬虫是一个非常有意思的东西,比如自己做的一个网页上面什么数据都没有就可以爬虫别人的 然后进行去重 数据分析等等 在这里因为爬虫涉及到的方面非常多 1. Beautiful Soup的简介 ...

  2. Python爬虫入门(8):Beautiful Soup的用法

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  3. 爬虫---Beautiful Soup 通过添加不同的IP请求

    上一篇爬虫写了如何应付反爬的一些策略也简单的举了根据UA的例子,今天写一篇如何根据不同IP进行访问豆瓣网获取排行版 requests添加IP代理 如果使用代理的话可以通过requests中的方法pro ...

  4. Beautiful Soup的用法

    如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提 ...

  5. Python 爬虫之 Beautiful Soup 模块使用指南

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/bruce_6/article/deta ...

  6. Python 爬虫利器 Beautiful Soup 4 之文档树的搜索

    前面两篇介绍的是 Beautiful Soup 4 的基本对象类型和文档树的遍历, 本篇介绍 Beautiful Soup 4 的文档搜索 搜索文档树主要使用两个方法 find() 和 find_al ...

  7. 可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据

    可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据 使用 Python 工具简化 Web 站点数据的提取和组织 David Mertz, Ph. ...

  8. python中beautifulsoup_面向新手解析python Beautiful Soup基本用法

    Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据.它有如下三个特点: Beautiful Soup提供一些简单的.Python式的函数来处理 ...

  9. Python 爬虫利器二之 Beautiful Soup 的用法

    上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫 B ...

最新文章

  1. Linux 安装 TigerVNC
  2. 基于ASP.NET的comet简单实现
  3. ORM框架-工具-产品开发之四 开发代码生成器 Template Studio Development (一)
  4. 以下python注释代码格式正确的是_Python文件头注释的含义,你肯定不懂
  5. vue aixos请求json
  6. 第三方app_为什么第三方APP不能下载呢?
  7. 8、路由 router
  8. Debian 9 strech 安装 ROS lunar
  9. 容器编排技术 -- 本地运行Kubrenetes v1.0
  10. 你觉得python很难嘛?那只是你没有理解而已
  11. 【转】const_cast
  12. oracle 11g 静默安装
  13. Arch + i3wm + i3lock-wrapper 毛玻璃锁屏
  14. html中首行缩进怎么写,HTML怎么实现首行缩进两个字符?
  15. python实现蜂鸣器演奏两只老虎
  16. android+字体+动画效果怎么做的,字体动画效果怎么做?原来这么简单!
  17. 元宇宙热潮:缘起、影响与展望
  18. 保护海洋主题的微信公众号图文排版必备素材集锦
  19. C2: 随机事件与样本空间/关系运算
  20. LAYUI表格自动渲染

热门文章

  1. SP348 EXPEDI - Expedition
  2. AI一分钟 | 传美团37亿美元收购摩拜;苹果在给Mac设计处理器,2020年替代英特尔
  3. Premiere Pro 2022 for Mac(PR2022)
  4. 营收下滑,腾讯游戏还能保持「王者」地位吗?
  5. n3k配置vpc是否还需要配置hsrp_HSRP协议详解:配置HSRP实现网关的冗余备
  6. IT6516|ITE联阳IT6516BFN DP转VGA方案|替代IT6516|IT6516替代兼容方案
  7. [渝粤教育] 中国地质大学 高等数学(二) 复习题
  8. 【陈鹏老师精益项目实战】精益生产的十大工具
  9. 后端总结(Tomcat Nginx)
  10. 视频会议系统哪家比较好?