参考:【Python技能树共建】Beautiful Soup_梦想橡皮擦的博客-CSDN博客

Beautiful Soup主要用于将 HTML 标签转换为 Python 对象树,然后让我们从对象树中提取数据。

基础用法

import requests
from bs4 import BeautifulSoupdef ret_html():"""获取HTML元素"""res = requests.get('https://www.crummy.com/software/BeautifulSoup/', timeout=3)return res.textif __name__ == '__main__':html_str = ret_html()soup = BeautifulSoup(html_str, 'lxml')print(soup)

上述输出就是普通的html格式文件,我们可以调用 soup 对象的 soup.prettify() 方法,可以将 HTML 标签进行格式化操作

BeautifulSoup 类的构造函数中传递的两个参数,一个是待解析的字符串,另一个是解析器,官方建议的是 lxml,因其解析速度快。

BeautifulSoup 类可以将 HTML 文本解析成 Python 对象树,而这里面又包括最重要的四种对象,分别是 TagNavigableStringBeautifulSoupComment 对象

测试文件

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>测试</title>
</head>
<body>
<div class="userful"><ul><li class="info">我需要的信息1</li><li class="test">我需要的信息2</li><li class="strange">我需要的信息3</li></ul>
</div><div class="useless"><ul><li class="info">垃圾1</li><li class="info">垃圾2</li></ul></div></body>
</html>

BeautifulSoup 对象

该对象本身就代表整个 HTML 页面,而且实例化该对象的时候,还会自动补齐 HTML 代码。

    html_str = ret_html()soup = BeautifulSoup(html_str, 'lxml')print(type(soup))

Tag 对象

Tag 是标签的意思,Tag 对象就是网页标签,或者叫做网页元素对象,例如获取 bs4 官网的 h1 标签对象,代码如下所示:

 html_str = ret_html()soup = BeautifulSoup(html_str, 'lxml')# print(soup.prettify())print(soup.h1)

输出soup.h1的type,可以看到,它是一个tag对象

既然是 Tag 对象,那就会具备一些特定的属性值

获取标签名称

    print(soup.h1)print(type(soup.h1))print(soup.h1.name)  # 获取标签名称

通过 Tag 对象获取标签的属性值

    print(soup.img)  # 获取网页第一个 img 标签print(soup.img['src'])  # 获取网页元素DOM的属性值

通过 attrs 属性获取标签的所有属性

    print(soup.img)  # 获取网页第一个 img 标签print(soup.img.attrs)  # 获取网页元素的所有属性值,以字典形式返回

print("soup.link",soup.link)
print("soup.link['href']",soup.link['href'])
print("soup.link.attrs",soup.link.attrs)

NavigableString 对象

NavigableString 对象获取的是标签内部的文字内容,例如 p 标签,在下述代码中提取的是 我是橡皮擦

<p>我是橡皮擦</p>

获取该对象也非常容易,使用 Tag 对象的 string 属性即可。

    nav_obj = soup.h1.stringprint(type(nav_obj))

输出结果如下所示

<class 'bs4.element.NavigableString'>

如果目标标签是一个单标签,会获取到 None 数据

除了使用对象的 string 方法外,还可以使用 text 属性和 get_text() 方法来获取标签内容

    print(soup.h1.text)print(soup.p.get_text())print(soup.p.get_text('&'))

其中 text 是获取所有子标签内容的合并字符串,而 get_text() 也是相同的效果,不过使用 get_text() 可以增加一个分隔符,例如上述代码的 & 符号,还可以使用,strip=True 参数去除空格。

print("soup.title.string-------",soup.title.string)
print("type(soup.title.string)------",type(soup.title.string))
print("soup.title.text-----",soup.title.text)
print("soup.title.get_text()-----",soup.title.get_text())

find() 方法和 find_all() 方法

调用 BeautifulSoup 对象和 Tag 对象的 find() 方法,可以在网页中找到指定对象,该方法的语法格式如下:

obj.find(name,attrs,recursive,text,**kws)

方法的返回结果是查找到的第一个元素,如果没查询到,返回 None。
参数说明如下:

  • name:标签名称;
  • attrs:标签属性;
  • recursive:默认搜索所有后代元素;
  • text:标签内容。
soup = BeautifulSoup(open('test.html', encoding='utf-8'), 'lxml')
print(soup.find('title'))#查找title标签

也可以使用 attrs 参数进行查找

soup = BeautifulSoup(open('test.html', encoding='utf-8'), 'lxml')
print(soup.find(attrs={'class':'info'}))

find() 方法还提供了一些特殊的参数,便于直接查找,例如可以使用 id=xxx,查找属性中包含 id 的标签,可以使用 class_=xxx,查找属性中包含 class 的标签。

print(soup.find(class_='cta'))

与 find() 方法成对出现的是 find_all() 方法,看名称就能知道其返回结果收是全部匹配标签,语法格式如下:

obj.find_all(name,attrs,recursive,text,limit)

limit 参数,它表示最多返回的匹配数量,find() 方法可以看作 limit=1,这样就变得容易理解了。

练习

获取所有p标签文本

获取所有p标签里的文本

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoupdef fetch_p(html):soup=BeautifulSoup(html,'lxml')p_list=soup.findall('p')results=[p.text for p in p_list]return resultsif __name__ == '__main__':html = '''<html><head><title>这是一个简单的测试页面</title></head><body><p class="item-0">body 元素的内容会显示在浏览器中。</p><p class="item-1">title 元素的内容会显示在浏览器的标题栏中。</p></body></html>'''p_text = fetch_p(html)print(p_text)

获取网页的text

from bs4 import BeautifulSoupdef fetch_text(html):soup=BeautifulSoup(html,'lxml')result=soup.textreturn resultif __name__ == '__main__':html = '''<html><head><title>这是一个简单的测试页面</title></head><body><p class="item-0">body 元素的内容会显示在浏览器中。</p><p class="item-1">title 元素的内容会显示在浏览器的标题栏中。</p></body></html>'''text = fetch_text(html)print(text)

查找网页里所有图片地址

from bs4 import BeautifulSoupdef fetch_imgs(html):soup=BeautifulSoup(html,'html.parser')imges=[tag['src'] for tag in soup.find_all('img')]return imgsdef test():imgs = fetch_imgs('<p><img src="http://example.com"/><img src="http://example.com"/></p>')print(imgs)if __name__ == '__main__':test()

爬虫工具之Beautiful Soup学习相关推荐

  1. Python 网络爬虫笔记5 -- Beautiful Soup库实战

    Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...

  2. Python 网络爬虫笔记3 -- Beautiful Soup库

    Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...

  3. html标签 补全方法 python,Python Beautiful Soup学习之HTML标签补全功能

    Beautiful Soup是一个非常流行的Python模块.该模块可以解析网页,并提供定位内容的便捷接口. 使用下面两个命令安装: pip install beautifulsoup4或者 sudo ...

  4. Python3网络爬虫:使用Beautiful Soup爬取小说

    本文是http://blog.csdn.net/c406495762/article/details/71158264的学习笔记 作者:Jack-Cui 博主链接:http://blog.csdn.n ...

  5. Python爬虫利器之Beautiful Soup的全世界最强用法 五百行文章!

    0. 前言 爬虫是一个非常有意思的东西,比如自己做的一个网页上面什么数据都没有就可以爬虫别人的 然后进行去重 数据分析等等 在这里因为爬虫涉及到的方面非常多 1. Beautiful Soup的简介 ...

  6. 爬虫5_python2_使用 Beautiful Soup 解析数据

    使用 Beautiful Soup 解析数据(感谢东哥) 有的小伙伴们对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HT ...

  7. python beautifulsoup_Python爬虫利器:Beautiful Soup的使用(一)

    上一次的爬取网易新闻案例,我们使用到了一个解析 HTML 的库:Beautiful Soup.本次跟大家分享一下关于这个库的一些用法. Beautiful Soup 简介: Beautiful Sou ...

  8. 【Python爬虫】 之 Beautiful Soup

    一.Beautiful Soup简介 Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml,因为lxml只会局 ...

  9. 爬虫入门之Beautiful Soup

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...

最新文章

  1. cocos2dx 实现搓牌(翻牌)效果,包括铺平动画
  2. java enumerator_简单介绍java Enumeration
  3. 索引键的唯一性(2/4):唯一与非唯一聚集索引
  4. Android IllegalStateException: The specified child already has a parent问题解决办法
  5. 全球及中国航空材料行业发展动态及应用格局展望规划报告2021-2027年版
  6. android四大组件之Service 注册广播接收者
  7. python密码登录程序三次_Python实现账号密码输错三次即锁定功能简单示例
  8. 记录一次因为懒惰而吃亏的事情
  9. sed命令在文件头部插入文本---BSD和GNU版本通用写法
  10. 【译】R包介绍:Online Random Forest
  11. 化工虚拟仿真实验室实训操作软件搭建
  12. webrt分析六(nack)
  13. 依图科技:多个人工智能应用领域达到全球领先水平 | 百万人学AI评选
  14. Minigui实现半透效果
  15. wp10手机不能连接微软服务器,WP10手机微软账户登陆不了该怎么办?
  16. 中国水煤浆行业“十四五”规划与运营模式分析报告2022~2028年
  17. 机器视觉_HALCON_示例实践_1.检测圆形
  18. XShell常用命令大全
  19. ArcGIS基础实验操作100例--实验24提取栅格独立格网面
  20. 【Linux驱动】Linux--V4L2视频驱动框架

热门文章

  1. windows下wsl2中的ubuntu和ubuntu系统下docker使用gpu的异同
  2. 因素分析(Factor Analysis)
  3. java获取下周一_Java 根据查询日期,获取下周一、周日的日期
  4. 沈阳达内python培训
  5. 第一次亲密接触读后感(转)
  6. RabbitMQ的第一次亲密接触
  7. 深海迷航显示无法连接服务器,深海迷航中管道怎么连接 | 手游网游页游攻略大全...
  8. 牛顿法为什么是二阶的
  9. 囊括七大主流搜索引擎 这个网站统计工具神了!
  10. 第三章程序的机器级表示