Beautiful Soup

Beautiful Soup是一个模块,用于从HTML页面中提取信息(类似于正则表达式的功能)。Beautiful Soup的模块名称是“bs4”(表示Beautiful Soup的第4版)。

安装Beautiful Soup

命令:pip install beautifulsoup4

导入:import bs4

使用Beautiful Soup

1、根据HTML创建一个Beautiful Soup对象

bs4.BeautifulSoup()函数调用时需要一个字符串,其中包含了将要解析的HTML文件。

bs4.BeautifulSoup()函数返回一个BeautifulSoup对象。

当然bs4.BeautifulSoup()函数也可以从本地读入HTML文件,前提是在本地保存了HTML文件,它会返回一个BeautifulSoup对象。

2、使用select()方法寻找元素

选择器就好比正则表达式,它们指定了要寻找的模式,就可以取得Web页面元素。

传递给select()方法的选择器

将要匹配...

soup.select(‘div’)

所有名为<div>的元素

soup.select(‘#author’)

带有id属性为author的元素

soup.select(‘.notice’)

所有使用CSS class属性名为notice的元素

soup.select(‘div span’)

所以在<div>元素之内的<span>元素

soup.select(‘div > span’)

所有直接在<div>元素之内的<span>元素,中间没有其他元素

soup.select(‘input[name]’)

所有名为<input>,并有一个name属性,其值无所谓的元素

soup.select(‘input[type=”button”]’)

所有名为<input>,并有一个type属性,其值为button的元素

不同的选择器模式可以组合起来,形成更复杂的匹配。

比如soup.select(‘p#author’)将匹配在<p>元素内所有id属性为author的元素。

select()方法将返回一个Tag对象的列表,这是Beautiful Soup表示一个HTML元素的方式。Tag值可以传递给str()函数,显示它们代表的HTML标签。Tag值也可以有attrs属性,它将该Tag的所有HTML属性作为一个字典。

上面的代码将所有带有id = “su”的元素都找出来了,返回一个列表,列表中只有一个Tag对象(仅一次匹配),getText()方法返回元素内部文本或者内部HTML(即开始/结束标签之间的内容),最后attrs属性返回了一个字典。

3、通过元素获取数据

Tag对象的get()方法可以很容易从元素中获取属性值,向该方法传入一个属性名称的字符串,它将返回该属性的值。

【学习笔记】Python - Beautiful Soup相关推荐

  1. Python 网络爬虫笔记5 -- Beautiful Soup库实战

    Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...

  2. Python 网络爬虫笔记3 -- Beautiful Soup库

    Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...

  3. html标签 补全方法 python,Python Beautiful Soup学习之HTML标签补全功能

    Beautiful Soup是一个非常流行的Python模块.该模块可以解析网页,并提供定位内容的便捷接口. 使用下面两个命令安装: pip install beautifulsoup4或者 sudo ...

  4. python语言的33个保留字的基本含义_Python学习笔记——Python的33个保留字及其意义,python,pythone33,含义...

    Python学习笔记--Python的33个保留字及其意义,python,pythone33,含义 发表时间:2020-03-27 笔记走起 正文 序号 保留字 含义 1 and 用于表达式运算,逻辑 ...

  5. python中beautifulsoup_面向新手解析python Beautiful Soup基本用法

    Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据.它有如下三个特点: Beautiful Soup提供一些简单的.Python式的函数来处理 ...

  6. python beautiful soup 标签完全相同_Python爬取Python教程并制作成pdf

    欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练.PDF电子文档.面试集锦.学习资料等. 想要把教程变成PDF有三步: 1.先生成空html ...

  7. (转载)[python学习笔记]Python语言程序设计(北理工 嵩天)

    作者:九命猫幺 博客出处:http://www.cnblogs.com/yongestcat/ 欢迎转载,转载请标明出处. 如果你觉得本文还不错,对你的学习带来了些许帮助,请帮忙点击右下角的推荐 阅读 ...

  8. 【Python beautiful soup】如何用beautiful soup 解析HTML内容

    美丽汤(Beautiful Soup)是一个流行的Python库,用于从HTML或XML文件中提取数据.它将复杂的HTML文件转化为一个Python对象,使得用户可以更方便地解析.搜索和修改HTML内 ...

  9. python soup_面向新手解析python Beautiful Soup基本用法

    Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据.它有如下三个特点: Beautiful Soup提供一些简单的.Python式的函数来处理 ...

最新文章

  1. 1138: 零起点学算法45——求最大值
  2. partial 分布类
  3. c语言学生信息管理系统框架,vue实现学生信息管理系统
  4. 只会用单片机点灯,很丢人吗?
  5. 苹果 AirPods 固件更新,这个新功能上线!
  6. python spark2.0_Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树二分类
  7. 积木赛尔号机器人_【点映观影】赛尔号大电影7:疯狂机器城赛尔宇宙探险迎人类首秀...
  8. c语言 数组 迷宫,迷宫问题(C语言实现)
  9. 华大MCU(四):HC32F460串口IAP升级app部分
  10. C# Socket 通讯测试类
  11. 安卓手机作为文件共享服务器,安卓手机的文件共享应该怎么操作?
  12. 润乾统计图超链接使用例子
  13. zabbix如何自定义一个监控项对web网站进行存活监控和报警?
  14. 两条平行线之间的距离
  15. 数据通信与计算机网络复习笔记
  16. 找不到局域网计算机网络路径,分享解决Win10局域网找不到网络路径的技巧
  17. 数据分析师 知识体系 业务篇
  18. poky linux初探 -- 添加自己的内核食谱
  19. java 中文大写金额_java编写的金额转中文大写
  20. 关于 Windows 10 下原生输入法输入字母和数字时字间距突然变大的解决方法

热门文章

  1. MySQL学习笔记_7_MySQL常用内置函数
  2. 优秀产品经理(CEO)必须get的财税知识
  3. 微课堂迎圣诞送福利 | 姬十三@你:我想和你相聚社区共度圣诞良宵,约么?
  4. 如何让产品不受到技术限制快速迭代?
  5. PMCAFF《产品经理第一课》第三期开始报名!天团导师再次升级,631培训模式升级...
  6. Q45 跳跃游戏 II
  7. 登录界面-安全密码设计
  8. JUnit简介与初步使用
  9. 团队在Github上协同开发项目流程
  10. Web MVC Rest 处理流程分析