Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。它有如下三个特点:

Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的Python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

首先,我们要安装它:pip install bs4,然后安装 pip install beautifulsoup4.

Beautiful Soup支持的解析器

下面我们以lxml解析器为例:

from bs4 import BeautifulSoup

soup = BeautifulSoup('

Hello

', 'lxml')

print(soup.p.string)

结果:

Hello

beautiful soup美化的效果实例:

?

结果:

?

下面举例说明选择元素、属性、名称的方法

?

结果:

?

在上面的例子中,我们知道每一个返回结果都是bs4.element.Tag类型,它同样可以继续调用节点进行下一步的选择。

?

结果:

?

(1)find_all()

find_all,顾名思义,就是查询所有符合条件的元素。给它传入一些属性或文本,就可以得到符合条件的元素,它的功能十分强大。

find_all(name , attrs , recursive , text , **kwargs)

他的用法:

?

结果:

?

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。

原文链接:https://www.cnblogs.com/xiao02fang/p/13269984.html

python中beautifulsoup_面向新手解析python Beautiful Soup基本用法相关推荐

  1. Python爬虫入门(8):Beautiful Soup的用法

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  2. python soup_面向新手解析python Beautiful Soup基本用法

    Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据.它有如下三个特点: Beautiful Soup提供一些简单的.Python式的函数来处理 ...

  3. Python之Html解析方法(beautiful soup)

    Python之Html解析方法(beautiful soup) BeautifulSoup的安装及介绍 官方给出的几点介绍: Beautiful Soup提供一些简单的.python式的函数用来处理导 ...

  4. python中url是什么_怎么在Python中实现URL的解析

    怎么在Python中实现URL的解析 发布时间:2020-08-24 17:56:47

  5. [python-thirdLib] Python中第三方的用于解析HTML的库:BeautifulSoup

    From: http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/ 背景 在Python去写爬虫,网页解析等过程 ...

  6. python读取json文件多个json数据_在Python中加载和解析包含多个JSON对象的JSO...

    我试图在Python中加载和解析一个JSON文件.但我试图加载该文件: import json json_data = open('file') data = json.load(json_data) ...

  7. [转载] python中全局变量和局部变量解析

    参考链接: Python中的全局变量和局部变量 python函数中可以访问全局变量但是不能给全局变量赋值,除非进行显式声明global a 比如定义了全局变量 a  在函数my_fun()中可以直接访 ...

  8. python中一共有多少个关键字-Python中所有的关键字

    在python中若想查询python中有哪些关键字可以先导入keyword模块 import keyword #导入关键字模块 print(keyword.kwlist) #查询所有关键字 查询结果: ...

  9. Python 爬虫利器二之 Beautiful Soup 的用法

    上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫 B ...

最新文章

  1. SVO学习笔记(一)
  2. Java中的Split方法不适用于一个句号
  3. 继续转 [转]php版本的cron定时任务执行器
  4. python装饰器实例-Python装饰器用法实例总结
  5. 免费下载 |《数字广告投放中虚假流量的排查与判定》白皮书重磅发布
  6. 《深入理解Hadoop(原书第2版)》——2.3Hadoop系统的组成
  7. SAP CRM系统里关于订单货币单位为日元的一些调试和配置关键点
  8. Mac版Anaconda安装Tweepy包
  9. 数据安全架构设计与实战~思维导图
  10. 浅谈Flutter的状态State
  11. 三星Galaxy S22 Ultra发布推迟:此前至少5款骁龙8平台旗舰亮相
  12. 韩国出现加密货币妈妈潮 女性对加密投资兴趣趋升
  13. FFT变换频谱图中幅值的设置方法
  14. 如何清除你的DNS缓存
  15. [Ubuntu] 安装字体
  16. ffmpeg(七)合并音视频文件
  17. 数据分析之客户价值模型(RFM)技术总结
  18. 百度街景自动爬取,并自动检测没有影像的位置
  19. SICP第一章:构造过程抽象(1.3)
  20. 获取UNIX主机当前时间的函数

热门文章

  1. 32位linux 内存占用,LINUX内存高,触发OOM-KILLER问题解决
  2. 安卓APP_ 布局(2) —— RelativeLayout相对布局
  3. 全国计算机等级考试题库二级C操作题100套(第42套)
  4. 判断同构数 c语言,基于visual Studio2013解决C语言竞赛题之0413同构数
  5. 为什么生产环境都是linux,关于生产环境linux系统中的wheel用户组
  6. lamba统计最大值,最小值,平均值,总和,个数
  7. 盘点2020 最烂密码大曝光,第一名的竟然是它?
  8. 系统测试相关知识笔记
  9. 系统运维:收集6款经典的服务器监控工具
  10. 数据库技术基础:数据库与数据库管理系统概念介绍