python中beautifulsoup_面向新手解析python Beautiful Soup基本用法
Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。它有如下三个特点:
Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的Python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
首先,我们要安装它:pip install bs4,然后安装 pip install beautifulsoup4.
Beautiful Soup支持的解析器
下面我们以lxml解析器为例:
from bs4 import BeautifulSoup
soup = BeautifulSoup('
Hello
', 'lxml')
print(soup.p.string)
结果:
Hello
beautiful soup美化的效果实例:
?
结果:
?
下面举例说明选择元素、属性、名称的方法
?
结果:
?
在上面的例子中,我们知道每一个返回结果都是bs4.element.Tag类型,它同样可以继续调用节点进行下一步的选择。
?
结果:
?
(1)find_all()
find_all,顾名思义,就是查询所有符合条件的元素。给它传入一些属性或文本,就可以得到符合条件的元素,它的功能十分强大。
find_all(name , attrs , recursive , text , **kwargs)
他的用法:
?
结果:
?
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:https://www.cnblogs.com/xiao02fang/p/13269984.html
python中beautifulsoup_面向新手解析python Beautiful Soup基本用法相关推荐
- Python爬虫入门(8):Beautiful Soup的用法
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
- python soup_面向新手解析python Beautiful Soup基本用法
Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据.它有如下三个特点: Beautiful Soup提供一些简单的.Python式的函数来处理 ...
- Python之Html解析方法(beautiful soup)
Python之Html解析方法(beautiful soup) BeautifulSoup的安装及介绍 官方给出的几点介绍: Beautiful Soup提供一些简单的.python式的函数用来处理导 ...
- python中url是什么_怎么在Python中实现URL的解析
怎么在Python中实现URL的解析 发布时间:2020-08-24 17:56:47
- [python-thirdLib] Python中第三方的用于解析HTML的库:BeautifulSoup
From: http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/ 背景 在Python去写爬虫,网页解析等过程 ...
- python读取json文件多个json数据_在Python中加载和解析包含多个JSON对象的JSO...
我试图在Python中加载和解析一个JSON文件.但我试图加载该文件: import json json_data = open('file') data = json.load(json_data) ...
- [转载] python中全局变量和局部变量解析
参考链接: Python中的全局变量和局部变量 python函数中可以访问全局变量但是不能给全局变量赋值,除非进行显式声明global a 比如定义了全局变量 a 在函数my_fun()中可以直接访 ...
- python中一共有多少个关键字-Python中所有的关键字
在python中若想查询python中有哪些关键字可以先导入keyword模块 import keyword #导入关键字模块 print(keyword.kwlist) #查询所有关键字 查询结果: ...
- Python 爬虫利器二之 Beautiful Soup 的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫 B ...
最新文章
- SVO学习笔记(一)
- Java中的Split方法不适用于一个句号
- 继续转 [转]php版本的cron定时任务执行器
- python装饰器实例-Python装饰器用法实例总结
- 免费下载 |《数字广告投放中虚假流量的排查与判定》白皮书重磅发布
- 《深入理解Hadoop(原书第2版)》——2.3Hadoop系统的组成
- SAP CRM系统里关于订单货币单位为日元的一些调试和配置关键点
- Mac版Anaconda安装Tweepy包
- 数据安全架构设计与实战~思维导图
- 浅谈Flutter的状态State
- 三星Galaxy S22 Ultra发布推迟:此前至少5款骁龙8平台旗舰亮相
- 韩国出现加密货币妈妈潮 女性对加密投资兴趣趋升
- FFT变换频谱图中幅值的设置方法
- 如何清除你的DNS缓存
- [Ubuntu] 安装字体
- ffmpeg(七)合并音视频文件
- 数据分析之客户价值模型(RFM)技术总结
- 百度街景自动爬取,并自动检测没有影像的位置
- SICP第一章:构造过程抽象(1.3)
- 获取UNIX主机当前时间的函数
热门文章
- 32位linux 内存占用,LINUX内存高,触发OOM-KILLER问题解决
- 安卓APP_ 布局(2) —— RelativeLayout相对布局
- 全国计算机等级考试题库二级C操作题100套(第42套)
- 判断同构数 c语言,基于visual Studio2013解决C语言竞赛题之0413同构数
- 为什么生产环境都是linux,关于生产环境linux系统中的wheel用户组
- lamba统计最大值,最小值,平均值,总和,个数
- 盘点2020 最烂密码大曝光,第一名的竟然是它?
- 系统测试相关知识笔记
- 系统运维:收集6款经典的服务器监控工具
- 数据库技术基础:数据库与数据库管理系统概念介绍