Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略

目录

Beautiful Soup 4.2.0的简介

Beautiful Soup 4.2.0的安装

Beautiful Soup 4.2.0的使用方法

Beautiful Soup库对比lxml库


Beautiful Soup 4.2.0的简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

Beautiful Soup 4.2.0的安装

如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:
$ apt-get install Python-bs4
Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.
$ easy_install beautifulsoup4
$ pip install beautifulsoup4

Beautiful Soup 4.2.0的使用方法

1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")
首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码
BeautifulSoup("Sacr&eacute; bleu!")
<html><head></head><body>Sacré bleu!</body></html>

然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ).

2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可 以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment 。   
Tag: 即我们在写网页时所使用的标签(如<a>超链接标签)   
NavigableString:简单的说就是一种可以遍历的字符串

Beautiful Soup库对比lxml库

这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、 Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。
Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。

参考文献:Beautiful Soup 4.2.0 文档

beautifulsoup4 4.3.2

Beautiful Soup 4.4.0 文档

beautifulsoup_Py之Beautiful Soup:Beautiful Soup 4.2.0的简介、安装、使用方法相关推荐

  1. Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略

    Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介.安装.使用方法详细攻略 目录 Beautiful Soup 4.2.0的简介 Beautiful Sou ...

  2. 【学习笔记】Python - Beautiful Soup

    Beautiful Soup Beautiful Soup是一个模块,用于从HTML页面中提取信息(类似于正则表达式的功能).Beautiful Soup的模块名称是"bs4"(表 ...

  3. python3 beautifulsoup 表格_[Python3爬虫]Beautiful Soup解析库

    解析库与Beautiful Soup 通过request库,我们已经能够抓取网页信息了,但要怎么提取包含在Html代码里面的有效信息呢?谈到匹配有效信息你肯定会想到正则表达式,这里就不讨论了,实际上关 ...

  4. Python 爬虫之 Beautiful Soup 模块使用指南

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/bruce_6/article/deta ...

  5. 可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据

    可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据 使用 Python 工具简化 Web 站点数据的提取和组织 David Mertz, Ph. ...

  6. 三、Beautiful Soup解析库

    一.Beautiful Soup介绍与安装 1,Beautiful Soup介绍 答:Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库 2,Beautiful S ...

  7. python beautifulsoup4_Python之Beautiful Soup 4使用实例

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航.查找.修改文档的方式. Beautiful Soup 4 官方文档 ...

  8. 【Python爬虫】Beautiful Soup库入门

    BeautifulSoup库的安装 安装 pip install beautifulsoup4 测试是否安装成功 Python 3.8.3 (tags/v3.8.3:6f8c832, May 13 2 ...

  9. python网络爬虫学习笔记(九):Beautiful Soup的使用

    文章目录 1.基本用法 2.节点选择器 2.1 获取属性和名称 2.2 获取内容 (1)子节点和子孙节点 (2)父节点和祖先节点 (3)兄弟节点 3.方法选择器 4.CSS选择器 Beautiful ...

  10. 以视频爬取实例讲解Python爬虫神器Beautiful Soup用法

    1.安装BeautifulSoup4 easy_install安装方式,easy_install需要提前安装 1 easy_install beautifulsoup4 pip安装方式,pip也需要提 ...

最新文章

  1. 《OpenACC并行程序设计:性能优化实践指南》一 3.5 在应用程序执行期间记录性能信息...
  2. go 怎么等待所有的协程完成_GO语言基础进阶教程:Go语言的协程——Goroutine
  3. CRM batch product check logic in one order line item
  4. 文件手动删除后 同步到git
  5. node.js学习-整理
  6. springboot2源码2-SpringApplication运行
  7. bootstrap下的双选时间插件使用方法
  8. error: implicit declaration of function ‘RAND_egd’ [-Werror=implicit-function-declaration]
  9. C# Bitmap 频繁创建报错 软件闪退 内存溢出
  10. No Need for Genius Envy
  11. quickpcb添加pcb库_QuickPcb元件库下载
  12. excel 自动生成目录
  13. 计算机桌面壁纸大小怎么设置,电脑桌面背景和大小比例怎么调试?教你调试电脑桌面背景和大小比例的方法...
  14. 关于Filename too long解决方法
  15. timed out waiting for to be synced
  16. Actor模型的本质:究竟是要解决什么问题
  17. chrome点击下载链接没有反应
  18. 业财一体化升级设计说明
  19. 树莓派4B系统搭建(实操讲解巨细版)
  20. Oracle 中文日期转换

热门文章

  1. 中兴通讯有限公司 招聘“dotnet 高级工程师”
  2. springboot的war部署到tomcat正常启动,访问404问题
  3. 轻松提高Win2003的运行速度
  4. 【node.js】GET/POST请求、Web 模块
  5. 去掉内容中的所有全部html标签。
  6. 实战 团队项目如何把控log日志输出
  7. 忍者神龟java_忍者神龟-邪恶重生
  8. BZOJ1822[JSOI2010] 冷冻波
  9. (详解)无指针AC自动机
  10. /dev/null空字符设备文件