Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略
Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略
目录
Beautiful Soup 4.2.0的简介
Beautiful Soup 4.2.0的安装
Beautiful Soup 4.2.0的使用方法
Beautiful Soup库对比lxml库
Beautiful Soup 4.2.0的简介
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。
Beautiful Soup 4.2.0的安装
如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:
$ apt-get install Python-bs4
Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.
$ easy_install beautifulsoup4
$ pip install beautifulsoup4
Beautiful Soup 4.2.0的使用方法
1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")
首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码
BeautifulSoup("Sacré bleu!")
<html><head></head><body>Sacré bleu!</body></html>
然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ).
2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可 以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment 。
Tag: 即我们在写网页时所使用的标签(如<a>超链接标签)
NavigableString:简单的说就是一种可以遍历的字符串
Beautiful Soup库对比lxml库
这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、 Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。
Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。
参考文献:Beautiful Soup 4.2.0 文档
beautifulsoup4 4.3.2
Beautiful Soup 4.4.0 文档
Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略相关推荐
- Py之Numpy:Numpy库中常用函数的简介、应用之详细攻略
Py之Numpy:Numpy库中常用函数的简介.应用之详细攻略 目录 Numpy库中常用函数的简介.应用 1.X, Y = np.meshgrid(X, Y) 相关文章 Py之Numpy:Numpy库 ...
- Py之curses:curses库的简介、使用、安装方法详细攻略
Py之curses:curses库的简介.使用.安装方法详细攻略 目录 curses库简介 curses库安装 T1.直接命令法 T2.下载whl法 curses库的使用方法 curses库简介 cu ...
- Py之dlib:Python库之dlib库的简介、安装、使用方法详细攻略
Py之dlib:Python库之dlib库的简介.安装.使用方法详细攻略 目录 dlib库的简介 dlib库的安装 dlib库的使用函数 0.利用dlib.get_frontal_face_detec ...
- Py之textgenrnn:textgenrnn库的简介、安装、使用方法详细攻略
Py之textgenrnn:textgenrnn库的简介.安装.使用方法详细攻略 目录 textgenrnn库的简介 textgenrnn库的安装 textgenrnn库的使用方法 textgenrn ...
- CV之face_recognition:Py之face_recognition库安装、介绍、使用方法详细攻略
CV之face_recognition:Py之face_recognition库安装.介绍.使用方法详细攻略 目录 face_recognition简介 face_recognition安装 face ...
- Py之docx:Python库之docx简介、安装、使用方法详细攻略
Py之docx:Python库之docx简介.安装.使用方法详细攻略 目录 Python库之docx简介 Python库之docx安装 docx使用方法 1.打开文档
- Py之ipython:Python库之ipython的简介、安装、使用方法详细攻略
Py之ipython:Python库之ipython的简介.安装.使用方法详细攻略 目录 ipython的简介 ipython的安装 ipython的使用方法 ipython的简介 ipython是一 ...
- Py之pygame:Python的pygame库的简介、安装、使用方法详细攻略
Py之pygame:Python的pygame库的简介.安装.使用方法详细攻略 目录 pygame库的简介 pygame库的安装 pygame库的使用方法 pygame库的简介 PyPoice是SDL ...
- Py之PyTables:PyTables的简介、安装、使用方法详细攻略
Py之PyTables:PyTables的简介.安装.使用方法详细攻略 目录 PyTables的简介 PyTables的安装 PyTables的使用方法 PyTables的简介 pytables是包管 ...
最新文章
- 量子态太「脆弱」如何纠错?MIT教授Peter Shor多年研究得到验证
- Java使用POI读取和写入Excel指南
- 关于css的一些特别用法
- phantomjs安装所需依赖
- 宋体配置JAVA j2ee (一) 轻松入门
- python123测验2答案八边形_Python试卷
- HDU 4085 Peach Blossom Spring
- IPAD移动端交互原型通用设计方案、ipad元件库、移动元件库、元件列表、设计元件、交互示例、界面模板、设备模板、手势图标、社交界面、音乐、电商、视图控制器、指示器、指纹解锁、手势解锁、rp元件库
- 超分辨率重建双三次插值Bicubic生成高分辨率图像
- 两个分数化简比怎么化_分数化简比的方法什么,六年级上求比值与化简比的对比...
- 在用mybatis时报错java.lang.AbstractMethodError: com.mysql.jdbc.ServerPreparedState
- MacBook Pro 上网很慢
- 年长车友的单车游记:骑单车游崇明岛(转)
- 现代战争——僵尸网络的历史 上篇
- 用c语言编写九九乘法表
- 支付宝转账又出新方法:悬浮条自动识别输入,避免失误尴尬
- 如何写linux软件专利,Linux之父:软件专利和方法专利都挺扯淡
- 两天价网站背后重重迷雾:做个网站究竟要多少钱
- jQuery带缩略图轮播效果图片切换带缩略图
- Java多线程之Exchanger