Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略

目录

Beautiful Soup 4.2.0的简介

Beautiful Soup 4.2.0的安装

Beautiful Soup 4.2.0的使用方法

Beautiful Soup库对比lxml库


Beautiful Soup 4.2.0的简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

Beautiful Soup 4.2.0的安装

如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:
$ apt-get install Python-bs4
Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.
$ easy_install beautifulsoup4
$ pip install beautifulsoup4

Beautiful Soup 4.2.0的使用方法

1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")
首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码
BeautifulSoup("Sacr&eacute; bleu!")
<html><head></head><body>Sacré bleu!</body></html>

然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ).

2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可  以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment  。    
Tag:  即我们在写网页时所使用的标签(如<a>超链接标签)    
NavigableString:简单的说就是一种可以遍历的字符串

Beautiful Soup库对比lxml库

这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、  Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。
      Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。

参考文献:Beautiful Soup 4.2.0 文档

beautifulsoup4 4.3.2

Beautiful Soup 4.4.0 文档

Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略相关推荐

  1. Py之Numpy:Numpy库中常用函数的简介、应用之详细攻略

    Py之Numpy:Numpy库中常用函数的简介.应用之详细攻略 目录 Numpy库中常用函数的简介.应用 1.X, Y = np.meshgrid(X, Y) 相关文章 Py之Numpy:Numpy库 ...

  2. Py之curses:curses库的简介、使用、安装方法详细攻略

    Py之curses:curses库的简介.使用.安装方法详细攻略 目录 curses库简介 curses库安装 T1.直接命令法 T2.下载whl法 curses库的使用方法 curses库简介 cu ...

  3. Py之dlib:Python库之dlib库的简介、安装、使用方法详细攻略

    Py之dlib:Python库之dlib库的简介.安装.使用方法详细攻略 目录 dlib库的简介 dlib库的安装 dlib库的使用函数 0.利用dlib.get_frontal_face_detec ...

  4. Py之textgenrnn:textgenrnn库的简介、安装、使用方法详细攻略

    Py之textgenrnn:textgenrnn库的简介.安装.使用方法详细攻略 目录 textgenrnn库的简介 textgenrnn库的安装 textgenrnn库的使用方法 textgenrn ...

  5. CV之face_recognition:Py之face_recognition库安装、介绍、使用方法详细攻略

    CV之face_recognition:Py之face_recognition库安装.介绍.使用方法详细攻略 目录 face_recognition简介 face_recognition安装 face ...

  6. Py之docx:Python库之docx简介、安装、使用方法详细攻略

    Py之docx:Python库之docx简介.安装.使用方法详细攻略 目录 Python库之docx简介 Python库之docx安装 docx使用方法 1.打开文档

  7. Py之ipython:Python库之ipython的简介、安装、使用方法详细攻略

    Py之ipython:Python库之ipython的简介.安装.使用方法详细攻略 目录 ipython的简介 ipython的安装 ipython的使用方法 ipython的简介 ipython是一 ...

  8. Py之pygame:Python的pygame库的简介、安装、使用方法详细攻略

    Py之pygame:Python的pygame库的简介.安装.使用方法详细攻略 目录 pygame库的简介 pygame库的安装 pygame库的使用方法 pygame库的简介 PyPoice是SDL ...

  9. Py之PyTables:PyTables的简介、安装、使用方法详细攻略

    Py之PyTables:PyTables的简介.安装.使用方法详细攻略 目录 PyTables的简介 PyTables的安装 PyTables的使用方法 PyTables的简介 pytables是包管 ...

最新文章

  1. 量子态太「脆弱」如何纠错?MIT教授Peter Shor多年研究得到验证
  2. Java使用POI读取和写入Excel指南
  3. 关于css的一些特别用法
  4. phantomjs安装所需依赖
  5. 宋体配置JAVA j2ee (一) 轻松入门
  6. python123测验2答案八边形_Python试卷
  7. HDU 4085 Peach Blossom Spring
  8. IPAD移动端交互原型通用设计方案、ipad元件库、移动元件库、元件列表、设计元件、交互示例、界面模板、设备模板、手势图标、社交界面、音乐、电商、视图控制器、指示器、指纹解锁、手势解锁、rp元件库
  9. 超分辨率重建双三次插值Bicubic生成高分辨率图像
  10. 两个分数化简比怎么化_分数化简比的方法什么,六年级上求比值与化简比的对比...
  11. 在用mybatis时报错java.lang.AbstractMethodError: com.mysql.jdbc.ServerPreparedState
  12. MacBook Pro 上网很慢
  13. 年长车友的单车游记:骑单车游崇明岛(转)
  14. 现代战争——僵尸网络的历史 上篇
  15. 用c语言编写九九乘法表
  16. 支付宝转账又出新方法:悬浮条自动识别输入,避免失误尴尬
  17. 如何写linux软件专利,Linux之父:软件专利和方法专利都挺扯淡
  18. 两天价网站背后重重迷雾:做个网站究竟要多少钱
  19. jQuery带缩略图轮播效果图片切换带缩略图
  20. Java多线程之Exchanger

热门文章

  1. 上云有风险 公有云选型小心进坑
  2. 详解布局之--静态、自适应、流式、响应式
  3. windows2003权限如何配置
  4. linux中locate find 与 grep
  5. 肝一波 ~ 手写一个简易版的Mybatis,带你深入领略它的魅力!
  6. 厉害了!SpringBoot是如何动起来的!
  7. 史上最坑爹的代码!个个让人崩溃!
  8. 程序员接私活的途径以及正确方式。
  9. 没有文档,没有老员工讲解,悲催的新人如何快速熟悉一个新项目?
  10. Google图解:Chrome 快是有原因的,科普浏览器架构!