python3与Beautiful Soup库

BeautifulSoup库主要用于处理HTML和XML格式的文件，常用于网络爬虫。
但是BeautifulSoup库的3版本已不再更新，所以现在主要来说下4版本及之后的版本。
首先是安装：
安装文件在这里：
使用pip 安装4版本时要注意应该用

pip install bs4

然后就是库的引用格式的改变：
3版本：

from BeautifulSoup import BeautifulSoup          # For processing HTML
from BeautifulSoup import BeautifulStoneSoup     # For processing XML
import BeautifulSoup                             # To get everything

4版本：

import bs4                                      # To get everything

在使用时也有一些差别。具体可参照这里，要注意的是这里的示例是在python2中的，需要自行转换成python3（示例中仅仅只需要把print后的内容加上小括号就可以运行了）。而且示例是基于3版本的。
例如实例中：

from BeautifulSoup import BeautifulSoup
import redoc = ['<html><head><title>Page title</title></head>','<body><p id="firstpara" align="center">This is paragraph <b>one</b>.','<p id="secondpara" align="blah">This is paragraph <b>two</b>.','</html>']
soup = BeautifulSoup(''.join(doc))print soup.prettify()
# <html>
#  <head>
#   <title>
#    Page title
#   </title>
#  </head>
#  <body>
#   <p id="firstpara" align="center">
#    This is paragraph
#    <b>
#     one
#    </b>
#    .
#   </p>
#   <p id="secondpara" align="blah">
#    This is paragraph
#    <b>
#     two
#    </b>
#    .
#   </p>
#  </body>
# </html>

我们在4版本中就应该改为

from bs4 import BeautifulSoup
import redoc = ['<html><head><title>Page title</title></head>','<body><p id="firstpara" align="center">This is paragraph <b>one</b>.','<p id="secondpara" align="blah">This is paragraph <b>two</b>.','</html>']
soup = BeautifulSoup(''.join(doc))print(soup.prettify())
# <html>
# <head>
#  <title>
#   Page title
#  </title>
# </head>
# <body>
#  <p align="center" id="firstpara">
#   This is paragraph
#   <b>
#    one
#   </b>
#   .
#   <p align="blah" id="secondpara">
#    This is paragraph
#    <b>
#     two
#    </b>
#    .
#   </p>
#  </p>
# </body>
#</html>

可以看出输出是有一些差别的，体现在第一个 < /b >出现的位置，还有一些小差别就自己探索吧。
还有一点就是4版本中处理HTML和XML只需要一个函数就可以了，而不需要3版本中的BeautifulSoup和BeautifulStoneSoup两个函数分别处理。

python3与Beautiful Soup库相关推荐

Beautiful Soup库的用法
Beautiful Soup库的用法 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Bea ...
python爬虫beautifulsoup实例-Python爬虫学习（二）使用Beautiful Soup库
(一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: impor ...
Python 网络爬虫笔记5 -- Beautiful Soup库实战
Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...
Python 网络爬虫笔记3 -- Beautiful Soup库
Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...
Beautiful Soup库
Beautiful Soup:美味汤非常优秀的python第三方库能够对html.xml格式进行解析,并且提取其中的相关信息 Beautiful Soup可以对你提供给他的任何格式进行相关的爬取, ...
python中bs4库_python系统学习2——beautiful soup库（bs4库）学习
beautiful soup库作为python第三方库,可以对html语言进行很好的树形解析,"美味汤"的直译也是在说能够把文档像一锅汤一样进行调制. beautiful soup ...
【Python爬虫】Beautiful Soup库入门
BeautifulSoup库的安装安装 pip install beautifulsoup4 测试是否安装成功 Python 3.8.3 (tags/v3.8.3:6f8c832, May 13 2 ...
爬虫第二讲：Beautiful Soup库
第二讲 Beautiful Soup库一.Beautiful Soup库基础 1.示例引入 #首先爬取下页面 >>>import requests >>>r = ...
小白学爬虫（三 Beautiful Soup库）
Beautiful Soup库是解析HTML页面信息标记与提取方法,解析.维护.遍历"标签树"的功能库. 初步使用Beautiful Soup库 from bs4 import B ...

python3与Beautiful Soup库

python3与Beautiful Soup库相关推荐

最新文章

热门文章