BeautifulSoup库主要用于处理HTML和XML格式的文件,常用于网络爬虫。
但是BeautifulSoup库的3版本已不再更新,所以现在主要来说下4版本及之后的版本。
首先是安装:
安装文件在这里:
使用pip 安装4版本时要注意应该用

pip install bs4

然后就是库的引用格式的改变:
3版本:

from BeautifulSoup import BeautifulSoup          # For processing HTML
from BeautifulSoup import BeautifulStoneSoup     # For processing XML
import BeautifulSoup                             # To get everything

4版本:

import bs4                                      # To get everything

在使用时也有一些差别。具体可参照这里,要注意的是这里的示例是在python2中的,需要自行转换成python3(示例中仅仅只需要把print后的内容加上小括号就可以运行了)。而且示例是基于3版本的。
例如实例中:

from BeautifulSoup import BeautifulSoup
import redoc = ['<html><head><title>Page title</title></head>','<body><p id="firstpara" align="center">This is paragraph <b>one</b>.','<p id="secondpara" align="blah">This is paragraph <b>two</b>.','</html>']
soup = BeautifulSoup(''.join(doc))print soup.prettify()
# <html>
#  <head>
#   <title>
#    Page title
#   </title>
#  </head>
#  <body>
#   <p id="firstpara" align="center">
#    This is paragraph
#    <b>
#     one
#    </b>
#    .
#   </p>
#   <p id="secondpara" align="blah">
#    This is paragraph
#    <b>
#     two
#    </b>
#    .
#   </p>
#  </body>
# </html>

我们在4版本中就应该改为

from bs4 import BeautifulSoup
import redoc = ['<html><head><title>Page title</title></head>','<body><p id="firstpara" align="center">This is paragraph <b>one</b>.','<p id="secondpara" align="blah">This is paragraph <b>two</b>.','</html>']
soup = BeautifulSoup(''.join(doc))print(soup.prettify())
# <html>
# <head>
#  <title>
#   Page title
#  </title>
# </head>
# <body>
#  <p align="center" id="firstpara">
#   This is paragraph
#   <b>
#    one
#   </b>
#   .
#   <p align="blah" id="secondpara">
#    This is paragraph
#    <b>
#     two
#    </b>
#    .
#   </p>
#  </p>
# </body>
#</html>

可以看出输出是有一些差别的,体现在第一个 < /b >出现的位置,还有一些小差别就自己探索吧。
还有一点就是4版本中处理HTML和XML只需要一个函数就可以了,而不需要3版本中的BeautifulSoup和BeautifulStoneSoup两个函数分别处理。

python3与Beautiful Soup库相关推荐

  1. Beautiful Soup库的用法

    Beautiful Soup库的用法 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Bea ...

  2. python爬虫beautifulsoup实例-Python爬虫学习(二)使用Beautiful Soup库

    (一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: impor ...

  3. Python 网络爬虫笔记5 -- Beautiful Soup库实战

    Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...

  4. Python 网络爬虫笔记3 -- Beautiful Soup库

    Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...

  5. Beautiful Soup库

    Beautiful Soup:美味汤 非常优秀的python第三方库 能够对html.xml格式进行解析,并且提取其中的相关信息 Beautiful Soup可以对你提供给他的任何格式进行相关的爬取, ...

  6. python中bs4库_python系统学习2——beautiful soup库(bs4库)学习

    beautiful soup库作为python第三方库,可以对html语言进行很好的树形解析,"美味汤"的直译也是在说能够把文档像一锅汤一样进行调制. beautiful soup ...

  7. 【Python爬虫】Beautiful Soup库入门

    BeautifulSoup库的安装 安装 pip install beautifulsoup4 测试是否安装成功 Python 3.8.3 (tags/v3.8.3:6f8c832, May 13 2 ...

  8. 爬虫第二讲:Beautiful Soup库

    第二讲 Beautiful Soup库 一.Beautiful Soup库基础 1.示例引入 #首先爬取下页面 >>>import requests >>>r = ...

  9. 小白学爬虫(三 Beautiful Soup库)

    Beautiful Soup库是解析HTML页面信息标记与提取方法,解析.维护.遍历"标签树"的功能库. 初步使用Beautiful Soup库 from bs4 import B ...

最新文章

  1. Coursera Machine Learning 作业提交问题
  2. 对讲机的那点事:带你玩转LD800数字车载台读、写频操作:一
  3. JAVA并发编程JUC基础学习(简介)
  4. extern quot;Cquot; 的含义:实现C++与C及其他语言的混合编程
  5. 震惊!!用图形界面装B居然只需要短短110行代码!!
  6. JAVA jlist 获取选定,java - 拆分并将选定的jList值移动到jTable行(SWING) - 堆栈内存溢出...
  7. 内存管理2(主讲MRR)
  8. spring p2p项目html,springboot2.x项目实战视频教程p2p金融中等项目
  9. perl 操作 timesten 数据库 带用户名和密码验证
  10. 思维导图形式带你读完《大型网站技术架构》中
  11. CorelDRAW2022新版本序列号 cdrx8安装向导教程
  12. android 雷达搜索动画,Android特效专辑(九)——仿微信雷达搜索好友特效,逻辑清晰实现简单...
  13. 降噪和变声的几个常用软件简单整理
  14. python eel_python eel打包问题解决
  15. SharePoint Designer 2013 和 Visio 2013 中的工作流开发
  16. 360 网站卫士 香港服务器,360网站卫士全民HTTPS免费开启
  17. ANSYS中关于质量矩阵 刚度矩阵的提取【1】
  18. 热门光学软件之初体验网络课程系列大纲5
  19. python从某行开始读_如何从文件的某一行开始读取?
  20. 达梦数据库(dm8)命令行安装过程

热门文章

  1. 【Java代码】京东商品全部分类数据获取(建表语句+Jar包依赖+树结构封装+爬虫源代码)包含csv和sql格式数据下载可用
  2. 【Windows环境】Fiddler发送POST请求携带文件问题记录
  3. 十大经典排序算法之选择排序及其优化
  4. 关于activiti中的三类网关
  5. 牛客题霸 NC18 顺时针旋转矩阵
  6. Sleepy Kaguya
  7. New Year and the Christmas Ornament
  8. springcloudstream+rabbitmq+eureka进行消息发送和接收实例代码
  9. Runtime底层原理--动态方法解析总结
  10. Convolutional Neural Networks卷积神经网络