python3与Beautiful Soup库
BeautifulSoup库主要用于处理HTML和XML格式的文件,常用于网络爬虫。
但是BeautifulSoup库的3版本已不再更新,所以现在主要来说下4版本及之后的版本。
首先是安装:
安装文件在这里:
使用pip 安装4版本时要注意应该用
pip install bs4
然后就是库的引用格式的改变:
3版本:
from BeautifulSoup import BeautifulSoup # For processing HTML
from BeautifulSoup import BeautifulStoneSoup # For processing XML
import BeautifulSoup # To get everything
4版本:
import bs4 # To get everything
在使用时也有一些差别。具体可参照这里,要注意的是这里的示例是在python2中的,需要自行转换成python3(示例中仅仅只需要把print后的内容加上小括号就可以运行了)。而且示例是基于3版本的。
例如实例中:
from BeautifulSoup import BeautifulSoup
import redoc = ['<html><head><title>Page title</title></head>','<body><p id="firstpara" align="center">This is paragraph <b>one</b>.','<p id="secondpara" align="blah">This is paragraph <b>two</b>.','</html>']
soup = BeautifulSoup(''.join(doc))print soup.prettify()
# <html>
# <head>
# <title>
# Page title
# </title>
# </head>
# <body>
# <p id="firstpara" align="center">
# This is paragraph
# <b>
# one
# </b>
# .
# </p>
# <p id="secondpara" align="blah">
# This is paragraph
# <b>
# two
# </b>
# .
# </p>
# </body>
# </html>
我们在4版本中就应该改为
from bs4 import BeautifulSoup
import redoc = ['<html><head><title>Page title</title></head>','<body><p id="firstpara" align="center">This is paragraph <b>one</b>.','<p id="secondpara" align="blah">This is paragraph <b>two</b>.','</html>']
soup = BeautifulSoup(''.join(doc))print(soup.prettify())
# <html>
# <head>
# <title>
# Page title
# </title>
# </head>
# <body>
# <p align="center" id="firstpara">
# This is paragraph
# <b>
# one
# </b>
# .
# <p align="blah" id="secondpara">
# This is paragraph
# <b>
# two
# </b>
# .
# </p>
# </p>
# </body>
#</html>
可以看出输出是有一些差别的,体现在第一个 < /b >出现的位置,还有一些小差别就自己探索吧。
还有一点就是4版本中处理HTML和XML只需要一个函数就可以了,而不需要3版本中的BeautifulSoup和BeautifulStoneSoup两个函数分别处理。
python3与Beautiful Soup库相关推荐
- Beautiful Soup库的用法
Beautiful Soup库的用法 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Bea ...
- python爬虫beautifulsoup实例-Python爬虫学习(二)使用Beautiful Soup库
(一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: impor ...
- Python 网络爬虫笔记5 -- Beautiful Soup库实战
Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...
- Python 网络爬虫笔记3 -- Beautiful Soup库
Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...
- Beautiful Soup库
Beautiful Soup:美味汤 非常优秀的python第三方库 能够对html.xml格式进行解析,并且提取其中的相关信息 Beautiful Soup可以对你提供给他的任何格式进行相关的爬取, ...
- python中bs4库_python系统学习2——beautiful soup库(bs4库)学习
beautiful soup库作为python第三方库,可以对html语言进行很好的树形解析,"美味汤"的直译也是在说能够把文档像一锅汤一样进行调制. beautiful soup ...
- 【Python爬虫】Beautiful Soup库入门
BeautifulSoup库的安装 安装 pip install beautifulsoup4 测试是否安装成功 Python 3.8.3 (tags/v3.8.3:6f8c832, May 13 2 ...
- 爬虫第二讲:Beautiful Soup库
第二讲 Beautiful Soup库 一.Beautiful Soup库基础 1.示例引入 #首先爬取下页面 >>>import requests >>>r = ...
- 小白学爬虫(三 Beautiful Soup库)
Beautiful Soup库是解析HTML页面信息标记与提取方法,解析.维护.遍历"标签树"的功能库. 初步使用Beautiful Soup库 from bs4 import B ...
最新文章
- Coursera Machine Learning 作业提交问题
- 对讲机的那点事:带你玩转LD800数字车载台读、写频操作:一
- JAVA并发编程JUC基础学习(简介)
- extern quot;Cquot; 的含义:实现C++与C及其他语言的混合编程
- 震惊!!用图形界面装B居然只需要短短110行代码!!
- JAVA jlist 获取选定,java - 拆分并将选定的jList值移动到jTable行(SWING) - 堆栈内存溢出...
- 内存管理2(主讲MRR)
- spring p2p项目html,springboot2.x项目实战视频教程p2p金融中等项目
- perl 操作 timesten 数据库 带用户名和密码验证
- 思维导图形式带你读完《大型网站技术架构》中
- CorelDRAW2022新版本序列号 cdrx8安装向导教程
- android 雷达搜索动画,Android特效专辑(九)——仿微信雷达搜索好友特效,逻辑清晰实现简单...
- 降噪和变声的几个常用软件简单整理
- python eel_python eel打包问题解决
- SharePoint Designer 2013 和 Visio 2013 中的工作流开发
- 360 网站卫士 香港服务器,360网站卫士全民HTTPS免费开启
- ANSYS中关于质量矩阵 刚度矩阵的提取【1】
- 热门光学软件之初体验网络课程系列大纲5
- python从某行开始读_如何从文件的某一行开始读取?
- 达梦数据库(dm8)命令行安装过程
热门文章
- 【Java代码】京东商品全部分类数据获取(建表语句+Jar包依赖+树结构封装+爬虫源代码)包含csv和sql格式数据下载可用
- 【Windows环境】Fiddler发送POST请求携带文件问题记录
- 十大经典排序算法之选择排序及其优化
- 关于activiti中的三类网关
- 牛客题霸 NC18 顺时针旋转矩阵
- Sleepy Kaguya
- New Year and the Christmas Ornament
- springcloudstream+rabbitmq+eureka进行消息发送和接收实例代码
- Runtime底层原理--动态方法解析总结
- Convolutional Neural Networks卷积神经网络