Python网络爬虫与信息提取（二）（BeautifulSoup库）

BeautifulSoup库是解析、遍历、维护.html或.xml的功能库

①BeautifulSoup库的安装：

在cmd命令行中输入： pip install beautifulsoup4即可

②BeautifulSoup库的引用：

from bs4 import BeautifulSoup

BeautifulSoup库，也叫beautifulsoup4或bs4

③检测Beautiful Soup库是否安装成功以及使用BeautifulSoup库对网页进行解析：

整个解析过程的主要代码：

from bf4 import BeautifulSoup
soup=BeautifulSoup('<p>data</p>','html.parser')

④BeautifulSoup库的四种解析器：

⑤BeautifulSoup类的基本元素及相应用法：

在DOS命令下：

C:\Users\Administrator\python

>>>import requests

>>>r=requests.get(“http://python123.io/ws/demo.html”)

>>>r.text

>>>demo=r.text

>>>from bs4 import BeautifulSoup

>>>soup=BeautifulSoup(demo,”html.parser”)

>>>print(soup.prettify())

>>>soup.title

>>>tag=soup.a

>>>tag

Comment的用法：

⑥基于bs4库的HTML内容遍历方法

标签树的下行遍历：

遍历儿子节点 ==> for child in soup.body.children:

print(child)

遍历子孙节点 ==> for child in soup.body.children:

print(child)

标签树的上行遍历：

属性 .parent 说明节点的父类标签

属性 .parents 说明节点先辈标签的迭代类型，用于循环遍历先辈节点

标签树的平行遍历：

平行遍历发生在同一个父节点下的各节点间

1）遍历后续节点

for sibling in soup.a.next_siblings:

print(sibling)

2)遍历前续节点

for sibling in soup.a.previous_siblings:

print(sibling)

转载于:https://www.cnblogs.com/jianqiao123/p/11176124.html

Python网络爬虫与信息提取（二）（BeautifulSoup库）相关推荐

Python网络爬虫与信息提取(二)：网络爬虫之提取
此系列笔记来源于中国大学MOOC-北京理工大学-嵩天老师的Python系列课程转载自:http://www.jianshu.com/p/7b950b8a5966 4. Beautiful Soup ...
python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
Python网络爬虫与信息提取笔记08-实例2：淘宝商品比价定向爬虫
Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...
Python网络爬虫与信息提取（17）—— 题库爬取与整理+下载答案
前言上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理效果思路爬答案有点难搞,像这种题库的答案都是 ...
Python网络爬虫与信息提取—requests库入门
requests的学习笔记 requests库自动爬取HTML页面,自动网络请求提交此博客为中国大学MOOC北京理工大学<Python网络爬虫与信息提取>的学习笔记 requests库的 ...
Python 网络爬虫笔记3 -- Beautiful Soup库
Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
Python网络爬虫与信息提取笔记（续篇）（文末附教学视频）只供教学讲解，请勿对有robots协议的网站（如淘宝网）造成骚扰
接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...
python网络爬虫与信息提取（笔记）【未完】
目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析爬取网 ...
Python 网络爬虫笔记5 -- Beautiful Soup库实战
Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...

Python网络爬虫与信息提取（二）（BeautifulSoup库）

Python网络爬虫与信息提取（二）（BeautifulSoup库）相关推荐

最新文章

热门文章