Python网络爬虫与信息提取(二)(BeautifulSoup库)
BeautifulSoup库是解析、遍历、维护.html或.xml的功能库
①BeautifulSoup库的安装:
在cmd命令行中输入: pip install beautifulsoup4即可
②BeautifulSoup库的引用:
from bs4 import BeautifulSoup
BeautifulSoup库,也叫beautifulsoup4或bs4
③检测Beautiful Soup库是否安装成功以及使用BeautifulSoup库对网页进行解析:
整个解析过程的主要代码:
from bf4 import BeautifulSoup soup=BeautifulSoup('<p>data</p>','html.parser')
④BeautifulSoup库的四种解析器:
⑤BeautifulSoup类的基本元素及相应用法:
在DOS命令下:
C:\Users\Administrator\python
>>>import requests
>>>r=requests.get(“http://python123.io/ws/demo.html”)
>>>r.text
>>>demo=r.text
>>>from bs4 import BeautifulSoup
>>>soup=BeautifulSoup(demo,”html.parser”)
>>>print(soup.prettify())
>>>soup.title
>>>tag=soup.a
>>>tag
Comment的用法:
⑥基于bs4库的HTML内容遍历方法
标签树的下行遍历:
遍历儿子节点 ==> for child in soup.body.children:
print(child)
遍历子孙节点 ==> for child in soup.body.children:
print(child)
标签树的上行遍历:
属性 .parent 说明 节点的父类标签
属性 .parents 说明 节点先辈标签的迭代类型,用于循环遍历先辈节点
标签树的平行遍历:
平行遍历发生在同一个父节点下的各节点间
1)遍历后续节点
for sibling in soup.a.next_siblings:
print(sibling)
2)遍历前续节点
for sibling in soup.a.previous_siblings:
print(sibling)
转载于:https://www.cnblogs.com/jianqiao123/p/11176124.html
Python网络爬虫与信息提取(二)(BeautifulSoup库)相关推荐
- Python网络爬虫与信息提取(二):网络爬虫之提取
此系列笔记来源于 中国大学MOOC-北京理工大学-嵩天老师的Python系列课程 转载自:http://www.jianshu.com/p/7b950b8a5966 4. Beautiful Soup ...
- python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取(一)
学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
- Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫
Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...
- Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案
前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...
- Python网络爬虫与信息提取—requests库入门
requests的学习笔记 requests库自动爬取HTML页面,自动网络请求提交 此博客为中国大学MOOC北京理工大学<Python网络爬虫与信息提取>的学习笔记 requests库的 ...
- Python 网络爬虫笔记3 -- Beautiful Soup库
Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...
- Python网络爬虫与信息提取
1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
- Python网络爬虫与信息提取笔记(续篇)(文末附教学视频)只供教学讲解,请勿对有robots协议的网站(如淘宝网)造成骚扰
接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法 标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...
- python网络爬虫与信息提取(笔记)【未完】
目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析 爬取网 ...
- Python 网络爬虫笔记5 -- Beautiful Soup库实战
Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...
最新文章
- Python基础23_os,sys,序列化,pickle,json
- hadoop+hive+spark搭建(一)
- 成功解决The NVIDIA driver on your system is too old (found version 9010). Please update your GPU driver
- java实体中文字段_java - Spring JPA实体类是否可以包含不在数据库表中的非数据库字段 - SO中文参考 - www.soinside.com...
- 深入理解CRITICAL_SECTION
- Entity Framework 6 Recipes 2nd Edition(13-6)译 - 自动编译的LINQ查询
- python怎么导入txt文件-python – 如何一次读取和附加到文本文件?
- smpt authentification 配置
- 全国省市区行政编码数据表 sql格式
- codeigniter配置
- python招聘杭州拉勾网_Python3获取拉勾网招聘信息
- linux中常用的60个命令及作用详解
- 【猿说VUE】Vue列表渲染
- 为什么我的windows 10 电脑关机时,电脑灯延迟很久才熄灭?
- 在小县城做什么生意好?
- 【转录调控网络】代谢组学与其他组学的联合分析经典模式简介
- 时间流逝,岁月里所有的狼狈
- 微型计算机显卡必须插在主板的,花小钱办大事 不同型号N卡组建SLI系统
- 【JavaScript】获取指定字符串
- 荣耀30lite支持鸿蒙,荣耀30支持NFC功能吗
热门文章
- [转]制作BlogWriter 博客客户端
- 自学python推荐书籍同时找哪些来实践-Python学习路上有这些论坛、网站、书籍与你同行...
- python自学教材-最好的Python入门教材是哪本?
- python程序实例源代码-Python 神经网络手写识别实例源码
- python urllib.request 爬虫 数据处理-Python爬虫学习之(二)| urllib进阶篇
- python画曲线图例-如何使用python画曲线图
- python代码示例下载-python爬取音频下载的示例代码
- python对电脑最低要求-用Python编写的代码瑕疵程度最低
- python学习书籍推荐-Python语言之6本机器学习书籍推荐
- python百度云资源-Python开发视频百度云分享