BeautifulSoup库是解析、遍历、维护.html或.xml的功能库

①BeautifulSoup库的安装:

在cmd命令行中输入: pip install beautifulsoup4即可

②BeautifulSoup库的引用:

from bs4 import BeautifulSoup

BeautifulSoup库,也叫beautifulsoup4或bs4

③检测Beautiful Soup库是否安装成功以及使用BeautifulSoup库对网页进行解析:

整个解析过程的主要代码:

from bf4 import BeautifulSoup
soup=BeautifulSoup('<p>data</p>','html.parser')

④BeautifulSoup库的四种解析器:

⑤BeautifulSoup类的基本元素及相应用法:

在DOS命令下:

C:\Users\Administrator\python

>>>import requests

>>>r=requests.get(“http://python123.io/ws/demo.html”)

>>>r.text

>>>demo=r.text

>>>from bs4 import BeautifulSoup

>>>soup=BeautifulSoup(demo,”html.parser”)

>>>print(soup.prettify())

>>>soup.title

>>>tag=soup.a

>>>tag

Comment的用法:

⑥基于bs4库的HTML内容遍历方法

标签树的下行遍历:

遍历儿子节点 ==>  for child in soup.body.children:

print(child)

遍历子孙节点 ==>  for child in soup.body.children:

print(child)

标签树的上行遍历:

属性  .parent      说明    节点的父类标签

属性  .parents    说明     节点先辈标签的迭代类型,用于循环遍历先辈节点

标签树的平行遍历:

平行遍历发生在同一个父节点下的各节点间

1)遍历后续节点

for sibling in soup.a.next_siblings:

print(sibling)

2)遍历前续节点

for sibling in soup.a.previous_siblings:

print(sibling)

转载于:https://www.cnblogs.com/jianqiao123/p/11176124.html

Python网络爬虫与信息提取(二)(BeautifulSoup库)相关推荐

  1. Python网络爬虫与信息提取(二):网络爬虫之提取

    此系列笔记来源于 中国大学MOOC-北京理工大学-嵩天老师的Python系列课程 转载自:http://www.jianshu.com/p/7b950b8a5966 4. Beautiful Soup ...

  2. python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取(一)

    学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...

  3. Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫

    Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...

  4. Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案

    前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...

  5. Python网络爬虫与信息提取—requests库入门

    requests的学习笔记 requests库自动爬取HTML页面,自动网络请求提交 此博客为中国大学MOOC北京理工大学<Python网络爬虫与信息提取>的学习笔记 requests库的 ...

  6. Python 网络爬虫笔记3 -- Beautiful Soup库

    Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...

  7. Python网络爬虫与信息提取

    1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...

  8. Python网络爬虫与信息提取笔记(续篇)(文末附教学视频)只供教学讲解,请勿对有robots协议的网站(如淘宝网)造成骚扰

    接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法 标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...

  9. python网络爬虫与信息提取(笔记)【未完】

    目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析 爬取网 ...

  10. Python 网络爬虫笔记5 -- Beautiful Soup库实战

    Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...

最新文章

  1. Python基础23_os,sys,序列化,pickle,json
  2. hadoop+hive+spark搭建(一)
  3. 成功解决The NVIDIA driver on your system is too old (found version 9010). Please update your GPU driver
  4. java实体中文字段_java - Spring JPA实体类是否可以包含不在数据库表中的非数据库字段 - SO中文参考 - www.soinside.com...
  5. 深入理解CRITICAL_SECTION
  6. Entity Framework 6 Recipes 2nd Edition(13-6)译 - 自动编译的LINQ查询
  7. python怎么导入txt文件-python – 如何一次读取和附加到文本文件?
  8. smpt authentification 配置
  9. 全国省市区行政编码数据表 sql格式
  10. codeigniter配置
  11. python招聘杭州拉勾网_Python3获取拉勾网招聘信息
  12. linux中常用的60个命令及作用详解
  13. 【猿说VUE】Vue列表渲染
  14. 为什么我的windows 10 电脑关机时,电脑灯延迟很久才熄灭?
  15. 在小县城做什么生意好?
  16. 【转录调控网络】代谢组学与其他组学的联合分析经典模式简介
  17. 时间流逝,岁月里所有的狼狈
  18. 微型计算机显卡必须插在主板的,花小钱办大事 不同型号N卡组建SLI系统
  19. 【JavaScript】获取指定字符串
  20. 荣耀30lite支持鸿蒙,荣耀30支持NFC功能吗

热门文章

  1. [转]制作BlogWriter 博客客户端
  2. 自学python推荐书籍同时找哪些来实践-Python学习路上有这些论坛、网站、书籍与你同行...
  3. python自学教材-最好的Python入门教材是哪本?
  4. python程序实例源代码-Python 神经网络手写识别实例源码
  5. python urllib.request 爬虫 数据处理-Python爬虫学习之(二)| urllib进阶篇
  6. python画曲线图例-如何使用python画曲线图
  7. python代码示例下载-python爬取音频下载的示例代码
  8. python对电脑最低要求-用Python编写的代码瑕疵程度最低
  9. python学习书籍推荐-Python语言之6本机器学习书籍推荐
  10. python百度云资源-Python开发视频百度云分享