python 爬虫_BeautifulSoup详细用法

BeautifulSoup
中文文档： https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html；https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#
网页解析库，处理高效，可以代替正则表达式

1. 基本使用

from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.prettigy())print(soup.title,string)

2. 标签选择器：

选择元素：

from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.title)print(soup.head)     #head标签print(soup.p)    #只匹配第一个P标签

3. 获取名称
　　print(soup.title.name)

4. 获取属性
　　print(soup.p.attrs['name'])=print(soup.p['name'])
5. 获取内容：
　　print(soup.p.string)
6. 嵌套选择：
　　print(soup.head.title.string)
7. 子节点和子孙节点

        print(soup.p.contents)    #结果以列表形式显示from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.p.children)    #子节点，迭代器for i,child in enumerate(soup.p.children)print(i,child)from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.p.descendants)    #子孙节点，获取下面所有节点for i,child in enumerate(soup.p.descendants)     #enumerate ==>枚举print(i,child)

8.父节点，祖先节点：
　　print(soup.a.parent) #父节点
　　print(soup.a.parents) #祖先节点
9. 兄弟节点：
　　print(soup.a.next_sonlings)
　　print(soup.a.previous_sonlings)

10. 标准选择器：

　　　　 find_all(name, attrs,text)    #返回所有查找到的元素find(name, attrs,text)    #返回查找到的第一个元素find_parents()    #查找所有父节点find_parant()    #查到上一个父节点

11. CSS选择器
通过select()直接传入CSS选择器即可完成选择

                from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.select('.panel'.panel-heading))

转载于:https://www.cnblogs.com/spencersun/p/9577955.html

python 爬虫_BeautifulSoup详细用法相关推荐

python爬虫原理-python爬虫原理详细讲解
原标题:python爬虫原理详细讲解一 .爬虫是什么 1.什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样. 2.互联网建立的目的?互联网的 ...
python os模块详细用法
os 模块提供了非常丰富的方法用来处理文件和目录 os关于目录路径的方法 # 获取当前路径 path = os.getcwd()# 获取当前绝对路径 os.path.abspath(path)# 创建 ...
最详细的爬虫实战 | 手把手教你用Python爬虫(附详细源码)
什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...
Python爬虫超详细讲解（零基础入门，老年人都看的懂）！
注重版权,转载请注明原作者和原文链接作者:码农BookSea 原文链接:https://blog.csdn.net/bookssea/article/details/107309591 先看后赞,养 ...
Python爬虫实战-详细讲解爬取安居客房价数据
最近在尝试用python爬取安居客房价数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取的 ...
如何入门 Python 爬虫？详细教程在这里
根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义.组成部分.爬取流程,并讲解示例代码. 基础爬虫的定义:定向抓取互联网内容(大部分为网页).并进行自动化数据处理的程序.主要用于对松散的海量信息进 ...
python爬虫技术源码_实战|手把手教你用Python爬虫(附详细源码)
大家好,我是J哥,专注原创,致力于用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识.最近J哥做了个爬虫小项目,感觉还挺适合新手入门的,于是迫不及待想分享给大家. 什么是爬虫? ...
实战|手把手教你用Python爬虫(附详细源码)
什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...
爬虫实战|手把手教你用Python爬虫(附详细源码)
什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

python 爬虫_BeautifulSoup详细用法

python 爬虫_BeautifulSoup详细用法相关推荐

最新文章

热门文章