python bs4 基本应用

import requests
from bs4 import BeautifulSoup

# 创建BeautifulSoup对象
# 当数据来源为本地文件时
file = open("xxx.html")
soup = BeautifulSoup(file, "lxml")

# 当数据来源为网络时
content = requests.get("url请求").text
soup = BeautifulSoup(content, "lxml")

#1 按标签名查找标签
soup.a # 获取第一个匹配到的标签

#2 属性
soup.a.attrs # 获取标签中所有属性名与对应属性值的字典
soup.a.attrs["属性名"] # 获取属性名对应的属性值
soup.a.["属性名"] # 获取属性名对应的属性值的简写
soup.a.string # 获取第一个匹配到的标签的内容
soup.a.text # 获取第一个匹配到的标签以及其所包含的子标签的所有内容

#3 函数
soup.a.get_text() # 同soup.a.text
soup.find("a") # 同soup.a
soup.find("a"，属性名="属性值") # 根据属性值定位到第一个匹配到的标签
   注意：若属性名是 class 则需要在后面加个下划线,写成 class_
soup.findall("a") # 获取匹配到的所有标签, 返回一个列表
soup.findall(["a", "b"]) # 可以获取多种类的标签
soup.findall("a", limit=2) # 获取前2个匹配到的标签
soup.select("选择器")
   选择器包括：
       标签选择器：soup.select("a")
       ID选择器：soup.select("#xxx")
       类选择器：soup.select(".xxx")
       层级选择器：soup.select("div a") # 任意多级
       或是：soup.select("div > a") # 直系的一级
   注意：select函数返回的永远是一个列表

python bs4 基本应用相关推荐

Python -bs4介绍
https://cuiqingcai.com/1319.html Python -BS4详细介绍 Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的. 在应用过程中有很多模 ...
python房地产爬虫_房产中介网站爬虫实战(Python BS4+多线程)(一)
本系列文章介绍了爬取链家和搜房网(房天下)数据的方法. 房产中介网站爬虫实战(Python BS4+多线程)(一) 房产中介网站爬虫实战(Python BS4+多线程)(二) 房地产市场向来是大数据分 ...
python - bs4提取XML/HTML中某个标签下的属性
python - bs4提取XML/HTML中某个标签下的属性一个例子就让你看明白.看完记得给博主点个赞噢. 我们要提取的xml原始文档来自以下网址: https://raw.githubuserc ...
Python BS4解析库用法详解
Python BS4解析库用法详解 Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据.Bea ...
Python bs4解析库使用详解
今天继续给大家介绍Python 爬虫相关知识,本文主要内容是Python bs4解析库使用详解. 一.Python bs4库简介与安装 bs4是Python的一个第三方库,主要用于从HTML或者是XM ...
python bs4 安装_Python安装Bs4的多种方法
安装方法一: ①进入python文件夹执行指令(前提是支持pip指令): pip3 install Beautifulsoup4 ②回车待安装完成,如果出现以下红框中内容,即代表安装成功 ③验证是否可 ...
python bs4 find_all_BeautifulSoup中的find，find_all
1.一般来说,为了找到BeautifulSoup对象内任何第一个标签入口,使用find()方法. 以上代码是一个生态金字塔的简单展示,为了找到第一生产者,第一消费者或第二消费者,可以使用Beautif ...
python bs4 + requests4 简单爬虫
参考链接: bs4和requests的使用:https://www.cnblogs.com/baojinjin/p/6819389.html 安装pip:https://blog.csdn.net/z ...
python bs4模块_python爬虫之Beautifulsoup模块用法详解
什么是beautifulsoup: 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.(官方) beautifulsoup是 ...
python bs4 之 BeautifulSoup 爬虫使用
python爬虫从入门到放弃(六)之 BeautifulSoup库的使用上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautif ...

python bs4 基本应用

python bs4 基本应用相关推荐

最新文章

热门文章