import requests
from bs4 import BeautifulSoup

# 创建BeautifulSoup对象
# 当数据来源为本地文件时
file = open("xxx.html")
soup = BeautifulSoup(file, "lxml")

# 当数据来源为网络时
content = requests.get("url请求").text
soup = BeautifulSoup(content, "lxml")

#1 按标签名查找标签
soup.a # 获取第一个匹配到的标签

#2 属性
soup.a.attrs # 获取标签中所有属性名与对应属性值的字典
soup.a.attrs["属性名"] # 获取属性名对应的属性值
soup.a.["属性名"] # 获取属性名对应的属性值的简写
soup.a.string # 获取第一个匹配到的标签的内容
soup.a.text # 获取第一个匹配到的标签以及其所包含的子标签的所有内容

#3 函数
soup.a.get_text() # 同soup.a.text
soup.find("a") # 同soup.a
soup.find("a",属性名="属性值") # 根据属性值定位到第一个匹配到的标签
    注意: 若属性名是 class 则需要在后面加个下划线,写成 class_
soup.findall("a") # 获取匹配到的所有标签, 返回一个列表
soup.findall(["a", "b"]) # 可以获取多种类的标签
soup.findall("a", limit=2) # 获取前2个匹配到的标签
soup.select("选择器")
    选择器包括:
        标签选择器:soup.select("a")
        ID选择器:soup.select("#xxx")
        类选择器:soup.select(".xxx")
        层级选择器:soup.select("div a") # 任意多级
        或是:soup.select("div > a") # 直系的一级
    注意:select函数返回的永远是一个列表

python bs4 基本应用相关推荐

  1. Python -bs4介绍

    https://cuiqingcai.com/1319.html Python -BS4详细介绍 Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的. 在应用过程中有很多模 ...

  2. python房地产爬虫_房产中介网站爬虫实战(Python BS4+多线程)(一)

    本系列文章介绍了爬取链家和搜房网(房天下)数据的方法. 房产中介网站爬虫实战(Python BS4+多线程)(一) 房产中介网站爬虫实战(Python BS4+多线程)(二) 房地产市场向来是大数据分 ...

  3. python - bs4提取XML/HTML中某个标签下的属性

    python - bs4提取XML/HTML中某个标签下的属性 一个例子就让你看明白.看完记得给博主点个赞噢. 我们要提取的xml原始文档来自以下网址: https://raw.githubuserc ...

  4. Python BS4解析库用法详解

    Python BS4解析库用法详解 Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据.Bea ...

  5. Python bs4解析库使用详解

    今天继续给大家介绍Python 爬虫相关知识,本文主要内容是Python bs4解析库使用详解. 一.Python bs4库简介与安装 bs4是Python的一个第三方库,主要用于从HTML或者是XM ...

  6. python bs4 安装_Python安装Bs4的多种方法

    安装方法一: ①进入python文件夹执行指令(前提是支持pip指令): pip3 install Beautifulsoup4 ②回车待安装完成,如果出现以下红框中内容,即代表安装成功 ③验证是否可 ...

  7. python bs4 find_all_BeautifulSoup中的find,find_all

    1.一般来说,为了找到BeautifulSoup对象内任何第一个标签入口,使用find()方法. 以上代码是一个生态金字塔的简单展示,为了找到第一生产者,第一消费者或第二消费者,可以使用Beautif ...

  8. python bs4 + requests4 简单爬虫

    参考链接: bs4和requests的使用:https://www.cnblogs.com/baojinjin/p/6819389.html 安装pip:https://blog.csdn.net/z ...

  9. python bs4模块_python爬虫之Beautifulsoup模块用法详解

    什么是beautifulsoup: 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.(官方) beautifulsoup是 ...

  10. python bs4 之 BeautifulSoup 爬虫使用

    python爬虫从入门到放弃(六)之 BeautifulSoup库的使用 上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautif ...

最新文章

  1. Java - HtmlEmail 邮件发送
  2. 王咏刚分享DeeCamp三年成功经验:学生超自主,导师很顶尖,批量培养AI人才不是梦...
  3. 每天一个linux命令(35):ln 命令
  4. [刘阳Java]_Web前端入门级练习_迅雷官宣网设计
  5. String 字符串最长可以有多长?
  6. ActiveMQ简介与安装
  7. 在python中len表示的数据类型是_python基本数据类型学习
  8. Android之Caused by: java.lang.IllegalArgumentException: Failed to find configured root that contains
  9. 【转载】用Snort巧妙检测SQL注入和跨站脚本攻击
  10. 07-OSPF区域类型--NSSA区域/完全NSSA区域
  11. HDU.1006 Tick and Tick
  12. 数据可视化软件有什么特点
  13. Struts2 简单的上传文件并且显示图片
  14. 通过银行卡号获取银行名称
  15. H264编码格式--图文解释
  16. python实现图像的理想滤波器、butterworth滤波器、指数滤波器
  17. ipad iphone开发_如何通过Chromecast观看iPhone / iPad视频?
  18. w ndows10更改浏览器,Win10系统默认浏览器怎么修改
  19. burpsuite实现抓Windows for Android(WSA)包
  20. uni-app二维码、条形码扫码自定义

热门文章

  1. Dropout和BN层的模式切换
  2. Laravel 在哪些地方使用了 trait ?
  3. 中介者模式(Mediator)
  4. msp430项目编程31
  5. android夸项目调用
  6. html、javascript、url特殊字符的转义诠释及使用方法详解
  7. ORCLE INNODB 博客与 innodb_lru_scan_depth
  8. 程序员眼中的统计学(3)】概率计算:把握机会
  9. 让Delphi的DataSnap发挥最大效率
  10. [转载]jQuery操作Table学习总结