BeautifulSoup
中文文档: https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html;https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#
网页解析库,处理高效,可以代替正则表达式

1. 基本使用

from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.prettigy())print(soup.title,string)

2. 标签选择器:

选择元素:

from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.title)print(soup.head)     #head标签print(soup.p)    #只匹配第一个P标签

3. 获取名称
  print(soup.title.name)

4. 获取属性
  print(soup.p.attrs['name'])=print(soup.p['name'])
5. 获取内容:
  print(soup.p.string)
6. 嵌套选择:
  print(soup.head.title.string)
7. 子节点和子孙节点

        print(soup.p.contents)    #结果以列表形式显示from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.p.children)    #子节点,迭代器for i,child in enumerate(soup.p.children)print(i,child)from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.p.descendants)    #子孙节点,获取下面所有节点for i,child in enumerate(soup.p.descendants)     #enumerate ==>枚举print(i,child)

8.父节点,祖先节点:
  print(soup.a.parent) #父节点
  print(soup.a.parents) #祖先节点
9. 兄弟节点:
  print(soup.a.next_sonlings)
  print(soup.a.previous_sonlings)

10. 标准选择器:

     find_all(name, attrs,text)    #返回所有查找到的元素find(name, attrs,text)    #返回查找到的第一个元素find_parents()    #查找所有父节点find_parant()    #查到上一个父节点

11. CSS选择器
通过select()直接传入CSS选择器即可完成选择

                from bs4 import BeautifulSoupsoup=BeautifulSoup(html,'lxml')print(soup.select('.panel'.panel-heading))    

转载于:https://www.cnblogs.com/spencersun/p/9577955.html

python 爬虫_BeautifulSoup详细用法相关推荐

  1. python爬虫原理-python爬虫原理详细讲解

    原标题:python爬虫原理详细讲解 一 .爬虫是什么 1.什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样. 2.互联网建立的目的?互联网的 ...

  2. python os模块详细用法

    os 模块提供了非常丰富的方法用来处理文件和目录 os关于目录路径的方法 # 获取当前路径 path = os.getcwd()# 获取当前绝对路径 os.path.abspath(path)# 创建 ...

  3. 最详细的爬虫实战 | 手把手教你用Python爬虫(附详细源码)

    什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

  4. Python爬虫超详细讲解(零基础入门,老年人都看的懂)!

    注重版权,转载请注明原作者和原文链接 作者:码农BookSea 原文链接:https://blog.csdn.net/bookssea/article/details/107309591 先看后赞,养 ...

  5. Python爬虫实战-详细讲解爬取安居客房价数据

    最近在尝试用python爬取安居客房价数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取的 ...

  6. 如何入门 Python 爬虫?详细教程在这里

    根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义.组成部分.爬取流程,并讲解示例代码. 基础 爬虫的定义:定向抓取互联网内容(大部分为网页).并进行自动化数据处理的程序.主要用于对松散的海量信息进 ...

  7. python爬虫技术源码_实战|手把手教你用Python爬虫(附详细源码)

    大家好,我是J哥,专注原创,致力于用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识.最近J哥做了个爬虫小项目,感觉还挺适合新手入门的,于是迫不及待想分享给大家. 什么是爬虫? ...

  8. 实战|手把手教你用Python爬虫(附详细源码)

    什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

  9. 爬虫实战|手把手教你用Python爬虫(附详细源码)

    什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

最新文章

  1. Softmax函数详解与推导
  2. 使用SpringBoot的jackson包进行实体类型转换
  3. 静态服务器显示固定页面,【Python高级编程034 ● 静态web服务器 ● 静态Web服务器-返回固定页面数据】...
  4. Centos7配置为NAT服务器
  5. 基于mui框架读取nfc数据_基于NFC的数据采集软件系统的设计与实现
  6. 深度解密Go语言之unsafe
  7. TensorFlow(十)定义图变量的方法
  8. CSU 1203 Super-increasing sequence
  9. Style和Script中的注释问题。
  10. WinForm XML
  11. 手机内置摄像头接线图解_1000以下手机哪款好?8款千元以内性价比最高的手机推荐...
  12. 平衡小车——编码器原理及其使用
  13. matlab中欧姆如何表示,Excel中怎样输入欧姆特殊符号
  14. 如何检查网站死链接 分享检查死链接方法
  15. 计算机硬件的五大逻辑部分,计算机的硬件系统由五大部分组成(计算机由几部分组成)...
  16. python基础语法和变量
  17. GPIO寄存器原理与操作
  18. 搜狗输入html,搜狗输入法:回家的路
  19. conda的常用命令
  20. tesseract验证码训练部骤

热门文章

  1. 【CCF】201909-2小明分苹果
  2. 字符串处理的基本方法
  3. JS实现鼠标点击展开/隐藏表格行
  4. 判断php图片是否存在,php判断远程图片是否存在
  5. kettle分批处理大表数据_采用Kettle分页处理大数据量抽取任务
  6. np.cross函数详解
  7. Qt利用setStyleSheet设置样式
  8. TensorFlow第三步 :单层网络-Mnist手写数字识别
  9. Unity MVC框架 StrangeIoC
  10. 扩展欧几里得exgcd算法 acm寒假集训日记22/1/12