from bs4 import BeautifulSoup

html = """

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were

,

Lacie and

Tillie;

and they lived at the bottom of a well.

...

"""

#按标签名查找

soup = BeautifulSoup(html,"lxml")  #使用lxml库解析网页

res = soup.select("title")  #查找标签为title的内容

print("标签title : ",res)

>>>标签title :  [

The Dormouse's story]  #输出一个list

soup = BeautifulSoup(html,"lxml")

res = soup.select("a")

print("标签a : ",res)

#此处输出的list有三个元素,因为标签a有三对

>>>标签a :  [, Lacie, Tillie]

#通过类名查找

soup = BeautifulSoup(html,"lxml")

res = soup.select(".title")  #查找class=title的内容

print("通过类名查找class=title : ",res)

>>>通过类名查找class=title :  [

The Dormouse's story

]

soup = BeautifulSoup(html,"lxml")

res = soup.select(".sister")

print("通过类名查找class=sister : ",res)

>>>通过类名查找class=sister :  [, Tillie]

#通过 id 名查找

soup = BeautifulSoup(html,"lxml")

res = soup.select("#link1")  #查找id=link1的内容

print("通过 id 名查找id=link1 : ",res)

>>>通过类名查找class=sister :  []

#通过组合查找

组合查找和写 class 文件时,标签名与类名、id名进行的组合原理是一样的,例如查找 p 标签中,id 等于 link1的内容,二者需要用空格分开

soup = BeautifulSoup(html,"lxml")

res = soup.select("p #link1")  #查找p标签中,id=link1的内容

print("通过组合查找group=p #link1 : ",res)

>>>通过组合查找group=p #link1 :  []

soup = BeautifulSoup(html,"lxml")

res = soup.select("p .brother")

print("通过组合查找group=p .brother : ",res)

>>>通过组合查找group=p .brother :  [Lacie]

#通过子标签查找

soup = BeautifulSoup(html,"lxml")

res = soup.select("head > title")  #head标签下的title子标签

print("通过子标签查找head > title : ",res)

>>>通过子标签查找head > title :  [

The Dormouse's story]

#通过属性查找

查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。

soup = BeautifulSoup(html,"lxml")

res = soup.select('a[href="http://example.com/elsie"]')  #a标签下属性为http://example.com/elsie的内容

print("通过属性查找 : ",res)

>>>通过属性查找 :  []

python爬虫筛选数据_[python爬虫]使用beautifulsoup库的select方法对网页内容进行筛选...相关推荐

  1. 如何用python爬取图片数据_“python爬取微博图片教程“用Python爬虫爬取的图片怎么知道图片有没有水印...

    怎样用python爬新浪微博大V所有数据 我是个微博重度,工作之余喜欢刷刷timeline看看有什么新鲜事发也因此认识了高质量的原创大V,有分享技术资料的,比如好东西传送门:有时不时给你一点人生经验的 ...

  2. python如何爬虫股票数据_简单爬虫:东方财富网股票数据爬取(python_017)

    需求:将东方财富网行情中心的股票数据爬取下来,包括上证指数.深圳指数.上证A股.深圳A股.新股.中小板.创业板 等 一.目标站点分析 东方财富网的行情中心页面包含了所有股票信息.在左侧的菜单栏中包含了 ...

  3. python 通达信数据_[python]沪深龙虎榜数据导入通达信的自选板块,并标注于K线图上...

    1 #coding=utf-8 2 3 #读取'[paint]'开头的csv文件 4 #copyright @ WangXinsheng 5 #http://www.cnblogs.com/wangx ...

  4. 用python玩转数据测试答案_MOOC_用Python玩转数据_测试答案

    利息.据测股息.红利所得以每次收入额为应纳税所得额.A:错B:对 利息保障倍数中,试答利息支出:试答A:不包括财务费用中的利息支出B:包括计入固定资产成本的资本化利息C:包括财务费用中的利息支出D:不 ...

  5. 用python玩转数据第一周答案_用Python玩转数据_答案

    用Python玩转数据_答案 答案: 更多相关问题 求由参数方程所确定的函数y=y(x)的二阶导数 已知数列的通项公式,则取最小值时=,此时=. (本小题满分10分)已知是等差数列,其中](1)求的通 ...

  6. 用python玩转数据第四周答案_用Python玩转数据_答案公众号

    用Python玩转数据_答案公众号 更多相关问题 隧道式一次发酵设备投资很少().隔音符号一般加在哪些字母开头的拼音上?隧道洞口工程包括石方开挖.洞口防护与排水工程.洞门建筑的制作.安装.明洞工程.( ...

  7. python怎么导出数据_如何用python将数据导出

    Python的一大应用就是数据分析了,而数据分析中,经常碰到需要处理Excel数据的情况.这里做一个Python处理Excel数据的总结,基 本受用大部分情况.相信以后用Python处理Excel数据 ...

  8. Py之pyecharts:python包之数据可视化包pyecharts简介、安装、使用方法之详细攻略

    Py之pyecharts:python包之数据可视化包pyecharts简介.安装.使用方法之详细攻略 目录 pyecharts简介 pyecharts的安装 pyecharts的使用方法 1.图形绘 ...

  9. 用Python执行Django数据迁移时报!(1091错误及解决方法)

    前言: 今天为大家带来的内容是用Python执行Django数据迁移时报!(1091错误及解决方法)本文内容具有不错的参考意义,希望在此能够帮助到大家! 前几天在Pycharm 中的Terminal下 ...

最新文章

  1. curl-loader介绍
  2. JS的常用正则表达式 验证密码
  3. ad敷铜后还有部分飞线_网友自制LPL赛区AD选手排名图!阿水Lwx荣誉值已超越Uzi_电竞...
  4. Hive和HBase的区别
  5. Wireshark实战分析之ICMP协议(二)
  6. Linux下opengl性能更高,OpenGL超级宝典学习笔记——性能比较
  7. DB9串口线定义的解析
  8. Chrome浏览器修改繁体为中文简体
  9. 指令系统相兼容的计算机称为系列机,第4章指令系统.ppt
  10. Jquery获取选中 的TR元素 和 子元素td
  11. Java元数据区的概念_JVM的元数据区
  12. 仓库系统用什么服务器,什么是仓库管理saas系统 仓库管理saas系统的功能有哪些...
  13. Linux上svnserve “db/txn-current-lock: Permission denied“ 问题解决办法
  14. LeetCode 24.两两交换链表中的节点 C语言
  15. 数据库管理系统MFC实现
  16. Python批量查单词源码
  17. 《C++ Primer》读书笔记——第十三章_拷贝控制
  18. java.lang.IllegalArgumentException(求解决)
  19. 那些服务器平台支持nvme,最新网吧无盘服务器能用NVME的M.2  SSD吗?
  20. 《Visual C++ 2010入门教程》 旗舰级详尽教程

热门文章

  1. js控制时间显示格式
  2. 【bzoj1604】[Usaco2008 Open]Cow Neighborhoods 奶牛的邻居 旋转坐标系+并查集+Treap/STL-set...
  3. 第一百八十四节,jQuery-UI,验证注册表单
  4. archlinux 更新错误 Unrecognized archive format
  5. 上海计算机一级填空题,上海市计算机一级考试填空题.doc
  6. 微信和QQ可以关闭广告了,每次能关6个月
  7. [整理]CHttpConnection的使用
  8. 设置mysql密码 Access denied 问题
  9. react native进一步学习(NavigatorIOS 学习)
  10. 是不是Cookie让禁用了,Session就一定不能用了呢