前面已经介绍了怎么样下载beautifulsoup库,以及初步地使用它,本文将深入一些来学习它。我们要使用beautifulsoup库,大部分的原因就是直接去搜索HTML文本很费力气,用了这个库之后就可以快速地查找到合适的元素。

beautifulsoup库为了方便地去查找到指定的元素,它需要遍历整个HTML文本,然后把它们生成一串python对象,再把这些对象构建成一颗树。Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。

要产生beautifulsoup对象,那么可以使用两种办法,一种是直接输入HTML或XML文本,另外一种是传入文件句柄。

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data<

爬虫日记(6):beautifulsoup的基本使用2相关推荐

  1. python爬虫日记01

    PYTHON爬虫日记01 记录自己的学习爬虫日记 选用python作为编程语言 1.环境准备 python3.6+ mysql pycharm 2.思路 以爬取猫眼top100为目标 ​ 1.分析ur ...

  2. 爬虫日记之01编辑系统环境变量

    爬虫日记 2021-1-19 一.配置pip和python的环境 报错一: from bs4 import BeautifulSoupwith open('D:/Coding/pycharm/jike ...

  3. 爬虫下载文章 BeautifulSoup

    原文链接: 爬虫下载文章 BeautifulSoup 上一篇: HDU 1427 dfs 速算24点 下一篇: 简单爬虫 爬知乎日报 # coding=utf-8from bs4 import Bea ...

  4. 爬虫日记之07正则表达式(手把手教你区分贪婪匹配和惰性匹配)

    爬虫日记之07正则表达式 2022-3-6 正则表达式 Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则 我们可以把抓取到的网页源代码看成一个超长的字符 ...

  5. Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

    Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...

  6. 2018/01/22 爬虫日记

    20171024 ①导入自定义的模块(如类),需要在当前类作导入 类的引用声明,如self.tool = tool.Tool() 20171025 ①正则表达式:两个<><>之 ...

  7. [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

    一. 前言         在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客.维基百科InfoBox和图片,其文章链接如下:         [python学习] 简单爬取维基百科程 ...

  8. Python爬虫:用BeautifulSoup进行NBA数据爬取

    爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...

  9. 当当网畅销书排行爬虫(requests+BeautifulSoup)

    今天要做的是一个爬取当当网畅销书排行的爬虫,之后想看排行直接运行程序就可以看到啦,没有多余的信息,是不是很给力! 在前两次的爬虫编写过程中,思想都是把整个HTML文档看做一个很长很长的字符串,通过编写 ...

  10. 爬虫入门教程⑧— BeautifulSoup解析豆瓣即将上映的电影信息

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...

最新文章

  1. 机器学习漫谈:深度学习的辉煌
  2. python c参数,CPython – 读取C函数内的Python字典(键/值)作为参数传递
  3. movavi video suite2020中文版
  4. 订阅号助手App发布 手机也能管理公众号了
  5. 阿里“三活”数据中心实践经验:没人能做,我们就自己做
  6. [蓝桥杯][2013年第四届真题]核桃的数量-枚举(水题)
  7. android html 启动app,Android js交互 与 Html启动App
  8. hmaster和datanaode启动后很快停止_手动和全自动柴油发电机启动方法各自有什么优点?...
  9. UVa 714 抄书(贪心+二分)
  10. 关于SQLServer2005的学习笔记——异常捕获及处理
  11. 使用mysql创建表格
  12. 注册表被禁用了怎么办?
  13. python中selenium关于滚动条的循环下拉滚动操作---滚动条操作
  14. [整理][VBA]Excel合并表格
  15. 06 聚类算法 - 代码案例二 - K-Means算法和Mini Batch K-Means算法比较
  16. SSL/TLS连接建立过程
  17. 【工具推荐】Android Studio LayoutInspector 超时错误解决
  18. 【雕爷学编程】Arduino动手做(78)---槽型光耦测速模块
  19. AI电话销售机器人系统通过源码搭建安装的基本架构
  20. 韵达详细物流用这个工具能批量查询

热门文章

  1. React lazyLoad懒加载
  2. 计算机病毒结构及技术分析
  3. python中return返回值怎么累加_Python学习笔记函数之返回值和return语句
  4. 云原生之使用Docker部署Python应用
  5. 解决 错误: 在类XXX中找不到 main 方法, 请将 main 方法定义为: public static void main(String[] args) 否则 JavaFX 应用程序类
  6. 51单片机之模拟IIC总线
  7. Android打包apk实现原理与流程(雷惊风)
  8. 千万别活成自己最讨厌的样子
  9. android中常见的异常总结
  10. java 奇数trun_N26-博客作业-week15