参考文档:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

# 安装 beautifulsoup4

(pytools) D:\python\pytools>pip install beautifulsoup4

# coding=utf-8from bs4 import BeautifulSoup as bs
import rehtml_doc = """
<html><head><title>The Dormouse's story</title></head><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p><p class="story">...</p>
"""
soup = bs(html_doc, "html.parser")# print(soup.prettify())# print(soup.title.string)
# print(soup.a)
# print(soup.find(id='link2'))# print(soup.find(id='link2').string)# print(soup.find(id='link2').get_text())# 获取所有a标签的内容
# for link in soup.find_all('a'):
#     print(link.get_text())# 使用string获取不到p标签的内容
# print(soup.find("p", {"class": "story"}).get_text())# 查找所有以b开头的标签
# for tag in soup.find_all(re.compile("^b")):
#     print(tag.get_text())# 查找所有的a标签中href以 http://example.com开头的数据,其中的.号代表任意字符,如果需要 表示点号本身可以用\转义   href=re.compile(r"^http://example\.com/")
data = soup.find_all("a", href=re.compile(r"^http://example.com/"))
print(data)

从0开始学爬虫7之BeautifulSoup模块的简单介绍相关推荐

  1. 从0开始学爬虫6比价工具开发1之爬取当当、京东的数据

    从0开始学爬虫6比价工具开发1之爬取当当.京东的数据 爬取当当数据 spider_dangdang.py #coding=utf-8import requests from lxml import h ...

  2. 【0基础学爬虫】爬虫基础之抓包工具的使用

    大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶.逆向相关文章,为实现从易到难全方位覆盖,特设[0基础学爬 ...

  3. 一木.溪桥学爬虫-03:请求模块urllib、 urllib.request、urllib.parse.urlencode、urllib.parse.quote(str)、.unquote()

    一木.溪桥 在Logic Education跟Jerry学爬虫 07期:Python 爬虫 一木.溪桥学爬虫-03:请求模块urllib. urllib.request.urllib.parse.ur ...

  4. 一木.溪桥学爬虫-04:requests模块

    一木.溪桥 在Logic Education跟Jerry学爬虫 07期:Python 爬虫 一木.溪桥学爬虫-04:requests模块.cookie.session 日期:2021年1月31日 学习 ...

  5. 【0基础学爬虫】爬虫基础之爬虫的基本介绍

    大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,本期为爬虫的基本介绍. 分享一些自己的爬虫项目,学习爬虫一些经验很不错 基于python实 ...

  6. python爬虫之使用BeautifulSoup模块抓取500彩票网竞彩足球赛果及赔率

    目录 前言 分析思路 数据储存 代码 结果展示 结语 前言 竞彩足球是目前比较受欢迎的一种体彩彩种,玩法较为灵活多样,赔率可观,今天就来记录一下如何抓取竞彩足球的开奖信息和赔率. 分析思路 我使用的网 ...

  7. python3 beautifulsoup 模块详解_关于beautifulsoup模块的详细介绍

    这篇文章主要给大家介绍了python中 Beautiful Soup 模块的搜索方法函数. 方法不同类型的过滤参数能够进行不同的过滤,得到想要的结果.文中介绍的非常详细,对大家具有一定的参考价值,需要 ...

  8. 从入门到入土:Python爬虫学习|Selenium自动化模块学习|简单入门|轻松上手|自动操作浏览器进行处理|chrome|PART01

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. 从0开始学爬虫6比价工具开发2之图书信息汇总

    当当的数据 spider_dangdang.py # coding=utf-8 import requests from lxml import html def spider(sn, book_li ...

最新文章

  1. 原始套接字与sniffer
  2. Symfony2Book03:使用Symfony2创建页
  3. iOS中的HotFix方案总结详解
  4. c++ 11 override final
  5. 如何在一小时内更新100篇文章?-Evernote Sync插件介绍
  6. 怎么扒站建站_个人怎么做独立站Shopify商店!Shopify建站教程详解!(实操干货)...
  7. SQL Prompt快捷键
  8. 【CNN回归预测】基于matlab卷积神经网络CNN数据回归预测【含Matlab源码 2003期】
  9. 2021年数学建模B组代码
  10. 批量对word文档进行操作
  11. C程序 --- 判断闰年平年以及二月天数
  12. 腾讯手机指纹认证标准:soter原理
  13. idea服务关不掉的问题
  14. 计算机网络第一章概述
  15. 一个26岁女生的软件测试自学之路,从4k到月入过万
  16. 【扫盲贴】浅谈38K红外发射接受编码(非常好)
  17. 单片机电脑计算机键盘设计,客制pc小键盘,CH552单片机HID键盘,电脑多媒体小键盘...
  18. JUST技术:从GPS数据中挖掘用户行为习惯
  19. jenkins插件下载地址
  20. Web程序设计项目【附源码】

热门文章

  1. 企业管理系统ERP为什么要上云
  2. Hadoop数据存储
  3. 如何让ruby中的ri起作用
  4. mysql查询表中不重复数据
  5. 深入分析集群安全机制
  6. 文本三剑客之AWK详解
  7. 华为鸿蒙开源网址,华为鸿蒙开源
  8. 如何将word自带的公式快速转为latex?
  9. 基于FPGA的八位数字抢答器
  10. android service什么时候销毁,阳光沙滩-android 通过AppWidgetProvider 启动的Service会自动销毁问题...