简单使用:

python小例子链接:

https://python123.io/ws/demo.html

代码:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
print(r.text)
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
print(soup)
print(soup.prettify())

结果:

D:\python_install\python.exe D:/pycharmworkspace/temp1/crawler_1.py
<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>
</body></html>
<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a> and <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>.</p>
</body></html>
<html><head><title>This is a python demo page</title></head><body><p class="title"><b>The demo python introduces several python courses.</b></p><p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>and<a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>.</p></body>
</html>Process finished with exit code 0

查看tag爸爸以及爷爷的标签名字:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
print("\n")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
tag_a = soup.a
print(soup.a.parent.name)#查看其父亲的名字!
print("\n")
print(soup.a.parent.parent.name)#查看其父亲的父亲的名字!

结果:

D:\python_install\python.exe D:/pycharmworkspace/temp1/crawler_1.pypbodyProcess finished with exit code 0

转换为字典之后,获取对应的值:

代码:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
print("\n")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
print(soup.a)#soup.tag  tag就是你想要查看的标签类型!仅仅显示带有<a></a>标签的信息!
tag_a = soup.a
print("\n")
print(tag_a.attrs)#attrs:属性的意思
print("\n")
print(tag_a.attrs['id'])#获取href对应的值。
print("\n")
print(tag_a.attrs['href'])#获取href对应的值。
print("\n")

结果:

D:\python_install\python.exe D:/pycharmworkspace/temp1/crawler_1.py<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}link1http://www.icourse163.org/course/BIT-268001Process finished with exit code 0

HTML查看除网页标签之外字符串的方法:

代码:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
print("\n")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
print(soup.a)#soup.tag  tag就是你想要查看的标签类型!仅仅显示带有<a></a>标签的信息!
tag_a = soup.a
print("\n")
print(soup.a.string)
print("\n")
print(soup.p)
print("\n")
print(soup.p.string)

结果:

D:\python_install\python.exe D:/pycharmworkspace/temp1/crawler_1.py<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>Basic Python<p class="title"><b>The demo python introduces several python courses.</b></p>The demo python introduces several python courses.Process finished with exit code 0

BeautifulSoup的初使用!相关推荐

  1. beautifulsoup关于标签的初学习

    代码: import requests from bs4 import BeautifulSoup r = requests.get("https://python123.io/ws/dem ...

  2. 1.1python初入网络爬虫-网络连接和BeautifulSoup库的使用

    目录: 一,网络连接 1.网络连接的过程 2.python实现的网络连接功能 3.拓展: 二,BeautifulSoup简介 1.安装BeautifulSoup库 2.运行BeautifulSoup库 ...

  3. Spark系列-初体验(数据准备篇)

    Spark系列-初体验(数据准备篇) Spark系列-核心概念 在Spark体验开始前需要准备环境和数据,环境的准备可以自己按照Spark官方文档安装.笔者选择使用CDH集群安装,可以参考笔者之前的文 ...

  4. xhr get获取文件流下载文件_python爬虫实战——豆瓣电影get初体验

    影评许可证 公众号[2019]第22期 本栏目由"数据皮皮侠"独家呈献 专场 python爬虫实战--豆瓣电影get初体验 2019.10.28 / 早上7点场 / 免费 本期&q ...

  5. 从入门到入土:python爬虫|scrapy初体验|安装教程|爬取豆瓣电影短评相关信息(昵称,内容,时间和评分)

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. 第7课: bs4 库 的 BeautifulSoup 基础学习

    这里写目录标题 本节课内容所需要安装的 库: BeautifulSoup 简介: lxml 简介: requests ,BeautifulSoup 和 lxml 相互三者关系: 如何利用 bs4 的 ...

  7. BeautifulSoup爬取博客实例

    BeautifulSoup爬取博客实例 爬取对象はてなブックマーク博客(日本网站) 用for循环爬取每个类别博客的前两页博客 使用python BeautifulSoup库 第一步: 爬取所有类别的文 ...

  8. 爬虫选手初养成Day1 | 影评数据爬虫及情感分析

    爬虫选手初养成Day1 爬取影评数据 网络爬虫 踩坑指南 影评数据应用之情感分析 数据预处理 词向量嵌入 模型训练 结果测试 踩坑指南 众所周知,Python的爬虫是一个很好用的数据工具,但是学校课程 ...

  9. 06—小白学Python爬虫之BeautifulSoup入门与应用(以糗百为例)

    之前介绍了通过正则和xpath来解析HTML文本,本篇将会介绍一种全新的方式BeautifulSoup来解析HTML,相对前两种使用更简单,那么,在介绍之前,先对这三种方式做一个简单的对比. 抓取方式 ...

最新文章

  1. 使用合成数据集来做目标检测:目标检测的介绍
  2. Mac下 Brew 更新缓慢问题解决(配置清华大学开源软件镜像站)
  3. python程序如何做界面_python是如何写界面程序的?
  4. [转]线程安全 c/c++
  5. Nginx之负载均衡(四)
  6. 大量POI点展示的一种解决方案
  7. Spark详解(八):Spark 容错以及高可用性HA
  8. js经典试题之数据类型
  9. hive 语法检查_升级Hive3处理语义和语法变更
  10. Scala元组数据的访问
  11. 禁止 VMware Fusion 自动调整 Windows 分辨率
  12. [蓝桥杯][基础练习VIP]报时助手
  13. QT5 获取窗口、系统屏幕大小尺寸信息,Qt 获取控件位置坐标,屏幕坐标,相对父窗体坐标
  14. 【原】 图片预览 Image preview
  15. 嵌入式商业智能BI有什么功能
  16. 各种推荐算法的 benchmark
  17. ASP.NET2.0一次发送多封邮件
  18. MySQL配置文件my.ini
  19. ppt复制切片器_零基础小白自学PPT快速入门到精通(上)
  20. 集成mybatis-generator-maven-plugin报错A required class was missing while ..org/mybatis/generator/api/dom

热门文章

  1. 了解这4个重点,带你探索未来将如何设计智能系统和机器人!
  2. 新战场路在何方——详解360金融数据中台之旅
  3. TensorFlow2.0正式版发布,极简安装TF2.0(CPUGPU)教程
  4. 从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用
  5. 百度要回归 A 股?
  6. 比起商汤IPO,我们更关心那1亿美金和C轮融资的背后大料
  7. IT界惊现文豪!华为领导及阿里P10遭吐槽
  8. IntelliJ IDEA 2021.3.2 发布:告别不断建议安装xx插件的提示!
  9. Oracle大佬离职,怒喷MySQL是“糟糕的数据库”……
  10. Spring Boot + Redis 实现各种操作,写得太好了吧!