原标题:入门Python爬虫——提取数据篇

作者: 李菲 来源:人工智能学习圈

前言

在提取数据这一环节,爬虫程序会将我们所需要的数据提取出来。在上一篇文章《入门Python爬虫 -- 解析数据篇》中,我们已经了解过了解析数据的要点。而今天的内容,主要会在此基础上进一步提取出我们认为有价值的信息。

提取数据知识点

在提取数据的过程中,我们依旧会用到熟悉的BeautifulSoup库。下面我会介绍一下其中比较常用的两个方法:find()以及find_all()。

find():提取首个符合要求的数据。

用法:bs对象.find(标签,属性)

备注:此处的bs对象为解析过后的数据。标签和属性在这里用于定位指定HTML源代码所在的位置。让我们做一个简单的回顾:标签是被<>括住的内容,例:

,。元素为一对标签中所涵盖的全部内容,例:网页体内容。属性则为定义了一个元素的内容,常见的属性有:href='https:www.example.com'(定义了一个链接);class="example"(定义了一个类);等等。

find_all():提取所有符合要求的数据。

用法:bs对象.find_all(标签,属性)

备注:上述的bs对象、标签以及属性的用法与find()一致。不过,由find_all()提取出的数据类型会与find()不同。由find()方法提取出的数据类型一般为Tag,而find_all提取出的数据类型则为ResultSet。遇到类型为Tag的数据,我们可以通过Tag.text()的方式进一步提取其中纯文本格式的内容,以及Tag['属性名']的方式提取特定属性的值。而遇到类型为ResultSet的数据,我么则可以通过遍历的方式进一步提取出所有符合要求的数据。

总结

原文链接:https://zhuanlan.zhihu.com/p/150387648返回搜狐,查看更多

责任编辑:

python爬虫数据提取_入门Python爬虫——提取数据篇相关推荐

  1. python爬虫基础知识点_入门Python爬虫知识点梳理

    [小宅按]爬虫基本原理就是通过网络请求从远程服务器下载数据的过程,而这个网络请求背后的技术就是基于 HTTP 协议.作为入门爬虫来说,用户需要了解 HTTP协议的基本原理,虽然 HTTP 规范用一本书 ...

  2. python需要具备什么_入门Python需要掌握哪些技能呢?

    随着人工智能时代的来临,Python开始崭露头角并迅速吸引了人们的广泛关注.很多人想要从事Python开发,但零基础入门Python,需要了解什么呢?看看你都掌握了吗? 1.Python是如何被解释执 ...

  3. python彩票数据分析案例_天津Python人工智能课程

    Python人工智能课程介绍 人工智能主要致力于计算机视觉,自然语言处理与语音识别三大领域!其基础与核心都是机器学习,当下AI时代各大行业巨头公司都在争相追逐这些热门领域,创业公司更是层出不穷,人工智 ...

  4. 年薪百万的阿里P9 Python专家快速带你入门Python

    年薪百万的阿里P9 Python专家快速带你入门Python 本文的目的是尽可能地用简洁的语言介绍 Python 编程语言,以帮助初学者能够快速入门Python.下面,让我们开始吧 什么是 Pytho ...

  5. python爬虫数据可视化_适用于Python入门者的爬虫和数据可视化案例

    本篇文章适用于Python小白的教程篇,如果有哪里不足欢迎指出来,希望对你帮助. 本篇文章用到的模块: requests,re,os,jieba,glob,json,lxml,pyecharts,he ...

  6. python能获取汇率数据吗_用Python爬虫实时获取外汇牌价

    最近外汇波动又比较大了, 我们公司是参考中国银行网站上公布的外汇牌价,由人工定期查看比对,来修改ERP数据,实在是有点累. 于是用Python写了个爬虫程序,自动获取外汇牌价. 程序很短,但是花了半天 ...

  7. python简单实践作业_【Python】:简单爬虫作业

    使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...

  8. python爬虫原理-干货|如何入门 Python 爬虫?爬虫原理及过程详解

    前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,欢迎前来领取! "入门"是 ...

  9. python网络爬虫的流程图_基于Python的网络爬虫的设计与实现

    龙源期刊网 http://www.qikan.com.cn 基于 Python 的网络爬虫的设计与实现 作者:高祖彦 来源:<商情> 2020 年第 33 期 [摘要]一个爬虫从网上爬取数 ...

最新文章

  1. adc 接收cube_官方的stm32cube软件教程实例ADC操作代码(官方自带的,可以无视
  2. ARM 寄存器 和 工作模式了解
  3. 单点登录 - 修改CAS服务器的一些配置( 陆续添加)
  4. 为什么需要使用到多线程
  5. CSS对 网页进行布局
  6. 用c语言实现蚂蚁算法,rsa算法的c语言实现
  7. MacBook写代码真香!包邮送一台!
  8. 小程序 php wecahtpay,【PHP】laravel 实现微信小程序微信支付功能
  9. 【kafka】kafka consumer offset lag获取的三者方式
  10. python sqlite3 怎么把字典存入数据库中.
  11. c++学习笔记(4)
  12. matlab 虚数 .,关于MATLAB在复数方面的应用 – MATLAB中文论坛
  13. 【SSH】 之 Struts2
  14. Ubuntu 15.04 Gogs(git 版本库) 二进制安装
  15. c语言编程开发app,C语言编程app
  16. “不学数学就去当厨子”,兰大校友入选全球竞赛最强10人,决赛最后几小时才想起做题...
  17. 键盘按键开关种类简介
  18. 量子计算机读后感,《天才的拓荒者:冯·诺伊曼传》- 读后感
  19. 进化三部曲,从互联网大脑发育看产业互联网的未来
  20. 实训项目 ---- vue中小说首页页面的制作

热门文章

  1. 问题五十六:怎么用ray tracing画参数方程表示的曲面(3)—— b-spline surface
  2. 6.1(数学:五角数)
  3. vs的离线下载.iso文件_Windows10官方纯净系统下载
  4. Django 模板中使用 Ajax POST
  5. 计算机口令管理,农村信用社联合社计算机账户与口令管理办法
  6. 开放计算机应用基础形考3,国家开放大学《计算机应用基础》考试与答案形考任务模块3 模块3 Excel 2010 电子表格系统—客观题答案.doc...
  7. Mysql8.0.12解压版安装亲测(步骤超级简单)
  8. EventBus全面讲解和案例
  9. python实现logistic增长模型
  10. python︱写markdown一样写网页,代码快速生成web工具:streamlit 缓存(五)