爬虫之数据提取响应内容的分类

在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据

  • 结构化的响应内容

    • json字符串   【高频出现】

      • 可以使用re、json等模块来提取特定数据
      • json字符串的例子如下图

    • xml字符串  【低频出现】

      • 可以使用re、lxml等模块来提取特定数据

      • xml字符串的例子如下

        <bookstore>
        <book category="COOKING"><title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price>
        </book>
        <book category="CHILDREN"><title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price>
        </book>
        <book category="WEB"><title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price>
        </book>
        </bookstore>
        
  • 非结构化的响应内容

    • html字符串

      • 可以使用re、lxml等模块来提取特定数据
      • html字符串的例子如下图

爬虫之数据提取响应内容的分类相关推荐

  1. python构造响应头_Python爬虫库requests获取响应内容、响应状态码、响应头

    首先在程序中引入Requests模块 import requests 一.获取不同类型的响应内容 在发送请求后,服务器会返回一个响应内容,而且requests通常会自动解码响应内容 1.文本响应内容 ...

  2. 【爬虫入门】获取响应内容(即读取网页html的源码)

    在现实应用中,网络爬虫获取网页数据的流程如下: (1)模拟浏览器发送请求 (2)获取响应内容(获取网页):即获取html.css.json.图片.音频.视频等类型信息 (3)解析内容(提取信息):正则 ...

  3. 【python】——爬虫03 数据提取[jsonpath模块、lxml模块]

    目录 一.概述 1. 响应内容分类 2. xml和html 3. 数据解析 二.jsonpath模块 1. 提取数据的方法 2. jsonpath语法规则 3. jsonpath练习:获取拉钩网城市j ...

  4. Python爬虫的数据提取,一篇博客就搞定啦!

    数据提取 目录 数据提取 XPath语法和lxml模块 XPath 什么是XPath XPath开发工具 XPath语法 选取节点: 谓语: 通配符 选取多个路径: 运算符: 总结 使用方式 需要注意 ...

  5. 爬虫常用数据提取方式:正则、xpath、beautifulsoup

    文章目录 1.正则re 2.xpath 2.1 定位 2.1.1 xpath中选取节点的路径表达式 2.1.2 xpath谓语,即[ ]中的内容 2.1.3 选取未知节点 2.1.4 选择多个路径 2 ...

  6. python爬虫获取标签规则_Python爬虫之数据提取-selenium定位获取标签对象并提取数据...

    ## selenium提取数据 知识点:了解 driver对象的常用属性和方法 掌握 driver对象定位标签元素获取标签对象的方法 掌握 标签对象提取文本和属性值的方法 1. driver对象的常 ...

  7. python request返回的响应_Python爬虫库requests获取响应内容、响应状态码、响应头...

    首先在程序中引入Requests模块 import requests 一.获取不同类型的响应内容 在发送请求后,服务器会返回一个响应内容,而且requests通常会自动解码响应内容 1.文本响应内容 ...

  8. 爬虫之数据提取jsonpath模块的使用场景和使用方法

    1. jsonpath模块的使用场景 如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的.jsonpath模块就能解决这个痛点. jsonpath可以按照key对p ...

  9. edge新版 能够正则式_Python爬虫七 数据提取之正则

    数据提取之正则,主要用到的re模块. 一.正则表达式 用事先定义好的一些特定字符.及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑. 二.正则表达式的常见语法 正 ...

最新文章

  1. 汇编语言学习-寄存器(内存访问)
  2. slf4j+log4j打印日志,控制台无日志输出
  3. ASP.Net MVC 在ajax接收controller返回值为Json数据
  4. Ubuntu下装QQ2014(http://my.oschina.net/oscfox/blog/315951)
  5. 无心剑中译叶芝《情愁》
  6. 使用 .NET 平台,如何玩转 Universal Windows 应用? 1
  7. DHTML【3】--HTML
  8. BT没死!305个国外BT资源聚合站点大全
  9. IDEA 文件对比功能图解
  10. spss入门——简单的数据预处理到时间序列分析系列(声明!!!!!!!)
  11. 利用C++,设置输入某年某月某日,判断这一天是这一年的第几天。
  12. CSDN:2021博客之星年度总评选大赛投票
  13. 《现代操作系统(中文第三版)》课后习题——第九章 安全
  14. mongoDB设置用户名密码
  15. 使用sklearn库进行数据标准化处理
  16. Java中Collections类概述和使用
  17. 2021年中国出口跨境电商行业融资态势及未来发展趋势分析[图]
  18. linux wn725 wifi,【已解决】Ubuntu / Linux 安装USB无线网卡( tp-link TL-WN725N rtl8188eu )
  19. JAVA高级开发工程师面试系列——RocketMQ
  20. Robomaster2020学习(一)——电机选型

热门文章

  1. 2021年浅谈多任务学习
  2. 哪种编程语言最适合初学者?
  3. 图灵奖得主Bengio再次警示:可解释因果关系是深度学习发展的当务之急
  4. FPGA在人工智能时代的独特优势
  5. 收获单季最大营收,“半死不活”特斯拉再续命一秒?
  6. Java线程池面试必备:核心参数、工作流、监控、调优手段
  7. 小白都能看得懂的java虚拟机内存模型
  8. 阿里三面被挂,幸获内推,历经5轮终于拿到口碑offer
  9. 今天聊聊分布式锁 No.86
  10. 李沐:用随机梯度下降来优化人生!