结构化数据和非结构化数据的提取【Python篇】

总结一下Pyhon提供的可以提取结构化数据以及非结构化数据的主流库。

1.常见数据的分类:

依据响应分类(附带对应的常用的解析方法~):

结构化数据:① json数据(高频出现)json模块jsonpath模块②xml数据(低频出现)re 模块(正则语法)lxml模块(xpath语法)
非结构化数据:①htmlre模块(正则语法)lxml模块(xpath语法)beautifulsoup(xpath,正则,css选择器)pyquery(css选择器)

小知识点:

  • xml和html的区别
    html :超文本标记语言,为了更好的显示数据,侧重于显示数据;
    xml : 可扩展性标记语言,为了传输和存储数据,侧重点在于数据内容的本身。

2.爬虫世界数据的分类:

结构化数据:json,xml等处理方式:直接转化

结构化数据和非结构化数据的提取【Python篇】相关推荐

  1. Spark(六):SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理

    为什么80%的码农都做不了架构师?>>>    一:简单了解SparkSQL. Spark SQL 是结构化的数据处理一个Spark模块.与基本的Spark RDD API不同,Sp ...

  2. 结构化数据和非结构化数据的分析

    结构化数据和非结构化数据的分析 一. 什么是数据 二. 数据的分类 1. 按性质分为 2. 按表现形式分为 3. 按表现形式分为 三. 结构化数据和非结构化数据 1. 什么是结构化数据 2. 什么是非 ...

  3. 结构化数据与非结构化数据

    结构化数据和非结构化数据是大数据的两种类型,关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据 结构化数据:高度组织和整齐格式化的数据.它是可以放入表格和电子表格中的数据类型. 能够用 ...

  4. 【数据库】结构化数据、非结构化数据、半结构化数据的区别

    林中鹿 结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值 ...

  5. 结构化数据和半结构化数据和非结构化数据

    计算机信息化系统中的数据分为结构化数据和非结构化数据和半结构化数据. 结构化数据 结构化数据,是指由二维表结构来表达逻辑和实现的数据,严格的遵循数据格式与长度规范,主要通过关系型数据库进行管理和存储. ...

  6. 技术20期:结构化数据与非结构化数据:有什么区别?

    查看结构化和非结构化数据.它们的主要区别以及哪种形式最能满足您的业务需求. 并非所有数据都是平等的.有些数据是结构化的,但大部分是非结构化的.结构化和非结构化数据以不同的方式获取.收集和扩展,并且每一 ...

  7. 结构化数据和非结构化数据、半结构化数据的区别-归纳总结整理

    ​今天来讨论一下什么是结构化数据? 什么是非结构化数据? 半结构化数据?以及三者之间的区别 计算机信息化系统中的数据分为结构化数据和非结构化数据.半结构化数据. 结构化数据 结构化数据,是指由二维表结 ...

  8. 结构化数据和非结构化数据的区别

    结构化数据:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理. (什么是关系型数据库:关系型数据库,是指采用了关系模型来组 ...

  9. 结构化数据与非结构化数据的区别(转载)

    在信息社会,信息可以划分为两大类.一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号:而另一类信息无法用数字或统一的结构表示,如文本.图像.声音.网页等,我们称之为非结构化数据 ...

最新文章

  1. Ubuntu 16.04 install NVDIA display driver
  2. 《WCF技术内幕》翻译1:《WCF技术内幕》目录和作者简介
  3. python封装enclosure
  4. python与办公结合_python在办公时能给我们带来什么?
  5. java compareTo() 用法注意点
  6. 一个dsp最小系统至少要有_DSP最小系统电路设计
  7. C++ set的一些用法
  8. druid.properties文件的配置
  9. Cool_gamesetup.exe山寨版熊猫烧香病毒
  10. HCIP2------BGP1
  11. 债券基金的涨跌受什么影响
  12. 云服务器的带宽是什么意思?怎么选择带宽大小?
  13. nodejs 使用jsonwebtoken进行权限验证
  14. 有读者认为,直接去点p结点会造成断链
  15. OM_销售订单的四个主要环节和每个环节用到的常用表
  16. macbook电脑如何通过ssh连接群晖nas?
  17. mac 打开网页慢_在Mac电脑开启Safari速度总是很慢?可以试试这10种解决方法
  18. 华为HCSP认证值得一考吗?
  19. 苹果系统如何访问局域网中的计算机,mac前往mac共享-怎么让苹果机和普通pc在局域网里互相找到?我有一台苹果机和一台p 爱问知识人...
  20. 在博客园的文章中使用AJAX

热门文章

  1. 论文写作---word单独设置页眉页脚
  2. 计算机辅助牙种植,牙种植模型的计算机辅助设计和制作的应用研究
  3. 对《Mode-Adaptive Neural Networks for Quadruped Motion Control》一文的理解(上)
  4. XXE-什么是XXE
  5. BGI-College生信入门——5、Linux下的软件安装与Vim编辑器
  6. Linux磁盘空间爆满怎么办?定时文件清理脚本配置实现
  7. python将文件另存为,python读取文件另存为
  8. 基于Java的截图工具
  9. 虹科喜报 | 虹科技术工程师【国内首批】拿下Redis认证开发者证书!
  10. 【20210910】【机器/深度学习】lightGBM模型训练中报错:“Cannot set reference after freed raw data“