内容目录

  • 如何进行数据探察
    • 一、数据探察内容
      • 1. 模型信息:
      • 2. 字段分类:
      • 3. 字段名:
      • 4. 字段类型:
      • 5. 字段含义:
      • 6. 字段数值:
      • 7. 取值说明:
      • 8. 数据量:
      • 9. 去重后的数据量:
      • 10. 无数据统计:
      • 11. 非空值占比:
      • 12. sample1、sample2:
      • 13. 待确定问题:
    • 二、数据探察过程操作
      • 首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息
      • 第6点一般在建表中的表描述都有说明,若没有说明,可以在字段数据量的统计中自行思考
      • 第7点:
      • 第8点:数据量问题
      • 第9点:去重后的数据量
      • 第10点:空值统计,这种情况可以使用if和sum的组合
      • 第12点:两个样本数据
      • 第12点:如果对于探察的过程中,有某些字段存在疑问,可以在后面注明

如何进行数据探察

对于数仓操作,数据探察是很重要的一步,为了获得数据库的数据情况,了解数据分别和数据数值以及数据库运行情况

充分了解库表情况,从数据入手,知道数据的前世今生,对于进行接下来的工作尤为重要。

数据探察最直接的方式就是使用SQL查询表数据,得到数据的类型、数据分布、空值情况、数值占比等等

一、数据探察内容

数据探察的内容大概可以总结为以下几种:

1. 模型信息:

可以从数据表名、数据来源、数据生命周期、粒度这些入手

2. 字段分类:

字段术语维度属性、文本、主键、关联键、时间等等

3. 字段名:

表中原始的字段名

4. 字段类型:

表中原始的字段类型

5. 字段含义:

字段代表的含义,比如:job_id,就是任务标识号

6. 字段数值:

每个字段的数值,如果有一些字段是字符代表的,数值代表含义比如1和0等,配合下一项使用

7. 取值说明:

数值的取值,数值所占的比例,给出可测的数值的比例,就是有很多代表的,比如只有1和0这种,如果三千条数据,有三千个值,就不需要

8. 数据量:

每个字段有多少行数据,注意:空值和null是不一样的

9. 去重后的数据量:

对于重复数据的统计

10. 无数据统计:

字段中无数据占有的行数

11. 非空值占比:

字段数值的占比情况,了解该字段的数值分布

12. sample1、sample2:

给出两个样本数据

13. 待确定问题:

如果对于某个字段不明确,需要和建表人确定

二、数据探察过程操作

知道了数据探察的内容,就需要考虑数据探察的过程怎么进行

首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息

第6点一般在建表中的表描述都有说明,若没有说明,可以在字段数据量的统计中自行思考

第7点:

取值说明就需要对数据进行计算,比如某个字段,有8个数值,我们就需要得出这8个的具体数值是什么,并且求出其所占比例

select column,count(*)
from table_name
group by column; -- 探寻某个字段的取值和值数量
select column,count(*)/总量
from table_name
group by column; -- 探寻某个字段的取值和值数量占比

第8点:数据量问题

select count(column)
from table_name; -- 得到某个字段的总数

注意:这里可能会有疑问,这样求得的字段总数应该都是一样的。这个想法当然没问题,如果存在null,则不会纪录在count中,但是空值的话就会记录在count中,所以空值和null是不同的

第9点:去重后的数据量

了解字段数据的重复情况,可能存在大量的重复数据,去重操作

select count(*) -- 去重后的数据量
from (select distinct columnfrom table_name
) t;

第10点:空值统计,这种情况可以使用if和sum的组合

select sum(if(name="",1,0) -- 空值赋予1,非空赋予0,求得的和就是空值的数据量
from table_name;

第11点:非空值占比

在上一步已经求出了空值个数,那么求得非空值占比也是一样的道理

第12点:两个样本数据

这个就直接查询出两个数据就可以了

select *
from table_name
limit 2;

第12点:如果对于探察的过程中,有某些字段存在疑问,可以在后面注明

最后,给出一行探察示例

总之,数据探察是为了充分的了解数据,怎么能够快速充分了解,就怎么探察,可以根据需要增加探察内容,比如对于关联字段,还可以接着往下探察,与哪张表进行关联,关联之后得到的数据表又是哪张。

大数据如何完整的进行数据探察相关推荐

  1. HTTP服务响应数据不完整,响应数据截断

    文章目录 背景 问题 解决方案 背景 大华一款摄像头Onvif协议响应的xml数据未携带命名空间导致Onvif协议服务解析失败,为了兼容这款摄像头决定对onvif_client进行修改忽略掉命名空间. ...

  2. 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!

    作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...

  3. 关于大数据的完整讲解

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:牧小熊,华中农业大学,Datawhale原创作者 1.什么是大数据 ...

  4. 大数据的完整解决方案和体系化

    大数据的完整解决方案和体系化 [日期:2014-11-25] 来源:人月神话的新浪博客  作者:人月神话 [字体:大 中 小] 对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据, ...

  5. spark python教程_Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf_IT教程网

    资源名称:Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf 第1章 Python Spark机器学习与Hadoop大数据 1 第2章 VirtualBox虚拟机软件的安装 ...

  6. 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

    一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...

  7. 从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

    缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需 ...

  8. 万字干货:教新手从0到1搭建完整的增长数据体系(30图)

    本文由作者 杨三季 于社区发布 在实际的业务中,大多数人可能只会遇到以下一种或几种常见的场景,并且对于各个细分场景,要解决的问题和关注的重点都是不一样的. 场景一: 你刚加入一个成熟产品的用户增长部门 ...

  9. webservice 参数太大_手把手系列:常用数据交换方案Web Service接口处理法

    手把手系列:常用数据交换方案之Web Service接口处理法 Web Service是一个SOA(面向服务的编程)的架构,是一个平台独立的,低耦合的,基于可编程的web的应用程序,可使用开放的XML ...

最新文章

  1. 黄聪:DEDECMS织梦系统共如何添加自定义属性和修改方法
  2. java取geosever数据,终于搞定了GeoServer的WFS查询
  3. ubuntu12.04安装KDevelop
  4. python实战===如何优雅的打飞机
  5. 网关Ocelot功能演示安排的明明白白~~~
  6. java excel sheet页_Java导出Excel Sheet页
  7. happens-before规则和as-if-serial语义
  8. 真假黄仁勋疑云?英伟达推出全球首个元宇宙平台
  9. Android设置分隔线
  10. 数据安全治理白皮书_天融信联合发布《自动驾驶数据安全白皮书》
  11. 手把手教你学51单片机-c语言版,手把手教你学51单片机(第2版 C语言版)
  12. [转]数据恢复 文件恢复工具 DiskGenius v4.9.1 绿色专业版及单文件
  13. Stata中的单位根检验
  14. 独立t检验和配对t检验_配对学生的t检验是什么?
  15. Egret 骨骼动画
  16. AutoCAD 2019,cad设计绘图必备哦
  17. LeGO-LOAM:Ubuntu20.04下的编译与运行
  18. 计算机组装与维护学习网站,计算机组装与维护学习课件.ppt
  19. 找不到com.mchange.v2.c3p0.ComboPooledDataSource
  20. Java的Lambda表达式

热门文章

  1. 使用Clover 3
  2. 培训机构到底好不好?学历重要吗?java
  3. Mac关闭SIP方法
  4. 我做游戏交互实习这段时间,总结了这8个点
  5. 制作视频数据集(一):截取视频帧
  6. 小程序SetTimeOut的一个坑
  7. python实现中文文本分句
  8. c语言整数除法转换成浮点型,C语言中的类型转换
  9. 189.HBase(三):master架构,RegionServer架构,写流程,写缓存的刷写,HFile,读流程,合并读取的数据,store文件合并,region分区
  10. 【NIO与Netty】Netty进阶