大数据如何完整的进行数据探察
内容目录
- 如何进行数据探察
- 一、数据探察内容
- 1. 模型信息:
- 2. 字段分类:
- 3. 字段名:
- 4. 字段类型:
- 5. 字段含义:
- 6. 字段数值:
- 7. 取值说明:
- 8. 数据量:
- 9. 去重后的数据量:
- 10. 无数据统计:
- 11. 非空值占比:
- 12. sample1、sample2:
- 13. 待确定问题:
- 二、数据探察过程操作
- 首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息
- 第6点一般在建表中的表描述都有说明,若没有说明,可以在字段数据量的统计中自行思考
- 第7点:
- 第8点:数据量问题
- 第9点:去重后的数据量
- 第10点:空值统计,这种情况可以使用if和sum的组合
- 第12点:两个样本数据
- 第12点:如果对于探察的过程中,有某些字段存在疑问,可以在后面注明
如何进行数据探察
对于数仓操作,数据探察是很重要的一步,为了获得数据库的数据情况,了解数据分别和数据数值以及数据库运行情况
充分了解库表情况,从数据入手,知道数据的前世今生,对于进行接下来的工作尤为重要。
数据探察最直接的方式就是使用SQL查询表数据,得到数据的类型、数据分布、空值情况、数值占比等等
一、数据探察内容
数据探察的内容大概可以总结为以下几种:
1. 模型信息:
可以从数据表名、数据来源、数据生命周期、粒度这些入手
2. 字段分类:
字段术语维度属性、文本、主键、关联键、时间等等
3. 字段名:
表中原始的字段名
4. 字段类型:
表中原始的字段类型
5. 字段含义:
字段代表的含义,比如:job_id,就是任务标识号
6. 字段数值:
每个字段的数值,如果有一些字段是字符代表的,数值代表含义比如1和0等,配合下一项使用
7. 取值说明:
数值的取值,数值所占的比例,给出可测的数值的比例,就是有很多代表的,比如只有1和0这种,如果三千条数据,有三千个值,就不需要
8. 数据量:
每个字段有多少行数据,注意:空值和null是不一样的
9. 去重后的数据量:
对于重复数据的统计
10. 无数据统计:
字段中无数据占有的行数
11. 非空值占比:
字段数值的占比情况,了解该字段的数值分布
12. sample1、sample2:
给出两个样本数据
13. 待确定问题:
如果对于某个字段不明确,需要和建表人确定
二、数据探察过程操作
知道了数据探察的内容,就需要考虑数据探察的过程怎么进行
首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息
第6点一般在建表中的表描述都有说明,若没有说明,可以在字段数据量的统计中自行思考
第7点:
取值说明就需要对数据进行计算,比如某个字段,有8个数值,我们就需要得出这8个的具体数值是什么,并且求出其所占比例
select column,count(*)
from table_name
group by column; -- 探寻某个字段的取值和值数量
select column,count(*)/总量
from table_name
group by column; -- 探寻某个字段的取值和值数量占比
第8点:数据量问题
select count(column)
from table_name; -- 得到某个字段的总数
注意:这里可能会有疑问,这样求得的字段总数应该都是一样的。这个想法当然没问题,如果存在null,则不会纪录在count中,但是空值的话就会记录在count中,所以空值和null是不同的
第9点:去重后的数据量
了解字段数据的重复情况,可能存在大量的重复数据,去重操作
select count(*) -- 去重后的数据量
from (select distinct columnfrom table_name
) t;
第10点:空值统计,这种情况可以使用if和sum的组合
select sum(if(name="",1,0) -- 空值赋予1,非空赋予0,求得的和就是空值的数据量
from table_name;
第11点:非空值占比
在上一步已经求出了空值个数,那么求得非空值占比也是一样的道理
第12点:两个样本数据
这个就直接查询出两个数据就可以了
select *
from table_name
limit 2;
第12点:如果对于探察的过程中,有某些字段存在疑问,可以在后面注明
最后,给出一行探察示例
总之,数据探察是为了充分的了解数据,怎么能够快速充分了解,就怎么探察,可以根据需要增加探察内容,比如对于关联字段,还可以接着往下探察,与哪张表进行关联,关联之后得到的数据表又是哪张。
大数据如何完整的进行数据探察相关推荐
- HTTP服务响应数据不完整,响应数据截断
文章目录 背景 问题 解决方案 背景 大华一款摄像头Onvif协议响应的xml数据未携带命名空间导致Onvif协议服务解析失败,为了兼容这款摄像头决定对onvif_client进行修改忽略掉命名空间. ...
- 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!
作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...
- 关于大数据的完整讲解
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:牧小熊,华中农业大学,Datawhale原创作者 1.什么是大数据 ...
- 大数据的完整解决方案和体系化
大数据的完整解决方案和体系化 [日期:2014-11-25] 来源:人月神话的新浪博客 作者:人月神话 [字体:大 中 小] 对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据, ...
- spark python教程_Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf_IT教程网
资源名称:Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf 第1章 Python Spark机器学习与Hadoop大数据 1 第2章 VirtualBox虚拟机软件的安装 ...
- 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】
一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...
- 从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举
缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需 ...
- 万字干货:教新手从0到1搭建完整的增长数据体系(30图)
本文由作者 杨三季 于社区发布 在实际的业务中,大多数人可能只会遇到以下一种或几种常见的场景,并且对于各个细分场景,要解决的问题和关注的重点都是不一样的. 场景一: 你刚加入一个成熟产品的用户增长部门 ...
- webservice 参数太大_手把手系列:常用数据交换方案Web Service接口处理法
手把手系列:常用数据交换方案之Web Service接口处理法 Web Service是一个SOA(面向服务的编程)的架构,是一个平台独立的,低耦合的,基于可编程的web的应用程序,可使用开放的XML ...
最新文章
- 黄聪:DEDECMS织梦系统共如何添加自定义属性和修改方法
- java取geosever数据,终于搞定了GeoServer的WFS查询
- ubuntu12.04安装KDevelop
- python实战===如何优雅的打飞机
- 网关Ocelot功能演示安排的明明白白~~~
- java excel sheet页_Java导出Excel Sheet页
- happens-before规则和as-if-serial语义
- 真假黄仁勋疑云?英伟达推出全球首个元宇宙平台
- Android设置分隔线
- 数据安全治理白皮书_天融信联合发布《自动驾驶数据安全白皮书》
- 手把手教你学51单片机-c语言版,手把手教你学51单片机(第2版 C语言版)
- [转]数据恢复 文件恢复工具 DiskGenius v4.9.1 绿色专业版及单文件
- Stata中的单位根检验
- 独立t检验和配对t检验_配对学生的t检验是什么?
- Egret 骨骼动画
- AutoCAD 2019,cad设计绘图必备哦
- LeGO-LOAM:Ubuntu20.04下的编译与运行
- 计算机组装与维护学习网站,计算机组装与维护学习课件.ppt
- 找不到com.mchange.v2.c3p0.ComboPooledDataSource
- Java的Lambda表达式