数据流程:数据采集-数据存储-数据治理-数据分析-数据产品
当完成数据采集、数据存储、数据治理之后,结合业务进行数据分析,而我们又可以从数据分析中进行总结、提炼,将数据分析的内容转化为数据产品。

只有有了数据才能在数据中挖掘价值,无论是混乱无脏的数据还是整齐划一的数据都可以从中挖掘价值,但定义不清楚、定义错误、缺失严重等等问题都会指数级的加大数据价值的挖掘。以下将会讲一下数据如何采集、有哪些存储介质,遇到的数据问题又如何去治理?

一、数据采集
数据采集:外部采集以及内部采集,以下只讲内部采集
内部采集可以分为前端埋点和后端埋点
前端埋点又可以分为无埋点和有埋点,无埋点指的通过SDK的方式进行全方位进行埋点,而有埋点则需要前端同事按照规则有选择进行埋点;
前端埋点又分为业务埋点和操作埋点,业务埋点指的是有经过重新定义以及计算的,比如登录时长,而操作埋点指的是用户每点击一次采集回来的何时何人何地做了什么点击。

采集注意的问题:采集数据验证,确保定义的数据和实际产生的数据是一致的。

二、数据存储
数据采集回来之后需要存储,存储的介质有多种,包括mysql、oracle、ES、kudu等
1) mysql:关系型数据库,开源的数据库,行式存储
2) oracle:关系型数据库,付费的数据库,行式存储
3) mangdb:非关系型数据库
4) ES: 非关系型数据库,可存储大量的数据,可进行全文检索.通过可视化软件,比如kibana,可以实现全文检索或者根据key进行统计。
5) KUDU: hadoop平台上的列式存储系统,既支持随机读写、又支持 OLAP 分析

以上查询的语法都有点差异,其中mysql、oracle、kudu的语法相似度较高。

三、数据治理
脏数据的影响:数据分析难度大、业务应用易错性高
脏数据的类型:缺失、重复、错误、不可用
解决办法:针对脏数据类型进行数据治理
1) 数据缺失:采用其他字段数据进行补充,比如用户信息的性别可以通过身份证进行补充;采用统计的方式进行补充,比如采用平均值、众数、零,又或者通过数据挖掘的方式,比如采用聚合的方式,获取对应聚合类的众数或者直接采用回归方式进行预测填充
2) 数据重复:去掉重复记录,但是又一个问题,当数据存在多个表达形式时,比如广州和广州市,就需要中文字段的数据采用映射表的形式,避免同一个意思多一个表达形式的影响
3) 数据错误:数据错误来自于不满足字段的定义范围,比如年龄超过200,采用方式可以类同与数据缺失,把数据错误当做数据缺失处理
4) 数据不可用:数据正确但是不可用。存在于同一个意思多个表达形式中,比如海淀区与北京海淀区,可以通过模糊匹配的形式或者通过自然语言处理进行规范化调整

以上办法存在工作量大、治标不治本的缺点,最好的办法还是约束输入,规范输出。
1)约束输入:你永远想不到用户会输入哪些值,所以别给用户太多发挥的空间,做好约束工作。该用户填写的,系统必须设置为“必填”;值有固定选项的,一定用列表让用户选,别再手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分;录入数据保存的数据表也尽量统一,不要产生有大量相同数据的表,造成数据重复隐患。

2)规范输出:统一语义,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上的指标名称,都要在语义字典中备案,语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了,就必须走流程申请注册一个新词到语义字典。

数据分析-前置条件(采集、存储、治理)相关推荐

  1. 采集存储计算处理卡设计资料:619-基于6U VPX的双FMC ZU19EG 采集存储计算处理卡

    619-基于6U VPX的双FMC ZU19EG 采集存储计算处理卡 基于6U VPX的双FMC ZU19EG 采集存储计算处理卡 一.板卡概述 该板卡是采集.存储.计算.管理一体的高集成度.加固型的 ...

  2. SAS500系列高性能信号采集存储分析仪

    盛铂科技SAS500系列高性能信号采集存储分析仪采用盛铂科技创新的软件定义无线电系统平台设计兼具较高的垂直精度和较快的采样率,共有4个型号,依据不同型号采集输入通道数分别有2.4.8,最大采样率500 ...

  3. python爬大学生就业数据_小猪的Python学习之旅 —— 16.再尝Python数据分析:采集拉勾网数据分析Android就业行情...

    一句话概括本文: 爬取拉钩Android职位相关数据,利用numpy,pandas和matplotlib对招人公司 情况和招聘要求进行数据分析. 引言: 在写完上一篇<浅尝Python数据分析: ...

  4. 小猪的Python学习之旅 —— 16.再尝Python数据分析:采集拉勾网数据分析Android就业行情...

    一句话概括本文: 爬取拉钩Android职位相关数据,利用numpy,pandas和matplotlib对招人公司 情况和招聘要求进行数据分析. 引言: 在写完上一篇<浅尝Python数据分析: ...

  5. 采集存储板第218篇:基于5VFX70T的3U VPX 光纤数据采集存储板

    基于5VFX70T的3U VPX 光纤数据采集存储板 1.板卡概述 本板卡是基于3U VPX架构,符合VITA46标准,实现了多种图形图像接口的采集与转换.图像数据的处理.宽带数据缓存.SATA存储主 ...

  6. 爬虫实战入门级教学(数据爬取->数据分析->数据存储)

    爬虫实战入门级教学(数据爬取->数据分析->数据存储) 天天刷题好累哦,来一期简单舒适的爬虫学习,小试牛刀(仅供学习交流,不足之处还请指正) 文章讲的比较细比较啰嗦,适合未接触过爬虫的新手 ...

  7. 8TB高速存储卡,6GB/s的读写速率,适合高速流盘、信号采集存储的各种应用场景

    高速信号采集和回放系统,需要有足够高的速率把连续采集的数据存储到磁盘,或者把信号生成的数据从磁盘中读取出来.一般应用中,数据主要通过SATA.USB.RJ45(百兆.千兆)等多种方式传输,但这些速率对 ...

  8. 数据分析提高能效 物联网治理雾霾

    虽然雾霾是因为人类的工业活动所导致的污染性灾害天气,但它的形成因素和普通的自然天气一样复杂,在气象预报的分析模型中,影响雾霾形成的因素,涉及到大气物理.化学.生物.陆地及大气耦合等,这些因素任意几个互 ...

  9. 多路采集存储c语言程序,stm32多路巡回数据采集系统设计 含源程序

    此次设计是利用stm32开发板设计的.数据采集系统是模拟域与数字域之间必不可少的纽带,它的存在具有着非常重要的作用.本文介绍的重点是数据采集系统,而该系统硬件部分的重心在于单片机芯片.数据采集与通信控 ...

最新文章

  1. 第37篇 Asp.Net源码解析(二)--详解HttpApplication
  2. am335x linux内核烧写_实时 Linux 抖动分析 Step by step
  3. 基于Axure的火车购票APP
  4. ComponentName的意思
  5. 计算机组装与维护思考问题,计算机组装与维护中的常见问题及解决方法
  6. pycharm关闭科学模式_[效率] 高手常用的 PyCharm 使用技巧(二)
  7. DOM之操作元素(附实例)
  8. 这回真的要和雅虎再见了 雅虎将转型为投资机构
  9. Vue实现6位数密码效果
  10. 如何将Nios II硬件和软件合成一个文件(NIOS II)烧进EPCS falsh
  11. VMware虚拟机共享主机无线网络联网的设置方法
  12. SegeX MemDialog:封装好的内存对话框(非资源对话框)说明
  13. 网络安全课程用C++实现简单的替代密码和置换密码
  14. 项管行知03--项目类型
  15. POJ 1608 Banal Tickets 笔记
  16. One-Error多标签分类_多分类及多标签分类算法
  17. CentOS7防火墙设置;Linux防火墙设置;systemctl -- firewalld.service;firewall;firewall-cmd
  18. L1-概率论中的10个基本概念:古典概率、联合概率、条件概率、生日问题等
  19. 计算机常用软件实验报告,计算机常用应用软件的安装和使用实验报告.doc
  20. 记录一个C++多线程的坑

热门文章

  1. 手机端通过软件Es文件浏览器访问Linux服务器文件(局域网或远程服务器)
  2. linux识别fta32出错,解决FAT32格式U盘安装win10时0x8007000D错误
  3. 如何搭建高德离线地图服务
  4. 数据结构—串的详细解释(含KMP算法)
  5. 翻译网Gengo获1200万美元投资,价值何在
  6. 一文了解 NextJS 并对性能优化做出最佳实践
  7. WINZIP压缩文件怎么加密?
  8. kali虚拟机连接网络设置/解决ping网站时域名解析错误/解决子网ip和子网掩码不一致
  9. 从知识溢出的视角分析开放式协作
  10. 个人整理可编辑PDF值得一读的电子书大全(持续更新)