DAMA数据治理学习笔记-大数据和数据科学
大数据和数据科学
定义
对多种不同类型的数据进行收集(大数据)和分析(数据科学、分析、可视化),以此来为在分析的初始阶段未知的问题找到答案
目标
- 发现数据和业务的联系
- 支持将数据源迭代集成到企业中
- 发现和分析可能影响到业务的因素
- 利用可视化技术,以恰当的、可靠的且合乎道德规范的方式来发布数据
大数据特征(6个V)
- 数据量大(Volume)
- 数据更新快(Velocity)
- 数据类型多样/可变(Variety)
- 数据黏度大(Viscosity)
- 数据波动性大(Volatility)
- 数据准确性低(Veracity)
信息收敛三角
业务驱动因素
期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大的业务驱动力
数据科学依赖
- 丰富的数据源
- 信息组织和分析
- 信息交付
- 展示发现和数据洞察
数据科学过程阶段
- 定义大数据战略和业务需求
- 选择数据源
- 获得和接收数据源
- 制定数据假设和方法
- 集成和调整进行数据分析
- 使用模型探索数据
- 部署和监控
DW&BI&大数据架构
数据湖
数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据环境,可供多种场景使用。
数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。
大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。
- 数据科学家可以挖掘和分析数据的环境
- 原始数据的集中存储区域,只需很少量的转换
- 数据仓库明细历史数据的备用存储区域
- 信息记录的在线归档
- 可以提供过自动化的模型识别提取流数据的环境
基于服务的体系结构
- 批处理层
- 加速层
- 服务层
机器学习
机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合
- 监督学习: 基于通用规则
- 无监督学习: 基于找到的那些隐藏的规律(数据挖掘)
- 强化学习: 基于目标的实现
数据和文本挖掘技术
- 剖析
- 数据缩减
- 关联
- 聚类
- 自组织映射
活动
定义大数据战略和业务需求
- 组织试图解决什么问题,需要分析什么
- 要使用或获取的数据源是什么
- 提供数据的及时性和范围
- 对其他数据结构的影响以及与其他数据结构的相关性
- 对现有建模数据的影响
选择数据源
- 数据源头
- 数据格式
- 数据元素代表什么
- 如何连接其他数据
- 数据的更新频率
获得和接收数据源
制定数据假设和方法
集成和调整数据进行分析
使用模型探索数据
- 填充预测模型
- 训练模型
- 评估模型
- 创建数据可视化
部署和监控
- 提供洞察和发现
- 使用附加数据源迭代
工具
- MPP (大规模并行处理)的武功县数据库技术
- 基于分布式文件的数据库 Hadoop
- 数据库内算法
- 大数据云解决方案
- 统计计算和图形语言
- 数据可视化工具集
实施指南
- 战略一致性
- 就绪评估风险评估
- 组织和文化变迁
战略交付成果应考虑管理以下要素
- 信息生命周期
- 元数据
- 数据质量
- 数据采集
- 数据访问和安全性
- 数据治理
- 数据隐私
- 学习和采用
- 运营
度量指标
- 技术使用指标
- 加载和扫描指标。提取率和与用户社区的交互
- 学习和故事场景
DAMA数据治理学习笔记-大数据和数据科学相关推荐
- DAMA数据治理学习笔记-数据质量
数据质量 定义 为了确保满足数据消费者的需求,应用数据管理技术进行规划.实施.控制等管理活动 业务驱动因素 提高组织数据价值和数据利用的机会 提高低质量数据导致的风险和成本 提高组织效率和生产力 保护 ...
- DAMA数据治理学习笔记-数据治理
数据治理 定义 对数据资产管理行使权力.控制和共享决策(规划.监测和执行)的系列活动. 目标 提升企业数据资产管理能力 定义.规划.批准.执行数据管理的原则.政策.程序.指标.工具.责任. 监控和指导 ...
- 数据管理知识体系指南(第二版)-第三章——数据治理-学习笔记
目录 3.1引言 3.1.1业务驱动因素 3.1.2目标和原则 3.1.3基本概念 3.2活动 3.2.1规划组织的数据治理 3.2.2制定数据治理战略 3.2.3实施数据治理 3.2.4嵌入数据治理 ...
- 数据治理学习笔记(一):数据治理是什么,要做什么
前言: 经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好.作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都 ...
- DAMA数据治理学习笔记-数据管理成熟度评估
数据管理成熟度评估 数据管理成熟度6个等级 无能力级 初始级 可重复级 已定义级 已管理级 优化级 业务驱动因素 监管 数据治理 过程改进的组织就绪 组织变更 新技术 数据管理问题 目标 全面发现和评 ...
- DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)
数据仓库和商业智能(DW/BI) 企业数据仓库提供了一种减少数据冗余.提高信息一致性,让企业能够利用数据做出更优决策的方法 定义 通过规划.实施和控制过程,来提供决策支持数据,支持从事报告.查询和分析 ...
- DAMA数据治理学习笔记-数据安全
数据安全 定义 定义.开发.执行.监控安全策略和规程,以提供对数据和信息资产的适当验证.授权.访问.审计 数据安全需求来源 利益相关方 政府法规 特定业务关注点 合法访问需求 合同义务 业务驱动因素 ...
- 大数据业务学习笔记_学习业务成为一名出色的数据科学家
大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...
- 大数据HiveSQL学习笔记三-查询基础语法以及常用函数
大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...
最新文章
- python类的成员函数_python特殊成员函数
- Tomcat 相关配置
- cydia收费插件源_Cydia消失了怎么办 Cydia错误汇总介绍【图文】
- SQL_由创建表引出
- preparedStatement问号的深入理解
- Python外(4)-读写mat文件
- SpringBoot使用Mina框架进行服务端与客户端数据通信
- spring aop 中@annotation()和自定义注解的使用
- 微软解释:关于Outlook 2007的争议
- Hadoop HIVE 基本数据类型
- TCP协议三次握手/四次挥手
- Google+ 为什么会死?
- python实例 优化目标函数_python scipy optimize.minimize用法及代码示例
- C#语法糖(Csharp Syntactic sugar)
- ThinkPHP5分页样式
- linux运维基础[系统磁盘管理]——————存储设备的识别、df、du、fsck
- ARCore从零到一 (3) 更换AR模型
- 2022跨年烟花代码
- Linux 中 Netcat 工具的使用
- Windows 10打开远程桌面的方法