大数据和数据科学

定义

对多种不同类型的数据进行收集(大数据)和分析(数据科学、分析、可视化),以此来为在分析的初始阶段未知的问题找到答案

目标

  • 发现数据和业务的联系
  • 支持将数据源迭代集成到企业中
  • 发现和分析可能影响到业务的因素
  • 利用可视化技术,以恰当的、可靠的且合乎道德规范的方式来发布数据

大数据特征(6个V)

  • 数据量大(Volume)
  • 数据更新快(Velocity)
  • 数据类型多样/可变(Variety)
  • 数据黏度大(Viscosity)
  • 数据波动性大(Volatility)
  • 数据准确性低(Veracity)

信息收敛三角

业务驱动因素

期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大的业务驱动力

数据科学依赖

  • 丰富的数据源
  • 信息组织和分析
  • 信息交付
  • 展示发现和数据洞察

数据科学过程阶段

  1. 定义大数据战略和业务需求
  2. 选择数据源
  3. 获得和接收数据源
  4. 制定数据假设和方法
  5. 集成和调整进行数据分析
  6. 使用模型探索数据
  7. 部署和监控

DW&BI&大数据架构

数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据环境,可供多种场景使用。

数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。

大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。

  • 数据科学家可以挖掘和分析数据的环境
  • 原始数据的集中存储区域,只需很少量的转换
  • 数据仓库明细历史数据的备用存储区域
  • 信息记录的在线归档
  • 可以提供过自动化的模型识别提取流数据的环境

基于服务的体系结构

  1. 批处理层
  2. 加速层
  3. 服务层

机器学习

机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合

  • 监督学习: 基于通用规则
  • 无监督学习: 基于找到的那些隐藏的规律(数据挖掘)
  • 强化学习: 基于目标的实现

数据和文本挖掘技术

  • 剖析
  • 数据缩减
  • 关联
  • 聚类
  • 自组织映射

活动

定义大数据战略和业务需求

  1. 组织试图解决什么问题,需要分析什么
  2. 要使用或获取的数据源是什么
  3. 提供数据的及时性和范围
  4. 对其他数据结构的影响以及与其他数据结构的相关性
  5. 对现有建模数据的影响

选择数据源

  1. 数据源头
  2. 数据格式
  3. 数据元素代表什么
  4. 如何连接其他数据
  5. 数据的更新频率

获得和接收数据源

制定数据假设和方法

集成和调整数据进行分析

使用模型探索数据

  1. 填充预测模型
  2. 训练模型
  3. 评估模型
  4. 创建数据可视化

部署和监控

  1. 提供洞察和发现
  2. 使用附加数据源迭代

工具

  • MPP (大规模并行处理)的武功县数据库技术
  • 基于分布式文件的数据库 Hadoop
  • 数据库内算法
  • 大数据云解决方案
  • 统计计算和图形语言
  • 数据可视化工具集

实施指南

  • 战略一致性
  • 就绪评估风险评估
  • 组织和文化变迁

战略交付成果应考虑管理以下要素

  • 信息生命周期
  • 元数据
  • 数据质量
  • 数据采集
  • 数据访问和安全性
  • 数据治理
  • 数据隐私
  • 学习和采用
  • 运营

度量指标

  • 技术使用指标
  • 加载和扫描指标。提取率和与用户社区的交互
  • 学习和故事场景

DAMA数据治理学习笔记-大数据和数据科学相关推荐

  1. DAMA数据治理学习笔记-数据质量

    数据质量 定义 为了确保满足数据消费者的需求,应用数据管理技术进行规划.实施.控制等管理活动 业务驱动因素 提高组织数据价值和数据利用的机会 提高低质量数据导致的风险和成本 提高组织效率和生产力 保护 ...

  2. DAMA数据治理学习笔记-数据治理

    数据治理 定义 对数据资产管理行使权力.控制和共享决策(规划.监测和执行)的系列活动. 目标 提升企业数据资产管理能力 定义.规划.批准.执行数据管理的原则.政策.程序.指标.工具.责任. 监控和指导 ...

  3. 数据管理知识体系指南(第二版)-第三章——数据治理-学习笔记

    目录 3.1引言 3.1.1业务驱动因素 3.1.2目标和原则 3.1.3基本概念 3.2活动 3.2.1规划组织的数据治理 3.2.2制定数据治理战略 3.2.3实施数据治理 3.2.4嵌入数据治理 ...

  4. 数据治理学习笔记(一):数据治理是什么,要做什么

    前言: 经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好.作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都 ...

  5. DAMA数据治理学习笔记-数据管理成熟度评估

    数据管理成熟度评估 数据管理成熟度6个等级 无能力级 初始级 可重复级 已定义级 已管理级 优化级 业务驱动因素 监管 数据治理 过程改进的组织就绪 组织变更 新技术 数据管理问题 目标 全面发现和评 ...

  6. DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)

    数据仓库和商业智能(DW/BI) 企业数据仓库提供了一种减少数据冗余.提高信息一致性,让企业能够利用数据做出更优决策的方法 定义 通过规划.实施和控制过程,来提供决策支持数据,支持从事报告.查询和分析 ...

  7. DAMA数据治理学习笔记-数据安全

    数据安全 定义 定义.开发.执行.监控安全策略和规程,以提供对数据和信息资产的适当验证.授权.访问.审计 数据安全需求来源 利益相关方 政府法规 特定业务关注点 合法访问需求 合同义务 业务驱动因素 ...

  8. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

  9. 大数据HiveSQL学习笔记三-查询基础语法以及常用函数

    大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...

最新文章

  1. python类的成员函数_python特殊成员函数
  2. Tomcat 相关配置
  3. cydia收费插件源_Cydia消失了怎么办 Cydia错误汇总介绍【图文】
  4. SQL_由创建表引出
  5. preparedStatement问号的深入理解
  6. Python外(4)-读写mat文件
  7. SpringBoot使用Mina框架进行服务端与客户端数据通信
  8. spring aop 中@annotation()和自定义注解的使用
  9. 微软解释:关于Outlook 2007的争议
  10. Hadoop HIVE 基本数据类型
  11. TCP协议三次握手/四次挥手
  12. Google+ 为什么会死?
  13. python实例 优化目标函数_python scipy optimize.minimize用法及代码示例
  14. C#语法糖(Csharp Syntactic sugar)
  15. ThinkPHP5分页样式
  16. linux运维基础[系统磁盘管理]——————存储设备的识别、df、du、fsck
  17. ARCore从零到一 (3) 更换AR模型
  18. 2022跨年烟花代码
  19. Linux 中 Netcat 工具的使用
  20. Windows 10打开远程桌面的方法

热门文章

  1. 跟锦数学171217-180630
  2. 如何实现 HTTP 断点续传多线程下载
  3. crc16 ibm c语言,CRC16常见几个标准的算法及C语言实现
  4. 妙味课堂H5音乐播放器项目实战 ajax实战教程
  5. 2019总结 2020
  6. 2021年9月计算机二级考试成绩查询常见问题
  7. linux查看服务器是否开启超线程
  8. 计算机组成与系统结构输入输出控制实验,计算机组成与系统结构实验讲稿.ppt...
  9. python求解欧拉Euler公式
  10. Tomcat日志切割cronolog