数据仓库 迁移 大数据

对于企业开始大数据之旅而言,将冷的或未使用的数据和ETL工作负载从数据仓库卸载到Hadoop /大数据平台是一个非常普遍的起点。 像Hadoop这样的平台提供了一种经济的方式来存储数据并进行大数据集的批量处理。 因此,成本是此初始用例的主要驱动力就不足为奇了。

这些项目在实际实施时会是什么样? 在本文中,我们将研究需要考虑的不同因素,我们将提供一种实现数据仓库卸载的方法,并演示事物如何在Hadoop /大数据世界中转换。 在传统的数据仓库世界中,人们非常习惯于对任务和工作流程进行排序。 数据必须从源系统中提取,转换,然后加载到目标(即数据仓库)中。

在传统的数据仓库世界中,结构和架构至关重要,这导致了明确定义的转换。 在Hadoop和大数据世界中,无需将数据存储为结构化格式。 新工具可以在没有模式的情况下工作,或者在读取时应用模式,或者针对列,键值对和文档数据库进行优化。 没有真正的提取和加载-都是关于数据到达集群后发生的转换。 从数据仓库卸载时,将同时移动数据和转换。 数据生命周期是一个重要的主题,需要考虑三个主要方面:数据摄取,数据集成和数据传递。

  1. 数据摄取 :关于数据摄取,重要的是绘制出现有的数据流,以了解Hadoop体系结构中可能需要进行哪些修改。 MapR提供多种选择。 您可以使用仅MapR平台随附的独特NFS功能将数据提取到群集中。 也可以使用诸如SQOOP之类的工具或诸如Informatica之类的其他第三方工具。 在存储方面,重要的是要了解例如是否需要按天对数据进行分区,以及更新是增量更新还是完全重写。 当涉及到转换时,Hadoop世界的最大区别是这些发生在事实之后,而定义用于转换数据的模式的关键步骤不是必需的。
  2. 数据集成 :在传统的数据仓库世界中,客户通常使用星型模式方法或3NF或两者结合来构建数据模型。 这些技术提供了对数据的紧凑关系理解,并包括集中式数据模型。 可以在Hadoop体系结构中利用这一功能,并且可以在此基础上构建数据微服务 ,这些数据微服务可以针对特定的应用程序进行规范化,立方化或聚合和解释。
  3. 数据交付:在大数据旅程中的某个时刻,客户将需要某种类似于OLAP的功能,并构建多维数据集以轻松向最终用户显示数据。 使用来自广泛Hadoop生态系统的工具,可以使用SQL和完整的编程语言,或者也许使用Atscale之类的工具,在流和批处理模型的基础上构建这些数据“微服务”。

下图显示了如何完成数据生命周期,并有助于将数据卸载和转换为基于Hadoop的环境。

要解决的另一个关键主题是关于数据结构。 在数据仓库卸载的情况下,关于架构的数据模型可能要做出决策。

  1. 带有MapR-DB的MapR平台中提供的某些独特功能,即使以SQL为例,也可以帮助简化基于键的查找。
  2. 对于定界文件,MapR平台可以直接在这些文件上工作,无需为这些文件设计元数据,然后可以将这些元数据以压缩索引格式(如Avro和Parquet)放置,以加快常规报告和探索查询的速度。
  3. JSON越来越成为嵌套数据的一种关键格式,并且非常灵活。 处理JSON数据是MapR平台的主要优势。 在数据仓库世界中,通常会找到2D表结构和各种聚合,以将嵌套维数据放入不同的实体中。 可以通过组织内的不同职能来不同地解释这些内容。 重组这些实体在纯关系数据仓库数据流中提出了一个独特的挑战,但通过在MapR平台中使用JSON可以更轻松地进行处理。

上面是一个电信领域客户的示例,该客户将其部分数据仓库工作负载迁移到MapR集群。 您可以看到它们从性能和价格方面都受益。

最终涉及数据迁移时,需要考虑几个不同的观点,以及MapR平台可以在哪些方面帮助这项工作。

  1. 尽管需要进行一些开发工作以涵盖特定于平台的功能(Teradata,Oracle)和SQL兼容性,但是可以通过合理的努力来转移当前数据仓库实现中实现的现有存储过程。
  2. 在系统架构方面,组件可以完全移植到不同的工具集(例如,SQL到Pig),但具有保留其与数据工作流其他部分的接口的能力。 在此级别进行重新架构可以提高开发速度和可管理性,同时有助于促进与数据工作流中其他流程的更直观,更有效的界面。

摘要

完成数据迁移和转换工作后,将在下游带来很多好处。 可以应用新的分析工具和方法来获得新的业务见解。 诸如客户360之类的用例以及对现有业务流程的更深入的分析可以提供给业务涉众,并提高运营效率。 从上面的客户示例中可以看出,还可以节省成本并提高性能。 显然,数据仓库迁移和卸载计划不仅可以使底线受益,也可以使顶线受益。 有关MapR在此区域提供的解决方案的更多信息,我们建议您在我们的网站上查看数据仓库优化区域。

翻译自: https://www.javacodegeeks.com/2016/10/best-practices-migrating-data-warehouse-big-data-platform.html

数据仓库 迁移 大数据

数据仓库 迁移 大数据_从数据仓库迁移到大数据平台的最佳实践相关推荐

  1. Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据

    Java_Hive_UDF函数清洗数据_清洗出全国的省份数据 最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...

  2. 《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.5 大数据系统应有的属性...

    本节书摘来自华章出版社<大数据系统构建:可扩展实时数据系统构建原理与最佳实践>一书中的第1章,第1.1节,南森·马茨(Nathan Marz) [美] 詹姆斯·沃伦(JamesWarren ...

  3. 华为工业云平台:制造业企业数据平台建设最佳实践分享

    文章目录 前言 一.制造行业数字化转型和发展趋势 1.1.制造行业数字化转型发展趋势 1.2.制造行业数字化转型遇到的挑战 1.3.政策牵引,加快数字化转型升级 二.数字化转型-业务角度 2.1.智能 ...

  4. 制造业企业数据平台建设最佳实践分享

    本文分享自华为云社区<[云驻共创]华为工业云平台:制造业企业数据平台建设最佳实践分享>,作者: 白鹿第一帅 . 前言 本文素材来自于华为工业云平台组织的工业数字化大讲堂,本期主题为:制造业 ...

  5. api文档数据量太大崩溃_比较最好的免费金融市场数据API

    如果您要分析金融市场数据(从股票市场到加密货币,作为数据科学家,交易商或投资者),请从此处开始. > Photo by Chris Liverani on Unsplash 在我们的世界中,几乎 ...

  6. kettle分批处理大表数据_采用Kettle分页处理大数据量抽取任务

    需求: 将Oracle数据库中某张表历史数据导入MySQL的一张表里面. 源表(Oracle):table1 目标表(MySQL):table2 数据量:20,000,000 思路: 由于服务器内存资 ...

  7. osg加载osgb数据_铁路工程三维协同大数据云平台研究与开发

    铁路工程三维协同大数据云平台是基于3DGIS空间信息平台.BIM云平台.GIM云平台.在线监测云平台及增强现实云平台的多平台融合技术 现代铁路工程建设更加注重BIM.物联网等新技术,构建全生命周期一体 ...

  8. python爬取网站大数据_基于腾讯位置大数据平台的全球移动定位数据获取(Python爬取)...

    对于腾讯位置大数据平台,有一些商业接口可以调用 看起来还是挺爽的,但是现阶段只接受商业合作客户来调用,我们个人是获取不到的. 那就没办法了吗?当然不是,实际上腾讯位置大数据把调用接口就直接写在了前端, ...

  9. 机器学习 处理不平衡数据_在机器学习中处理不平衡数据

    机器学习 处理不平衡数据 As an ML engineer or data scientist, sometimes you inevitably find yourself in a situat ...

  10. oracle中join另一个表后会查询不出一些数据_面试必备 | 8个Hive数据仓工具面试题锦集!...

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 进入数据时代,大数据技术成为互联网发 ...

最新文章

  1. SQL Server存储过程输入参数使用表值
  2. eclipse配置maven及查看对应maven配置文件settings.xml的地方
  3. Win7下面wubi安装Ubuntu14.04LTS
  4. vue 监听渲染变化
  5. Android PullToRefreshListView上拉刷新和下拉刷新
  6. mock如何为空_如何 mock 数据
  7. oracle sequence 应用,oracle应用之使用sequence批量写数据
  8. 去掉左边0_TiDB 4.0 在 VIPKID 的应用实践
  9. OpenGL超级宝典 绘制第一个三角形
  10. nexus的下载和安装
  11. origin 去掉白边
  12. android 手机 瘦身,手机瘦身 Android系统程序精简教程(1)
  13. 查看oracle数据库防火墙设置,用三个方法设置Oracle数据库穿越防火墙
  14. 深入理解React:懒加载(lazy)实现原理
  15. 用as写2048游戏
  16. Lua UTF-8 全角转半角
  17. 华录智达科技有限公司入职六个月浅谈
  18. Catia 滚动轴承设计
  19. 面试第一个问题,请先做个自我介绍吧!
  20. Java程序员入门Vue基础(一)

热门文章

  1. 电力数据可视化大屏设计
  2. 谈谈核心网UPF和开放
  3. 使用C++实现“生命游戏“
  4. Franz Mandl, Graham Shaw《Quantum Field Theory (2nd)》(弗兰兹·曼德尔, 格雷厄姆·肖《量子场论(第二版)》)中文目录
  5. Paraview快捷键操作
  6. 计算机ps基础知识教案范文,PS基础教案 一学期全套教案.doc
  7. 基于SRIO总线的高速通信
  8. 我的世界(16)-解决Minecraft Forge官网无法下载文件的问题
  9. 华为路由器交换机配置命令集合
  10. python编程实战(三):暴力破解WIFI密码!亲测运行有效!