按系统功能分,不同的数据平台对应着不同的常用软件。在大数据兴盛的今天,欲进军数据界的你,应该对此有更进一步的了解。以下,大圣众包威客平台(www.dashengzb.cn)将为你推介。

1.数据挖掘模块

作为一个跨学科的计算机科学分支,数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程,属于非传统的数据处理。相对于传统ETL数据处理,数据挖掘更侧重于知识发现,其计算和规则也更加复杂。

【现阶段常用的数据挖掘软件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R语言、RapidMiner、SAS、SPSS、Weka等。

2.ETL模块

目前,对于传统ETL,大部分ETL软件都可以胜任;但是对于大数据下的ETL,ETL工具对其支持非常有限。

Informatica为大数据下的ETL开发推出InformaticaBigData版本,它将之前的Mapping翻译为HQL脚本,从而在Hive引擎上执行。IBM的DataStage则通过相应BalancedOptimizer实现Mapping到Netezza、Oracle和DB2等专用数据库的脚本翻译,以利用不同的更为强大的数据处理引擎。TalendETL则把Mapping翻译为SparkSQL,从而利用Spark引擎对数据进行处理。

【现阶段常用的ETL软件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表现为通过拖拽和配置的方式可视化、免编码地完成ETL工作;脚本包括标准AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表现为通过特定的语法进行编码实现ETL工作。

3.调度模块

调度模块,可以对企业内跨平台和跨主机的软硬件资源进行统一调度。这些资源包括ETL主机、数据交换主机、报表主机、数据库主机、DQ主机、邮件服务器和打印机等。

【现阶段常用的调度软件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、成都塔斯克TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。这些调度软件往往提供GUI和CLI的配置方式,但是在智能化配置方面支持极其有限。

4.数据交换模块

数据交换模块,包括数据导入和数据导出。数据导入包括文件日志接入、数据库日志接入、关系型数据库接入和应用程序接入等。

【现阶段常用的数据交换软件】文件日志接入可采用Flume等;数据库日志接入则往往需要开发特定的插件来读取MySQL、Oracle和SQLServer等的数据库日志或变更表;关系型数据库和NoSQL数据库接入则使用ApacheSqoop、大众点评wormhole、TaobaoDataX等;应用程序接入则通过应用程序对外接口进行接入。

5.报表模块

报表工具的学习成本和开发难度比起手工编写页面来说,无疑更低,而且,它的开发周期和项目风险也得到了有效的控制。

【现阶段常用的报表软件】

BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。这些报表软件多数都提供了列表、交叉表、图表、地图和仪表板的能力。

6.监控模块

监控模块,可以对系统硬件(交换机、路由器和主机等的电力、通信、磁盘、内存、CPU等)、系统软件(Web服务器、中间件服务器、数据库服务器和缓存服务器等的资源、连接数和负载等)和数据(数据的一致性、稳定性和可靠性等)进行实时监控,发现问题及时告警甚至按预设方案自动进行处理。

【现阶段常用的监控软件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。

7.DQ模块

DQ模块,主要对数据质量进行控制,包括源数据的质量检查、数据清洗、数据融合和数据监控等,贯穿数据处理的整个生命周期。尽管DQ模块非常重要,但是目前好些数据处理项目都没有专门的DQ模块,这些功能以脚本形式零散分布于不同的作业中。

【现阶段常用的DQ软件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。

8.资产权限模块

资产权限模块,能够统一对一些无形资产(企业的各种数据库表、视图、ETL作业、报表、邮件等)进行权限管控,保障信息安全和共享。该模块完整实现的工作量还是比较大的,多数企业都会借助不同软件自带的权限管理能力,形成分散的资产权限模块。

【现阶段常用的资产权限软件】并没有完全开箱即用的资产权限模块。

想要纵横大数据世界,傍身技能必不可少,善用工具能让你百战不殆!

(更多大数据与商业智能领域干货、或电子书,可添加个人微信号(dashenghuaer))

moia调度mysql到hive_必看:数据平台的搭建教程及软件工具相关推荐

  1. 大数据平台的搭建教程及软件工具!

    按系统功能分,不同的数据平台对应着不同的常用软件.在大数据兴盛的今天,欲进军数据界的你,应该对此有更进一步的了解.以下,大圣众包威客平台将为你推介. 1.数据挖掘模块 作为一个跨学科的计算机科学分支, ...

  2. moia调度mysql到hive_创立打车软件Moia后,“不安分”的大众又收购一家移动支付公司PayByPhone...

    ,大众集团旗下的金融子公司 Volkswagen Financial Services AG 即将对移动支付公司收 PayByPhone 发起收购.目前,两家公司都已经向<华尔街日报>确认 ...

  3. lua菜鸟教程_初学者必看:Lua入门学习教程

    Lua入门学习教程是本文要介绍的内容,主要是来对Lua入门的一个学习,Lua是一个被设计成用于扩展C/C++编程的轻量级脚本语言.不幸的是,网上很少有关于这个语言的在线教程.我主要通过阅读其源代码来了 ...

  4. 大数据平台的搭建思路是怎样的

    大数据平台的搭建就是企业面临的问题,搭建大数据平台有哪些思路?怎么样的搭建路径可以让企业少走弯路?什么样的架构是业内标准?通过什么手段来分析和展示已有的数据? 或许这些问题会萦绕在您的心头,那么今天就 ...

  5. 【Hadoop大数据平台组件搭建系列(一)】——Zookeeper组件配置

    简介 本篇介绍Hadoop大数据平台组件中的Zookeeper组件的搭建 使用软件版本信息 zookeeper-3.4.14.tar.gz Zookeeper安装 解压Zookeeper安装包至目标目 ...

  6. Ambari——大数据平台的搭建利器之进阶篇

    Ambari--大数据平台的搭建利器之进阶篇 [日期:2015-07-14] 来源:IBM  作者: [字体:大 中 小] Ambari 的现状 目前 Apache Ambari 的最高版本是 2.0 ...

  7. 教育行业需要了解的大数据,武汉数道云科技浅析:Hadoop大数据平台如何搭建?...

    从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...

  8. 【数道云】教育行业需要了解的大数据,武汉Hadoop大数据平台如何搭建?...

    从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...

  9. 【数道云】教育行业需要了解的大数据,武汉Hadoop大数据平台如何搭建?

    从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...

最新文章

  1. 在docker的Linux容器搭建前端开发环境
  2. python_day2_数据格式
  3. php内核分析-fpm和df的问题思考
  4. android用什么测试类,android – 使用firebase对类进行JUnit测试
  5. python爬虫 爬取有道翻译详解
  6. JQuery中的样式操作
  7. ad如何设置pcb板子形状_俺老孙画个圈板框与安装孔PCB系列教程110
  8. 用IIS配置反向代理
  9. python 月报_python实践--月报分析之获取jira缺陷数据
  10. 阿里CTO谈BAT:李彦宏说是新瓶装旧酒、马化腾说太遥远了、马云说今天就应该做
  11. DirectSound学习笔记(4):设备性能
  12. 【回归预测】基于matlab GA优化BP回归预测(含优化前的对比)【含Matlab源码 1790期】
  13. js获取chrome浏览器版本信息
  14. 【深度干货】强化学习应用简述
  15. 选修课:唐宋词课堂鉴赏笔记01
  16. leetcode-Algorithms-22|括号生成
  17. AS608指纹模块详解
  18. 证明:两个积性函数的狄利克雷乘积为积性函数
  19. 二级路由器设置图解教程
  20. H3C防火墙NAT类型及处理顺序

热门文章

  1. JavaSE学习之路:Idea小技巧一键生成标准JavaBean(一键生成构造方法和Setter和Getter方法)
  2. Linux:for语句的基本用法举例
  3. 美股互联网IPO集散地,正在成为过去式
  4. 今日金融词汇---预收,是什么?
  5. 关注李敖神州文化之旅
  6. 支持向量机(SVM)的数学原理
  7. 拥抱新技术?你需要考虑的方面
  8. 《电子测量与仪器学报》最新投稿经验2022.9
  9. 辉光管升压电路理论,让USB升压170V
  10. 天融信AlphaFuzzer测试工具 使用教程