大数据平台的搭建和数据分析
行内人士皆知,大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。今天我们就以大数据平台为例,透过平台所包含的系统模块来看看其应该具备哪些实际功能?
一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:
1、Linux系统安装
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。比如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。
2、分布式计算平台/组件安装
当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方);2)开源组件一般免费,学习和维护相对方便;3)开源组件一般会持续更新;4)因为代码开源,如果出现bug可自由对源码作修改维护。
常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询,Hbase可以快速读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务,Impala是对hive的一个补充,可以实现高效的SQL查询
3、数据导入
前面提到,数据导入的工具是Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。
4、数据分析
数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。
5、结果可视化及输出API
可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。
平台的每个子系统都包含不同的功能,不同功能的模块组合成一个具有实际应用价值的大数据分析平台,实现对各种业务的前瞻性预测和分析,为用户提供统一的决策分析支持,从而更好地突出平台本身的价值。
大数据平台的搭建和数据分析相关推荐
- 大数据平台的搭建思路是怎样的
大数据平台的搭建就是企业面临的问题,搭建大数据平台有哪些思路?怎么样的搭建路径可以让企业少走弯路?什么样的架构是业内标准?通过什么手段来分析和展示已有的数据? 或许这些问题会萦绕在您的心头,那么今天就 ...
- 教育行业需要了解的大数据,武汉数道云科技浅析:Hadoop大数据平台如何搭建?...
从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...
- 【数道云】教育行业需要了解的大数据,武汉Hadoop大数据平台如何搭建?...
从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...
- 【数道云】教育行业需要了解的大数据,武汉Hadoop大数据平台如何搭建?
从教育行业的需求出发,去分析互联网时代教育行业需要了解的大数据,以及大数据平台的搭建应该注意什么? 中国-教育规模较大的国家之一,随着互联网的发展,海量的教育大数据将不断产生,如何有效科学的利用数据资 ...
- 【Hadoop大数据平台组件搭建系列(一)】——Zookeeper组件配置
简介 本篇介绍Hadoop大数据平台组件中的Zookeeper组件的搭建 使用软件版本信息 zookeeper-3.4.14.tar.gz Zookeeper安装 解压Zookeeper安装包至目标目 ...
- Ambari——大数据平台的搭建利器之进阶篇
Ambari--大数据平台的搭建利器之进阶篇 [日期:2015-07-14] 来源:IBM 作者: [字体:大 中 小] Ambari 的现状 目前 Apache Ambari 的最高版本是 2.0 ...
- 企业大数据平台如何搭建?
在大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL server.MySQL.Oracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对 ...
- Hadoop大数据平台环境搭建注意事项,分布式数据采集,武汉数道云科技
Hadoop大数据作为时代发展的产物,影响着互联网企业发展.以及企业关于品牌形象推广.政府有关民意采集.以及有关数据信息收集分类------ Hadoop技术的发展,带来了海量数据高效处理的能力,也给 ...
- 大数据平台CDH搭建
一.概述 Cloudera版本(Cloudera's Distribution Including Apache Hadoop,简称"CDH"),基于Web的用户界面,支持大多数H ...
最新文章
- MySQL Antelope和Barracuda的区别分析
- R语言导入、读取网络CSV数据(Read a CSV from a URL)实战:R原生read_csv、readr包、data.table
- 构建高可用的LVS负载均衡集群 入门篇
- 使用elasticsearch-php需要注意的问题
- VS2010属性表的建立与灵活运用
- Git提交到码云(转)
- .net 垃圾回收学习[How To: Use CLR Profiler][翻译学习]【2】
- 免费解决vcruntime140.dll文件缺失 - 资源篇
- Android数据库框架-----ORMLite 的基本用法
- linux hadoop etc目录,Hadoop系列——Linux下Hadoop的安装与伪分布式配置
- mysql mvc javascript_MVC中用Jquery、JS和Ajax 实现分页 存储过程是用mysql写的。
- 生产环境大于254台机器网段划分及路由解决方案详解02
- 2021年中国船用燃气发动机市场趋势报告、技术动态创新及2027年市场预测
- linux 自学笔记
- [转]使用RDLC报表(1) -(4)
- python函数递归调用时对深度没有限制_在Python程序中设置函数最大递归深度
- 计算机光盘无法格式化,c盘无法格式化怎么办 c盘无法格式化的解决方法
- 百家讲坛之易中天品三国MP3全集
- 阿里一面面试题整理集合
- C语言32位正整数作为id进程,SOJ4453 Excel列数 进制转换