本文来自网易云社区。

面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作。

在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。

(1)操作系统的选择

操作系统一般使用开源版的RedHat、CentOS或者Debian作为底层的构建平台,要根据大数据平台所要搭建的数据分析工具可以支持的系统,正确地选择操作系统的版本。

(2)搭建Hadoop集群

Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,适用于那些有着超大数据集的应用程序;MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。在生产实践应用中,Hadoop非常适合应用于大数据存储和大数据的分析应用,适合服务于几千台到几万台大的服务器的集群运行,支持PB级别的存储容量。

Hadoop家族还包含各种开源组件,比如Yarn,Zookeeper,Hbase,Hive,Sqoop,Impala,Spark等。使用开源组件的优势显而易见,活跃的社区会不断的迭代更新组件版本,使用的人也会很多,遇到问题会比较容易解决,同时代码开源,高水平的数据开发工程师可结合自身项目的需求对代码进行修改,以更好地为项目提供服务。

(3)选择数据接入和预处理工具

面对各种来源的数据,数据接入就是将这些零散的数据整合在一起,综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入,数据接入常用的工具有Flume,Logstash,NDC(网易数据运河系统),Sqoop等。对于实时性要求比较高的业务场景,比如对存在于社交网站、新闻等的数据信息流需要快速处理反馈,那么数据的接入可以使用开源的Strom,Spark streaming等。当需要使用上游模块的数据进行计算、统计和分析的时候,就需要用到分布式的消息系统,比如基于发布/订阅的消息系统kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务,更好地保证数据的可靠和一致性。

数据预处理是在海量的数据中提取出可用特征,建立宽表,创建数据仓库,会使用到HiveSQL,SparkSQL和Impala等工具。随着业务量的增多,需要进行训练和清洗的数据也会变得越来越复杂,可以使用azkaban或者oozie作为工作流调度引擎,用来解决有多个hadoop或者spark等计算任务之间的依赖关系问题。

(4)数据存储

除了Hadoop中已广泛应用于数据存储的HDFS,常用的还有分布式、面向列的开源数据库Hbase,HBase是一种key/value系统,部署在HDFS上,与Hadoop一样,HBase的目标主要是依赖横向扩展,通过不断的增加廉价的商用服务器,增加计算和存储能力。同时hadoop的资源管理器Yarn,可以为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一等方面带来巨大的好处。Kudu是一个围绕Hadoop生态圈建立的存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,可以运行在普通的服务器上,作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Redis是一种速度非常快的非关系型数据库,可以将存储在内存中的键值对数据持久化到硬盘中,可以存储键与5种不同类型的值之间的映射。

(5)选择数据挖掘工具

Hive可以将结构化的数据映射为一张数据库表,并提供HQL的查询功能,它是建立在Hadoop之上的数据仓库基础架构,是为了减少MapReduce编写工作的批处理系统,它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。Impala是对Hive的一个补充,可以实现高效的SQL查询,但是Impala将整个查询过程分成了一个执行计划树,而不是一连串的MapReduce任务,相比Hive有更好的并发性和避免了不必要的中间sort和shuffle。Spark可以将Job中间输出结果保存在内存中,不需要读取HDFS,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML,生成索引,或者通过HTTP GET操作提出查找请求,并得到XML格式的返回结果。

还可以对数据进行建模分析,会用到机器学习相关的知识,常用的机器学习算法,比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

(6)数据的可视化以及输出API

对于处理得到的数据可以对接主流的BI系统,比如国外的Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等,将结果进行可视化,用于决策分析;或者回流到线上,支持线上业务的发展。

搭建一套大数据分析平台不是一件简单的事情,本身就是一项复杂的工作,在这过程中需要考虑的因素有很多,比如:

  • 稳定性,可以通过多台机器做数据和程序运行的备份,但服务器的质量和预算成本相应的会限制平台的稳定性;
  • 可扩展性:大数据平台部署在多台机器上,如何在其基础上扩充新的机器是实际应用中经常会遇到的问题;
  • 安全性:保障数据安全是大数据平台不可忽视的问题,在海量数据的处理过程中,如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。

利益相关:网易猛犸大数据平台是一站式大数据应用开发和数据管理平台。基于业务场景设计的用户操作界面提高了系统的易用性,结束了平台命令行运维的繁琐状态,数据开发工程师和数据分析师通过简单拖拽和表单填写即可完成数据科学相关工作。平台提供多租户支持,不同租户之间相互隔离,底层使用Kerberos认证,实现了数据的安全性和隔离性,除了认证系统,利用ranger实现了细粒度权限控制,保证了各个租户之间只能查看授权访问的库、表或者字段,此外,平台提供审计功能,通过对用户平台行为的记录、分析和汇报,用来帮助事后生成合规报告、事故追根溯源,提高平台的安全性。

相关阅读:猛犸机器学习开发实践

原文:如何创建一个大数据平台?具体的步骤

创建一个大数据平台的正确姿态相关推荐

  1. 七牛大数据平台的演进与大数据分析实践--转

    原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=info ...

  2. 网易大数据平台架构实践分享!

    随着网易云音乐.新闻.考拉.严选等互联网业务的快速发展,网易开始加速大数据平台建设,以提高数据获取速度,提升数据分析效率,更快发挥数据价值. 本次演讲主要分享网易如何围绕和改造开源技术,以产品化思维打 ...

  3. 余利华:网易大数据平台架构实践分享!

    [IT168 专稿]本文根据余利华老师在2018年5月10日[第九届中国数据库技术大会]现场演讲内容整理而成. 讲师简介: 余利华,网易大数据总经理,负责网易数据科学基础设施建设, 包括大数据管理和应 ...

  4. 如何知道一个大数据解决方案是否适合您的组织

    作者:Divakar Mysore,Shrikant Khupat,Shweta Jain 来源:IBM 发布于:2014-12-10 简介 在确定投资大数据解决方案之前,评估可用于分析的数据:通过分 ...

  5. 开源技术、开放使用、业务导向的大数据平台,助力银行数字化转型

    随着技术的高速迭代,金融科技企业早已不再是简单的金融+互联网模式,而是在大数据.人工智能和云计算加持之下逐渐进入下半场. 飞贷金融科技作为国内首家覆盖业务全流程.运营全体系的移动信贷整体技术服务商,通 ...

  6. 昨日黄花Hadoop 方兴未艾云原生——传统大数据平台的云原生化改造

    本文6539字,阅读时间约20分钟 以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发 ...

  7. Hadoop势微,云原生上位——传统大数据平台的云原生化改造

    以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发迭代速度不够快,集群资源利用效率过低 ...

  8. 扫盲系列-大数据平台多租户方案设计

    什么是多租户? 多租户是一种软件架构模式,通俗来讲,就是构建一套应用来服务多个用户,但又能确保一定的隔离性.区别于用户的概念,用户是资源的使用者,而租户一般对应一个组织或一类用户.通常数据权限.计算资 ...

  9. 10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货

    今天给大家分享一套方法论,累计10W+阅读,1W+点赞的大数据平台建设方法论. 在数据平台建设的前期来说,做大数据平都是为了日后的数据分析来做基础的.那样就一定要规划出适合企业的方案.根据目前国内大部 ...

最新文章

  1. 使用VisualStudio2010连接CodePlex进行代码管理
  2. 计算机病毒不可能侵入rom,2008年职称计算机考试计算机基础试题7
  3. Windows Server 2016-图形化备份域控制器
  4. html页面懒加载灰度图片大小,小程序初级指南--图片及其优化
  5. docker安装elasticsearch_Docker 安装 ElasticSearch
  6. 博客园能有这种背景就很强大了!
  7. 【Spring】总结Spring整合Mybatis的底层原理实现步骤
  8. LiveGBS高性能GB28181国标流媒体服务流传输模式支持UDP、TCP被动、TCP主动模式
  9. ajax传递数组,后台接收为null解决方法
  10. java封装需要多久_Java对时间操作的一些封装函数
  11. mysql查找有小数点的数据_MySQL中查询中位数?
  12. Android程序对不同手机屏幕分辨率自适应的总结
  13. php mysql商品数量购买减少_PHP+Redis+MySQL商品秒杀与超卖讲解
  14. Linux中的samba服务和ftp服务
  15. 未来教育计算机二级考试系统出错,未来教育计算机二级模拟考试系统
  16. Idea代码主题插件下载
  17. typecho插件:用访问量统计插件
  18. 阿里优酷视频分类方法???咋理解啊?
  19. 堪萨斯州立大学计算机专业,全美顶尖大学:堪萨斯州立大学
  20. 树莓派4B(4G/8G)安装Ubuntu18.04桌面版+ROS(Melodic)+Realsense SDK(T265+D400系列)

热门文章

  1. 使用pandas读取dat文件完整解决方案
  2. Speak2Me英语口语学习系统
  3. /dev/random和/dev/urandom的一点备忘
  4. ROBOTSTUDIO中基础术语、在线功能
  5. 关于vue-router的历史模式和hash模式
  6. windows搭建nexus私服
  7. 天融信防火墙NGFW4000,无法进入web管理和community属性查看
  8. python --moviepy合成视频加转场效果(淡入淡出)
  9. 《ANSYS 14.0超级学习手册》一2.3 宏 文 件
  10. IK-Analyzer 分词器 solr