http://www.soft78.com/article/2016-03/8a2389fd5310d3e40153300fbe9901c0.html

第1章 华数大数据分析平台方案介绍

1.1 华数大数据平台总体架构

1.1.1 华数大数据平台应用架构

应用架构图

基于华数多年来的开发经验,并借鉴行业大数据分析平台的实施、管理和应用方面的成功经验,结合禾丰牧业实际信息化情况,我们将禾丰大数据平台实际为三层架构,其中:

l基础数据源层:目前禾丰牧业所应用的数据主要来源于业务系统(EAS)与平面文本文件(Excel)两种类型,结合未来信息化的发展,音频数据和视频数据等越来越丰富的数据类型也将陆续纳入到我们的大数据平台体系之中,因此为保证我们的大数据平台的先进性,要能支持多种类型的数据源;l大数据处理层:由于数据源类型的多样性,传统关系型数据仓库架构或者分布式存储架构各有优缺点,单独使用都无法很好的满足对结构化和非结构化数据的存储和应用需求,因此我们建议采用传统数据仓库架构与大数据分布式数据仓库架构两者相结合的架构设计,两者紧密配合共同承担大数据处理任务,为大数据应用提供数据接口、数据交换、数据查询、数据分析和数据挖掘提供数据基础;l大数据应用层:随着信息化的发展,对大数据的应用方式也越来越多,大数据分析平台应用层需要满足诸如:固定报表、OLAP分析、KPI分析、指标监控、即席查询(自助式分析)、决策支持、邮件推送、office集成、移动BI、预警预测(数据挖掘)等多种展现方式。

1.1.2禾丰大数据平台技术架构

技术架构图

根据我们实施建设大数据分析平台多年的经验,结合禾丰牧业三层式数分析平台系统构架,通过数据采集(包括数据源)、信息存储与管理(数据仓库和Hadoop)和信息共享三部分技术来实现。 l数据采集:

1)结构化数据采集:禾丰牧业现有的数据主要来自于EAS系统、青软系统、电商平台和文本文件都属于结构化数据,大数据分析平台采用ETL工具-kettle作为采集结构化数据的手段。ETL(Extract, Transform, Load)是建立大数据分析平台的重要组成部分,它将大数据分析平台中所需的数据按数据仓库建立的方法每天或定期从各个业务系统中采集详尽的业务数据,并根据各自的需求进行数据调整,数据迁移过程中需将原始数据进行抽取、清洗、合并和装载。在此过程中必须保证数据的完备性和数据的一致性。当业务数据量过大,未避免Mysql数据仓库压力过大,亦可将业务数据通过kettle迁移到hadoop平台的数据库Hbase中。

2)非结构化数据采集:随着禾丰牧业信息化建设的发展,未来电话会议、视频会议、影音文件、微博实时数据、传感器采集的设备数据、移动端收集的数据以及其他流数据等非结构化数据,我们将通过传感器接口、视频接入设备、网络爬虫工具和流处理程序等方式分别进行采集并存储到HDFS和Hbase中。l大数据存储和管理:

1)结构化数据存储和管理:为方便其管理和满足未来展现的性能要求,我们选择以关系型数据库MySQL和hadoop的HBase数据库共同承担对结构化的数据的存储和管理。以MySQL建立传统数据仓库来实现对用于结构化数据和元数据的集中存储与管理,并根据需求建立面向部门和主题的数据集市,中央数据仓库将被划分为三个逻辑存储区间: ODS(Operational Data Store)、DW(Data Warehourse)、DM(Data Mart):ODS将存放各业务系统的原始数据,包括与原结构相同的业务数据以及经过初步整理后的业务数据;DW区域存放经过整理过的数据,是大数据分析平台真正的数据中心;DM区域存放各个应用系统(web应用、BI、OLAP、Data Mining等)所需的综合数据。与此同时我们在MySQL和HBase数据库之间建立连接,利用Kettle定时进行数据交换,俩种数据仓库共同大数据应用提供数据支撑,从而实现数据共享,分摊压力和数据备份的目的。

2)非结构化数据存储和管理:由于Mysql不支持对非结构化数据的存储,我们利用大数据应用框架Hadoop平台的数据仓库作为传统数据仓库的补充,实现对非结构化数据的存储和管理,并对来自网络的海量数据查询提供支撑。Hadoop平台集中了很多功能组件,其中HDFS是分布式文件系统,用于分布式存储大数据文件;Hbase是可扩展的分布式列存储NoSQL数据库,用于存储结构化和非结构化数据;Hive是基于Hadoop的数据仓库工具,可以存储、查询和分析存储在HBase中的数据;Mapreduce是用于对Hadoop平台大规模数据集进行并行查询的编程模型;Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。l应用与分析:大数据分析平台为满足不同用户的需求,需要提供多种不同的应用与分析方式,大数据分析平台提供三种应用方式。第一种:支持利用java或C等开发语言编写程序实现对Hadoop平台和MySQL数据仓库中数据的应用;第二种:我们选用强大的商务智能软件IBM-Cognos作为信息共享工具。Cognos作为多样化的前端分析展示工具,支持建立DMR和OLAP两种模型,提供了在线报表、OlAP分析、仪表板、记分卡、即席查询、邮件分发、Office集成、移动APP等多种信息共享技术。第三种:我们选用” 统计产品与服务解决方案”软件IBM-SPSS作为数据挖掘工具,SPSS支持以Hadoop平台和MySQL搭建挖掘模型,用于统计学分析运算、数据挖掘、预测分析和决策支持任务,支持描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等多类统计分析和挖掘算法。

转载于:https://www.cnblogs.com/davidwang456/articles/9732879.html

华数大数据平台解决方案相关推荐

  1. 国内跨云端平台应用的大数据平台供应商,基于Hadoop的互联网大数据平台解决方案,武汉数道云...

    跨云端大数据平台是什么?有何实质性的价值呢?如何去实现跨云端大数据平台技术呢?这是耐人深思的话题. 高速发展的信息技术,不断扩张的数据库容量,互联网作为信息传播和再生的平台,"信息泛滥&qu ...

  2. 【推荐】智慧检察公益诉讼辅助快检AI人工智能大数据平台解决方案合集(共183份,928M)

    [推荐]智慧检察公益诉讼辅助快检AI人工智能大数据平台解决方案,检务保障系统,整体解决方案合集,公益诉讼方案,可视化检察管理,概要详细设计交付验收模板. 下载地址:https://download.c ...

  3. 企业大数据平台解决方案

    近日,数智机器人科技发布了"数智大数据管理平台",融合了大数据.云计算.人工智能等先进技术,帮助企业实现数据快速接入,连接人员.业务.设备等,提供数据融合.数据分析.数据挖掘.数据 ...

  4. 智慧政务大数据平台解决方案

    作者:富扬信息 本期内容主要是关于建设智慧政务大数据平台的核心内容及运营的整体方案. 政务大数据建设意义 政务大数据的本质是指以政务服务平台为基础,以公共服务普惠化为主要内容,以实现智慧政府为目标,运 ...

  5. 118页4万字智慧检务大数据平台解决方案

    [版权声明]本资料来源网络,知识分享,仅供个人学习,请勿商用. [侵删致歉]如有侵权请联系小编,将在收到信息后第一时间删除! 完整资料领取见文末,部分资料内容: 目录 第1章 前言 1.1. 政策背景 ...

  6. SkeyeIVMS实现陕西省宝鸡市反窃电稽查监控大数据平台解决方案

    一, 总体描述 1.1, 背景 在社会经济发展水平不断提高的同时,窃电问题也越来越严重,为了更好的避免违规违章用电现象的发生,保证电力系统的正常运行,我国供电公司不断进行技术升级与创新, 利用现代信息 ...

  7. 典型工业企业大数据平台解决方案(含数据治理)

    一.总体思路 当前,工业企业产生的数据日与俱增,如何利用大数据为企业产生驱动力.竞争力成为工业企业面临的重要问题.工业企业大数据平台建设的总体思路是将现有PLC.MES.ERP.CRM.SRM.SCM ...

  8. 大数据-平台-解决方案-基础架构一览

    1.talkingdata  (数据平台) 2.明略数据(解决方案) 3.百融金服(金融大数据) 4.国双科技(营销大数据) 5.国信优易(媒体大数据) 6.百分点(营销大数据) 7.华院集团(解决方 ...

  9. 工业大数据平台解决方案的应用价值

    大数据经过多年的潜心发展,在当今可以说是进入到了一个快速发展期.各种围绕大数据的应用开发也迅速火热起来了.政务大数据解决方案.企业级大数据解决方案.智慧城市停车大数据解决方案等已经开始被应用.5月份一 ...

最新文章

  1. 一、常见损失函数的用法
  2. 使用Linux服务器搭建个人深度学习环境
  3. mysql提取数字_Mysql中实现提取字符串中的数字的自定义函数分享
  4. 转载:VMware虚拟机时钟不准的问题(linux图形界面投影到windows配置参考)--略有修改...
  5. C#实验报告 类与对象的访问性:银行账户存取款、新建账户、查询余额
  6. java hashcode返回值_Java HashMap返回值未根据我对equals和hashcode的理解进行确认
  7. vue index.php,如何解决vue $index报错问题
  8. 【JAVA SE】第七章 继承和多态
  9. 量化策略回测唐安奇通道
  10. 【Robot Framework】字符串判断,if语句多执行条件,多执行语句
  11. 学语言python研究生专业目录一览表_本科专业与研究生学科专业目录对照表格模板...
  12. 问卷设计中的常见问题
  13. HTML 区块、布局与框架
  14. amoeba mysql下载_amoeba for mysql
  15. imagemagick gif制作
  16. Civil3D2018-01使用配置
  17. 示波器基本原理之六:示波器的基本控制
  18. jFreeChart+itext生成带统计图的pdf文件
  19. 剑指offer(三)
  20. d-link路由器虚拟服务器,两台D-Link路由器之间如何桥接上网

热门文章

  1. idea 升级到2020后 无法启动_i.MXRT软复位后无法从32MB Flash启动?
  2. Java的call by value_call by value or reference ?
  3. opencv 解析yuv_OpenCV Mat格式存储YUV图像
  4. 栈空间不够会报错吗_网站更换域名和空间会对优化有影响吗?
  5. RTOS原理及功能简介
  6. Hadoop中Context类的作用和Mapper<LongWritable, Text, Text, LongWritable>.Context context是怎么回事【笔记自用】
  7. cuda grid 和block理解(二)
  8. c++ 纯虚函数和抽象类那些事(一)
  9. python split()
  10. 风控项目-收集基础知识2