大数据所面临的五大问题中最后一个是大数据应用,也是大数据问题的具象和最终展现形式。如果用更高度的概括来表述大数据的生命周期,可以归纳为:大数据来源+大数据技术+大数据应用。三者缺一不可、彼此相承,见下图:

**

一|大数据应用特点

**
大数据应用通常被划分为第三平台应用,以此来区别于第二平台的应用。大数据应用有如下四大特点:

· 弹性(Elasticity)
· 敏捷性(Agility)
· 数据为中心(Data-centric)
·应用服务化(As-a-Service)

(1)应用弹性
大数据应用的弹性与所有第三平台应用一模一样,从云基础架构(IaaS)的角度解读是基础架构级资源可以随着业务、应用的需求变化而具有水平或垂直伸缩能力(Scale-Up/Down/ Out/In),从PaaS角度看是指服务于应用的各类数据服务、编程接口、消息队列等平台级资源的按需可调节性。IaaS与PaaS结合起来保证了顶层应用的弹性。
(2)应用敏捷性
大数据应用的敏捷性有两层含义,一层是从应用的开发与交付采用敏捷模式,如Scrum/Waterscrumfall等敏捷开发模式、DevOps、持续集成等概念;另一层指的是应用生命周期中通常以事件或时间为驱动,当侦测到符合某种特征的事件,如寻找热点时间、舆情监控)发生或在某时间范围内,如春晚需要对海量数据进行高时效性,如实时处理时,大数据应用能及时根据数据趋势做出分析统计、预测以及调整商务策略。
(3)数据中心化
数据为中心指的是随着大数据处理技术的发展,大数据应用越来越面向丰富的数据集,有调研26表明通常企业收集存储的信息只有三分之一是文本与静态图片信息,而剩下的三分之二则是视频与音频信息,也就是说大数据应用在这些更为动态的数据集中可以获取更多有价值的信息。绝大多数人都相信我们身处一个越来越依赖数据,依赖海量数据来辅助我们做出有根据的(Informed)决策的时代。
(4)应用服务化
应用服务化对于大数据应用而言就是Big-Data-as-a-Service(大数据即服务),特别是在云计算已经几乎唾手可得的时代,越来越多的大数据分析与管理服务可以在各种形态的云架构上获得,它们与之前的XaaS类型服务如出一辙,按需分配资源,按使用额度精细计费,支持多租户场景,从供给方角度通过资源共享实现低资源闲置率→高服务营收。应用服务化带来的另一个好处是可以避免重新发明轮子类,如重复建设的企业多部门间资源浪费。
二 |大数据应用优势
大数据应用能为企业带来哪些好处呢?见下图:

(1)产品快速迭代,缩小产品推向市场的时间
产品部门通过大数据的应用可以减少产品推向市场、更新换代(迭代)的时间。以制药企业为例,一款新药的研发、临床耗时长而且费用极高,有统计表明平均一款新药的开发费用超过5亿美元,使用大数据分析与建模可以在研发的早期阶段就模拟中后期场景从而大幅缩短制药周期(如早期预测失败以避免全面失败。
(2)优化资源分配
优化企业资源分配是大数据的一类典型应用。以人力资源部门、招聘部门为例,通过对在职、离职员工的反馈、KPI表现、评估等数据分析可以对新员工招聘做出指导意见,并能提高员工顺利融入团队,对提高ROI产生积极意义。
资源分配优化还有另一个维度,那就是从数据库和数仓的角度来看问题。上文中我们提到了数据中心化,它指的就是所有的数据都是最终存储在某种、某个数仓或数据库中。两者的区别在于数仓侧重于完成AP类型的批处理操作,而数据库侧重于TP类型的实时交易化数据处理。当然,两者之间的边界很多时候并没有很清晰的边界。
我们知道在过去的10年的大数据与云计算的突飞猛进的发展过程中,任何一个数据中心没有成千上万台服务器都不好意思出来拿出来吹牛。然而,我们真的做到了资源优化分配吗?那么多台机器真的在高效的运行在解决客户的问题吗?回答这个问题,需要全面的从云计算(或大数据)的三要素来衡量,包括计算(如CPU)的利用率、存储利用率、网络利用率等。举个简单的例子,很多数仓、数据库产品,皇皇千八百太机器,然而每台的利用率只有单线程的水平,现代CPU都是32线程、56核的量级,只有单线程,就意味着95%, 99%都在空转。特别是在一些分布式系统中,这种资源浪费是惊人的。例如某开源NewSQL类数据库,在某知名实验室中压测结果爆出六台实例的集群处理能力堪堪与传统的一台机器的MySQL持平。然后他们的工程师只能说,我们至少是分布式的啊 – 非常有趣的一个现象 – 从白嫖开源,到打着优化资源的旗号,从事着资源浪费的实际工作。
真正的大数据,需要能解决客户的实际问题,而不是通过所谓的颠覆式创新来,以浪费资源或低效利用资源的方式 – 让用户部署了各种所谓的大规模成千上万台服务器的水平分布式系统,实际效果却不如之前的IOE系统 – 这种”优化“,不要也罢。
笔者曾经对比过不同类型的大数据系统对于资源利用率的比较,传统SQL类的系统,动辄几十台上百台服务器的集群,在数据处理能力上,比只有十分之一硬件规模图数据库系统,还有低一个数量级。如下图所示:

图:资源利用:图数据库指数级优于传统数据库、数仓

在某股份制银行的实时决策RTD系统中,Ultipa图数据库用了:
1/10的集群规模,实现了,
15倍的性能提升、更高的并发规模,更低的系统延迟
13倍的数据存储量提升 (7天到90天的大幅提升)
对超级节点的处理
对更深度查询的实时化支持能力
(3)提高财务业绩
提高财务业绩是另一大类大数据典型应用。有了大数据预测的帮助,CFO团队从原有的定期做报表演进到可以识别高风险客户、监控供应商、打击诈骗以及帮助制定更高效的业务模式。有统计数据表明美国每年受天气影响的GDP高达5,000亿美元,零售商通过IBM旗下的The Weather Company提供的天气预测数据(每天超过100亿次)来有效调整人员配置以及供应链管理策略,从而实现资源配置优化以提高财务表现。
(4)智慧销售
智慧销售、智慧市场推广也是大数据应用的重要领域。基于大数据、精准数据分析,电子商务公司可以根据每一个用户的以往购物经历来定制化推送市场推广邮件,从而实现更高的用户返还率(Return Rate)。以大型连锁零售商Kroger为例,通过大数据驱动的定制电子邮件优惠券推广,它们的客户返还率高达70%,而市场平均的返还率仅有3.7%,几乎是2000%的增长,这大概也解释了为什么Kroger可以连续45个季度实现盈利正增长。
(5)最小化资产损失
最小化设备失败与资产损失对于维修、采购、工程、IT部门而言意义重大。以美国通用为例,每天全世界有上万家飞机使用通用的发动机,每台发动机上成上千上万的传感器每五个小时的飞行会产生1~2TB的数据,平均一天有超过10~20PB的数据,一年就是3.65~7.3EB(1EB=2 60B),对这些典型IOT监控数据的分析可以实现主动维修,甚至预测故障发生而提早预备配件以实现资源分配优化,降低维修成本。
(6)最大化客户价值
最大化客户价值对于企业而言意味着贴近客户,实现高客户满意度进而收获一位终生客户。保险公司当然希望购买人寿保险的用户可以身体健康(出于众所周知的原因)。以国内某大型寿险公司为例,采用了康健德科技的基于大数据模型的个性化健康评估、健康管理服务来为其寿险客户提供增值服务,对于用户而言获得了专业化的健康服务,提高了依从性与健康品质,而对于保险公司而言则意味着可以为客户提供定制化保险服务以及围绕健康医疗衍生的多重增值服务,何乐而不为。
·文/ 老孙(孙宇熙:云计算、大数据、高性能存储与计算系统架构专家 )
·END·

浅谈大数据如何应用?相关推荐

  1. 浅谈大数据的标签管理

    最近参与了一个大数据的项目,是涉及标签管理方面的内容,使我这个初涉入大数据领域的人获益匪浅. 标签,也可以叫做Tag,最早出现于2005年(注1),随着Web2.0的Blog应用被广泛使用开来.标签也 ...

  2. 张晓波:浅谈大数据应用的知与行|V课堂第82期

    2017年8月26日,<中国大数据应用蓝皮书>的发布引起了大数据领域的政产学界领导.顶尖学者的强烈关注.在全球化的新阶段,面对互联的新世界,大数据如何不断创造新模式.新生态和新时代? 第8 ...

  3. 浅谈大数据:如何成为大数据企业?

    文章讲的是 浅谈大数据:如何成为大数据企业, 1.什么叫大数据? "大数据"是"数据化"趋势下的必然产物!数据化最核心的理念是:"一切都被记录,一切都 ...

  4. 大数据审计的发展_浅谈大数据时代下审计工作的发展方向

    浅谈大数据时代下审计工作的发展方向 李寒梅 [摘 要] [ 摘 要 ] 随着信息化水平不断提升,企业的审计工作需要处理海量的数 据,而利用常规软件难以对海量数据进行处理,这就需要应用大数据技术.审 计 ...

  5. 浅谈大数据中的 2PC、3PC、Paxos、Raft、ZAB

    一致性 简述 一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的.假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性: 全认同: 所有N个节点都认同一个 ...

  6. 浅谈大数据专业的就业前景

    近几年来,大数据这个词突然变得很火,不仅纳入阿里巴巴.谷歌等 互联网公司的战略规划中,同时也在我国国务院和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界中的新宠儿. 而近期朋友圈疯转的&q ...

  7. 浅谈大数据任务调度平台

    谈到大数据,避免不了hadoop, hive, spark 这些基础套件,但是在整个大数据开发的时候,我们面对的基本上都是数据开发平台和任务调度系统.数据开发平台一般直接面对业务同学,很大程度上影响业 ...

  8. 浅谈大数据风控的基本框架

    本文转载自 CreditX氪信,作者 唐正阳 近日,中国人民银行成立金融科技(FinTech)委员会,旨在加强金融科技工作的研究规划和统筹协调. 随着AI.云计算在金融业务层面的快速渗透,也倒逼监管跟 ...

  9. 浅谈大数据如何管理与分析

    构建面向海量信息的大数据管理平台,其本质上是要实现一套可软件定义的数据中心来通过对下层的基础架构进行有效的管理(存储.网络.计算以及相关资源的调度.分配.虚拟化.容器化等)以满足上层的业务与应用需求, ...

  10. 浅谈大数据下的机器学习

    大数据和机器学习是目前信息行业快速增长的两大热门领域.从过去的信息闭塞发展到现在数据爆炸,各个领域的数据量和数据规模增长速度都以惊人的速度增长.根据美国国家安全局的统计,互联网每天处理1826PB字节 ...

最新文章

  1. Oracle单实例打补丁
  2. Python学习:Python简介
  3. 通过Okta的单点登录保护Spring Boot Web App的安全
  4. 【渝粤教育】国家开放大学2018年春季 3780-21T燃气设备操作与维护 参考试题
  5. 网络硬件设备(职高高考笔记)
  6. 6选择内核启动项_Linux内核都没搞懂,Alot和你还有什么关系?
  7. 使用Supervisor让你的Swift Perfect服务器项目后台运行
  8. Atitit.每周末总结 于每周一计划日程表 流程表 v8 -------------import 上周遗漏日志补充 检查话费 检查流量情况 Crm问候 Crm表total and 问候
  9. 自动驾驶1-2 欢迎来到课程 Welcome to the Course
  10. 带你玩转Visual Studio——带你跳出坑爹的Runtime Library坑
  11. 人脸识别数据集---CAS-PEAL-R1
  12. 荣耀手机安装谷歌框架_华为荣耀9青春版安装谷歌框架 无需Root 华为荣耀手机安装谷歌框架...
  13. 通达信在linux下界面难看,通达信看盘设置小技巧,主力也在用的设置技巧
  14. windows当服务器不稳定,Win10上网不稳定经常掉线该如何解决?方法分享
  15. #151: 每一本正式出版的图书都有一个ISBN号码与之对应,ISBN码包括9位数字、1位识别码和3位分隔符,其规定格式如“x-xxx-x...
  16. 为什么HashMap使用红黑树而不是AVL树或者B+树
  17. 【深圳】大疆创新 - 测试/测试开发工程师 - 自动驾驶方向
  18. LOG_PATH_IS_UNDEFINED 解决
  19. 总纲:无规律数字游戏的规律
  20. LaTeX 各种写法

热门文章

  1. input输入框自动去除空格
  2. unity3d游戏开发第2版 pdf_从零开始学基于ARKit的Unity3d游戏开发系列1
  3. 酷柚易汛工资条代码全开源,方便二次开发
  4. STM32G070用HAL库与AT24C08通讯
  5. MATLAB2010激活后无法打开MATLAB的解决方法
  6. 将多张图片缩小合为一张图片(千图成像)
  7. 各地“十四五”规划促智能网联新发展 | 政策解读系列
  8. c++ 三点求外接圆圆心 3维实现
  9. iphone android 功能清单,iPhone的这几个App,让你的工作效率翻倍(1)
  10. 视频编码格式 封装格式