大数据概念到今天,炒作的最高风口已经过去了,根据Gartent发布的HypeCycle曲线,大数据已经处于炒作顶点之后的衰退期。

HypeCycle曲线

而从HypeCycle曲线定义的阶段来看,越过炒作顶点的技术,通常被认为已经满足了技术可行性,进入了可实用的阶段。

所以,对于大数据项目来说,技术上已经没有什么太大的问题了,无论从软件还是从人员来说,该填的空也都填得差不多了,剩下就是看整体项目建设中该考虑如何落地的问题。

项目如何实施,第一步应该怎样走?为什么这样走?怎么样才算成功?

大数据不缺情怀,汗牛充栋的大数据情怀之作,让大家打足鸡血,甚至产生宗教崇拜情节——不用大数据的都是邪教,应该绑起来烧死:

技术上也不缺:各种Hadoox权威指南,Sparx权威指南……啥的书,也能够垒成书山了,但是恰恰漏掉了大数据整个项目应该如何实施的?

安装软件工程的模式,最重要的就是三个字“里程碑”。(说起这三个字,想到虾神才毕业时候做项目的经历,动辄就是里程碑发版本,加班加得头发一把把的掉……差点就聪明绝顶了)。

在一个单位内部,如何实施一个大数据项目?如何确定这个项目是成功还是失败了,业界有个主流的观点,认为大数据项目的里程碑,应该在下面三个关键点上面:

第一个节点称之为:系统轻载,通俗说起来,就是轻装上阵:

众所周知,当一个系统运行到一定时候,系统中会存储大量的历史数据,而数据库在访问由1万条记录组成的表的效率,和访问由1亿条记录组成的表的效率,那是完全不在一个数量级上的。

历史数据的存放一直是个很大的问题,特别是电商、银行这种,需要进行永久性存储业务数据的企业来说,代价一直是很高昂的。

所以这个节点,是很多企业的“刚需”,而对于我们空间信息技术相关的企业来说,暂时还没有那么大的“痛楚”,那么这个阶段的刚需,就是“数据化石”的激活了。

地理信息相关的企业(或者应用单位)通常会收集很多很多的数据,而且还会做很多数据的处理——这样导致了一个问题,在收集过程中,或者处理过程中,会生成非常多的过程数据(比如我见过的一个单位,在对矢量数据进行处理的时候,一天甚至能发出100多个版本)。

这些数据,要么因为存储空间不够或者认为意义不大,而直接丢弃了,要么就存储在了磁带机或者冷备硬盘上仅用于历史存档。而这些历史存档数据又因为技术上的“不可(不方便、不能快速)”访问,变成了所谓的数据化石。

这些数据化石里面,保留了无数的有价值的数据,举个简单的例子:

某领导突然过来问:我记得当年(五年前),xx在做xx区域的时候,曾经出过一个专题图,谁那还有?然后大家一阵鸡飞狗跳,(几小时 or 几天后)好容易在哪个灰尘20cm厚的仓库废品堆里面把那个专题挂图给找出来了。领导看过之后,嗯,不错,这几个地方重新改一下,再做一版拿给我……

这种情况,大家的表情肯定是:

五年前昙花一现的专题图成果(已经打印成了挂图),我去哪找原始数据啊?

大数据平台的构建,在第一阶段,就应该是解决这样的一些问题。

那么第二个阶段是什么呢?

第二个关键点,就是形成应用的闭环。

软件企业开发软件(或者项目),业务单位使用这些软件(或者应用),那么在使用的过程中,自然会生成大量的数据,这些数据有的是工作过程中产生的(业务数据、工作记录……),也有可能是软件运行产生的(操作日志、系统日志、维护日志……),这些数据,一旦收集起来,对软件厂商下一步软件开发提供建议。

如果能够对整个软件运行进行监控,那么很容易的获取所有功能模块的用户操作信息,包络使用习惯、操作步骤,使用频率等等,后期就能够针对这些内容进行更精准的优化。

那么对于政府或者所谓公共服务性质的单位呢?比如国土部门可以通过对某些查询的频率(比如那些表格的哪些字段,何种查询方式,需要何种结果),来决定数据库的优化策略;或者针对兄弟部门服务需求或者上级领导提出的要求(汇总数据、制作专题图等其他业务需求),来优化整个系统的功能设计。

说到这里,其实很多的实际应用场景与产品经理的设计是有冲突的。下面可以给大家举个小例子:

程序员在做汇总查询功能的时候,通常会按照数据计算引擎的模式,给出极高精确度的结果,比如要统计某个区域内的地块类别汇总,程序员设计的方式是鼠标在地图上一拉框,系统就会自动去计算这个区域内所有地块信息的累加和,最后给出的来的结果精确到小数点后面6位数……

但是随着数据体的变大,这种操作可能会非常非常慢……比如要统计整个长江流域的非农业用地面积,可能就需要几个小时设置几天的时间。

如果有一天,领导过来问你:从xx路到xx河,一共有多少亩农用土地?如果你花1小时后告诉领导,一共有44万3652.173亩……和你花三分钟就直接告诉领导,有44万3千多亩,甚至1分钟之后,就告诉领导,一共有40多万亩。那么你觉得领导会对哪个结果更满意?

因为领导并不是要你给出一个精确到小数点后N位的答案,他问你的时候,可能只需要一个大概的数字,与他现在正在进行考虑的某件事,形成一个决策数据链,所以,40多万这个答案,和小数点后3位这个精度,完全没有区别,而对响应时间要求非常高……一个小时以后,你的答案说不定已经没有任何意义了。

那么这种牺牲精度提高响应速度的场景,在实际的应用中多不多?这就仁者见仁,智者见智了。

最后一个关键点,就是所谓的数据变现,也就是大家经常说的“这东西能卖钱么?”

数据变现做为一个远景目标,也是很多决策者和架构师们在考虑的问题。

目前数据变现不一定指的是盈利,因为空间大数据有大量的用户是政府部门,所以变现就分为经济价值和社会价值两个部分。

经济价值就不说了,目前因为国内特殊情况,有些还处于探索阶段,比如数据的交换(买卖)。

根据国外的一些发展,未来数据变现在经济上可能有如下的发展:

1、资源买卖。通过原始数据的买卖产生经济价值。目前国内处于有钱没地方买,但是如果未来能够放开,那么数据交易的市场将非常庞大。从科研到教学,从社会生产生活,到宏观趋势研究,如果能够通过合理的价格来获取数据,那么对提供方和需求方都是一个重大的利好。

2、数据产品。通过数据来生产各种产品,比如医务工作者,对大医院病例与治疗方案的需求,相应的组织就可以针对医疗数据进行产品化(去除掉各种隐私、敏感等相关的信息)之后,可以对相应的机构提供。

3、专业分析服务。通过数据建模,可以提供各种专业的服务,比如投资、旅游、购物等。

4、软件和人才,这个就不用说了。

而政府相关的部门,可能更在乎变现的社会价值。

比如交通管理部门,通过对LBS数据的分析,能够对城市的交通管理决策更加优化。

在单位内部,大数据部门(极其使用者)可以变成行业(单位)的顶级智囊:能够对行业内(外)若干年发生的任何事情、资料、数据了如指掌,能够对任意决策提供数据支持和建议,能够快速的针对业务制作各种专业的报表和专题图,能够成为所有“标准答案”的出口……像这样的数据专家,哪个单位不想要?

那么,做为大数据的从业者,或者想从业者,你准备好了吗?

51GIS学院|分享大数据项目架构思考(一)相关推荐

  1. 大数据实验报告总结体会_建设大数据中台架构思考与总结

    简介 本文介绍完善的大数据中台架构了解这些架构里每个部分的位置,功能和含义及背后原理及应用场景. 帮助技术与产品经理对大数据技术体系有个全面的了解. 数据中台定义:集成离线数仓与实时数仓,并以多数据源 ...

  2. Spark大数据项目架构

    一.实际项目处理流程 二.具体的功能

  3. 【中台实践】华为大数据中台架构分享.pdf

    今天给大家分享华为云龙江先生在2019中国大数据技术大会(BDTC)上做的分享<大数据中台架构分享.pdf>,分享包括三个方面:1.数据中台背景洞察:2.华为数据中台顶层设计:3.华为云数 ...

  4. 大数据项目之_15_电信客服分析平台_0102_项目背景+项目架构+项目实现+数据生产+数据采集/消费(存储)

    大数据项目之_15_电信客服分析平台_01&02 一.项目背景 二.项目架构 三.项目实现 3.1.数据生产 3.1.1.数据结构 3.1.2.编写代码 3.1.3.打包测试 3.2.数据采集 ...

  5. 实战▍一个完整的电信客服分析平台大数据项目:架构、实现、数据

    作者|黑泽明军  编辑|丹顶鹤5号 电信客服分析平台(附代码) 编者按: 很难见到这种一个完整的大数据项目,从项目背景.项目架构到项目实现都有大量的实例,包括数据存储和数据采集和各个模块的运行设置等等 ...

  6. 模型案例推荐:电力大数据项目案例模型分享

    电力行业+大数据项目模型 电力高架线路巡检绝缘子缺陷智能检测 涉及关键技术: 语义分割 目标检测 图像增强 图像切分 主要工具:Python 技术大类:计算机视觉 主要业务问题: 随着我国经济的高速发 ...

  7. java程序员提升必备大数据、架构师学习资料免费分享

    大数据和架构师是很多java程序员工作2/3年后提升的首选方向,也是为数不多的学习方向. 而且大数据正在被越来越多的国家和企业定位发展战略,尤其是我国在贵州设立了大数据产业园区,更是证明了大数据产业在 ...

  8. 企业大数据项目规划落地实施路线图

    一般来说,一个完整的大数据项目实施,需要经过开发环境搭建.集群环境部署.数据采集.数据存储与交换.数据离线与实时分析.大数据可视化等多个实现流程,这就要求系统掌握大数据技术知识. 下面以一个完整的大数 ...

  9. 航空公司大数据建设的思考

    ZDNET至顶网CIO与应用频道 10月13日 北京消息:主题为"科技整合·智汇航行"的2014年航空用户大会在青岛召开,文思海辉首席架构师李飞介绍了目前大数据的趋势以及航空领域的 ...

最新文章

  1. form左上角有个锁的符号_第三章 表单笔记
  2. WSUS3.0的部署及安装
  3. VS切换到按F5不需要按Fn键的快捷键模式
  4. 第十天2017/04/21(3、泛型编程:STL)
  5. python日记----2017.8.1
  6. guice 框架_玩! 框架+ Google Guice
  7. 又双叒叕 - 中国汉字的奇妙
  8. 同事用void把我给秀翻了!
  9. Redis info信息(转载)
  10. python如何将数据生成excel_Python如何将数据导出excel的技巧分享
  11. jsp银行排队叫号系统
  12. XGBOOST从原理到实战:二分类 、多分类
  13. SSD(ECCV 2016)
  14. 因特网中的域名服务器系统负责全网IP,因特网中的域名服务器系统负责全网IP地址的解析工作,它的好处是()...
  15. 感恩节(11.28)
  16. 艺考报名照的尺寸是多少?如何制作艺考报名照?
  17. 祝母亲身体健康,节日快乐
  18. TCP连接时CSocket粘包问题的解决方法
  19. # 电脑端的应用无法上传附件,点击没有反应怎么办?
  20. CTFShow-电子取证篇Writeup

热门文章

  1. 【Origin】羡旁人
  2. 机器学习常用算法原理及优缺点
  3. 洛谷-P1830 轰炸III
  4. LeetCode知识点总结 - 997
  5. 申请美国计算机科学博士,美国计算机博士申请案例分析
  6. 一款高颜值开源知识管理工具
  7. 锐龙r5 6600u和r5 5600u区别 r56600u和r55600u对比
  8. 前端基础(二)----- CSS初识
  9. 功放前级的左右_都是功放,前级和后级差别甚大!千万别买错了
  10. Rocket之nameServer