几年前大数据的概念就很火了,一般人顾名思义,觉得数据量很大那就叫大数据。这也可以理解,如果不是这样,那么大数据这个名称也许是起错了。很多人甚至做到了言必称大数据,甭管他们可能实际上连大数据的四V特征都不了解,很多公司老板也想追赶时髦,都会对外宣称自己的企业最近在搞大数据。

那么实际状况呢,在这里引用一个流传甚广的幽默说法吧:

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…

大意是:大数据这东西像青少年那个,每个人都谈论它,却没人知道怎么做,每个人都以为别人在做,因此他们也都声称自己在做。

要玩大数据,首先得明白,你想要怎么样的数据,可以拿到怎么样的数据,接着考虑这些数据是否有价值,数据中是否蕴含了有价值的信息,可以从中挖掘出哪些信息,然后再考虑如何分析挖掘。要挖掘出哪些信息,就是数据分析的目标,也是业务目标,因此可以知道,要进行大数据分析,一定是因为业务有需求,而且这种需求越明确越好。如果只是追赶时髦,那么就会在需求不明确甚至是伪需求的情况下,贸然组建大数据研发团队,然后研发人员隔三差五跑去找业务人员了解他们的需求,还往往不能了解得到,于是每天干着急啥事没做成。研发人员可以通过自动化工具进行数据的采集,然后使用一些方法进行分析,但是他们首先得知道业务那边想要怎样的结果,才能反过来确定分析方法和进行哪种数据的采集。而如果相关业务人员或者比较有话语权的业务人员不理解这一点,不配合研发人员进行需求梳理和目标确立,那么研发人员即使身为巧妇,也难为无米之炊。

要是以上的问题都解决了呢?那么研发部门就要承担重任了,数据采集方法、数据分析方法、系统架构设计等等都是他们需要做的。情形可能是这样:

研发部门的小哥受主管使指,去网上搜了一圈,发现Hadoop是离线大数据分析的好框架,然后又知道Spark框架是为了提高分析速度而用内存代替磁盘等等。为了使用更新的技术,研发小哥决定选择选用Spark,于是开始学习如何搭建Spark集群。几天之后,他照着网上的教程,使用几台虚拟机搭建好了集群,并做了一些测试。但如果数据量真的上来了,这几台虚拟机跑不动了怎么办,而且还需要有公网IP,毕竟数据分析结果是需要实时能从各个终端查看的。如果购买物理服务器,这些物理服务器放在公司里,怎么进行网络连线,怎么进行IP分配?如果托管在别人机房那里,需要哪些步骤?研发小哥一下子觉得脑子不够用了,深深叹了口气。这年头阿猫阿狗都在玩大数据,没想到自己搞大数据的时候,竟然是无从下手。叹气归叹气,事情还是要做的,于是研发小哥硬着头皮继续研究。

这年头,大数据是阿猫阿狗都能玩的吗?是,也不是。如果是,那上文说到的研发小哥为嘛还长叹一声呢?也许他们团队走在了错误的道路上。如果你有过搭建物理机集群的经验,有过配置交换机、划分VLAN、配置存储系统和磁盘阵列的经历,你一定觉得这些事情是相对耗费时间并且容易出错的。对于一个经验不够丰富,没什么大牛甚至小牛都没有的技术团队,去自己搭建一个简单的集群虽然也不算难事,但是维护集群、让集群具备可扩展性、对集群进行监控、进行自动故障恢复等却有一定难度。

退一步,假设集群搭建维护的问题也可以解决了,那么就到数据采集和分析。数据采集没有太多好说的,数据分析方法却是重中之重,因为如果分析方法不对,得出的信息可能完全没有价值,甚至起误导作用。研发小哥现在可能又去网上搜索一圈,比较各个深度学习框架,看看人家都怎么说,然后决定自己是该选择TensorFlow还是Caffe之类的。比啊比,反正最后是选了一个,然后找训练样本进行深度训练啊等等接下来的事情够他们团队里的人忙活了......

这艰难的一年终于熬到头了,研发部门小哥们在都在盼着年终奖。万万没想到的是,业务部门觉得大数据分析的结果对业务没有帮助,把业务不增长归因到研发部的大数据分析效果不佳上。而老板一盘算,研发部门扩招人员的成本、购买服务器等等成本比去年大大增加了,脸一绿,心一横,研发部小哥们望眼欲穿的年终奖只能成为了他们永远藏在心底的美梦,不仅如此,想到来年可能会面临的裁员问题,小哥们更是瑟瑟发抖了......

前面我们提到了,或许研发团队一直走在了错误的道路上。对于一个中小企业来说,在需求不明确的情况下组建大数据团队,然后自己搭建大数据基础设施的做法是有风险的,风险在于成本和效益不成正比。对于中小企业来说,在进行大数据架构时,应该优先想到各种成熟的云平台,比如阿里云的一站式大数据服务平台数加,这个我曾经在拙作《漫谈中小企业研发技术栈》中同样有提到。现在很多云平台都有按需使用按需付费的功能,买个集群也就点点几下鼠标的事情,那么中小企业使用云平台不仅仅可以快速搭建开发环境,还能在成本上节省很多。使用云平台,就把物理集群搭建、维护、监控这种脏活累活扔给了云服务商,也就是基础设施部分尽量少花时间精力甚至完全不花,研发团队把精力放在数据分析方法和如何通过分析结果推动业务增长和创新上。

到这里其实我们大致可以得出结论了,就是有了云服务和众多的开源组件,阿猫阿狗还真都能玩玩大数据,关键是要有明确的业务目标,能采集到所需要的数据,能找到正确的分析方法,懂得选择借力合理的工具。只要其中一个环节没有做好,大数据项目将难以避免失败的命运,最后只看到研发小哥们一张张落寞的脸消溶在夕阳里。

原文地址:https://mp.weixin.qq.com/s/hAlb0ts_-3Xewh-NioSt6Q

大数据是阿猫阿狗都能玩的吗相关推荐

  1. 人人皆可大数据!SACC教你玩转阿里ODPS

     人人皆可大数据!SACC教你玩转阿里ODPS [IT168 专稿]为什么我们使用搜索引擎时,不同的用户搜索同样的关键词看到的广告却不同?为什么我们到电子商务网站购物时,每次浏览同样的商品时都可以 ...

  2. 大数据技术架构都有哪些变化

    大数据分析技术是在近年来才兴起的技术,而将大数据分析技术运用到企业品牌的营销上却并没有实行太久,主要运用的企业还是行业中的各种大企业,而中小型企业在大数据营销上才刚刚进行.大数据技术对各个行业的发展都 ...

  3. 大学开设大数据专业,都安排了哪些课程?

    从IT时代进入DT时代,高校在大数据方向上设置了哪些专业,具体学什么,就业怎么样,作为新兴专业,考生如何报考? 具体内容 专业名称:数据科学与大数据技术; 人才培养目标:以大数据为核心研究对象,利用大 ...

  4. 大数据开发工程师都需要学什么大数据课程?

    学习大数据需要的基础:java SE.EE(SSM).MySQL.Linux等,大数据的框架安装在Linux操作系统上. 大数据开发工程师都需要学什么大数据课程? 第一.需要学习Java基础 很多人好 ...

  5. 大数据开发工程师都需要学什么?

    学习大数据需要的基础:java SE.EE(SSM).MySQL.Linux等,大数据的框架安装在Linux操作系统上. 大数据开发工程师都需要学什么大数据课程? 第一.需要学习Java基础 很多人好 ...

  6. 大数据面试问题,大数据面试技巧都有哪些呢?

    大数据的火爆发展吸引了众多小伙伴想要转行,年后是大家换工作的高发期,很多对目前工作不满意的小伙伴,都在考虑换一个薪资更高.发展前景更好的工作.节后必定是跳槽的跳槽,换工作的换工作,IT界将发生一场大的 ...

  7. 大数据与人工智能都分不清楚,还想走向人生巅峰?

    大数据与人工智能都分不清楚,还想走向人生巅峰? 大数据vs.人工智能是一种公平的比较吗?在某种程度上,它是,但首先让我们先厘清它们之间的区别. 人工智能和大数据是人们耳熟能详的流行术语,但也可能会有一 ...

  8. 不想玩大数据的厨子都不是冒险家

    湘鄂情抛弃餐饮主业,角逐大数据,号称要用互联网思维改造广电,上演了年度商业界最看不懂的转型.关于创始人孟凯,有人说他飞蛾扑火,有人说他病急乱投医,但他的回复是:你说我傻逼,其实不知道我有多牛逼. 湘鄂 ...

  9. 《王坚:云计算和大数据,你们都理解错了》--潘越飞 读后感

    原文地址:http://www.huxiu.com/article/14477/1.html 没有样式的文字为文章原文. 加重绿色字体为本人吐槽读后感. ------------读后感-------- ...

最新文章

  1. 一口一个,超灵活的Python迷你项目
  2. 陶哲轩实分析 习题 7.2.6 (嵌套级数)
  3. 脑电数据分析工具汇总
  4. 错误: 找不到android.support.v7.app.AppCompatActivity的类文件
  5. 查找unity工程代码中中文字符
  6. [JavaWeb-MySQL]DDL_操作数据库,表
  7. 旅馆客未满 计算机术语,前厅测试题
  8. .net core中使用GB2312编码
  9. 模型训练:数据预处理和预载入
  10. NumPy 基础入门
  11. 亿级流量系统架构之如何支撑百亿级数据的存储与计算
  12. 容器云平台在传统企业落地的一些思考和探索
  13. hdu 4723 How Long Do You Have to Draw(贪心)
  14. 升级 Xcode 4.3 后找不到 xcodebuild 的解决方法
  15. 汽车之家论坛字体反爬
  16. 计算机科学的刊物卷号,期刊的卷号和期号怎么看
  17. 16.04Ubuntu桌面版搭建
  18. 小程序体积优化(1)--优化大文本
  19. 讲义:第五项修炼(学习型组织的艺术与实践)
  20. 深度之眼Paper带读笔记GNN.05.TransE/H/R/D

热门文章

  1. 批量上传图片 java_java批量上传图片
  2. 海外营销关键词意思-KOC和KOL区别
  3. Python实现遥感生态指数计算
  4. Pytorch-unsqueeze
  5. 易懂的数组作为函数参数(C语言)
  6. 解决win7 WLAN Autoconfig无法启动,错误1086的解决方案
  7. Linux创建Python虚拟环境
  8. 电脑长期,经常看电脑的危害有哪些 这几个危害不得不防
  9. Launch文件的学习:
  10. 股票收益评价指标的几个计算(用于回测)