2015年有幸加入某大厂大数据项目,在此之前从没有接触过大数据这类高大上的技术,进入大厂之后才发现,原来大厂在做研究项目,也就是商业化前的可行性论证,也只有大厂会花这么多人力、物力做这个。当时物色了很多优秀的人才,有海龟博士、国内顶尖计算机专业硕士、资深大数据专家等等。但最终做了两年不到,项目最终被解散,回过头来总结经验,虽然时间隔得有点远,但很有必要。

一、业务需求

  1. 空间更小,速度更快
    当时做这个项目的业务需求很简单,就是“空间更小,速度更快”,据说当时客户都已经找好了,农行总行、腾讯都很看好我们这个项目,我们最终还带着项目到农行总行那边去部署过,也算是很接近成功了,后来由于项目商业化立项没通过,最终被并入公司另外一个商业化产品中。
    其实进入项目之后,第一个月完全不知所以然,项目的框架,hadoop、spark、mesos是什么,为什么要开发这么多项目,完全是雾里看花,等慢慢熟悉这个项目之后那是三个月后,我们有自己的第一个版本的项目出来,可以在自己的服务器上部署和使用了,虽然使用界面还不是特别友好,系统还有很多BUG,但是对技术和团队的信任,还是信心满满的一往直前。第一次迷茫的时候是进项目六个月后,那个时候发现我们做的这个项目硬件依赖太强了,而且硬件项目的进度一直延后,后来请美国的专家过来做了一段时间问题还是很多,软件系统慢慢的逐步成型,但硬件系统始终有问题,项目出现分水岭的时候是有一次跟中移动去竞标,当时竞标的结果是中标了,硬件由于问题太多,短时间无法完全修复,最终还是流标了。
  2. 项目卡死在散热上
    这个时候回过头来梳理,软件基于开源的基础上去修修补补功能,虽然也遇到很多问题,但最后都被我们完全克服下来了。但硬件的伤却无法短时间愈合,一直到项目终止的那一刻,还是有很多问题依然存在。当时的业务需求是基于大数据技术(mesos+spark+zeppelin)提供一体机,把硬件加软件的优势显现出来,在设计硬件的时候把64个CPU放在一个1005030立方厘米的空间内,散热是个很大的问题,散热问题会造成很多后期预想不到却又无法定位到的问题,也许最终我们失败的原因就在此。

二、总结

  1. 项目虽然终止了,但在这个项目过程中学习到的经验终生难忘,能像该大厂这样子投入做项目的很少,当项目立项之后,各种资源和支持,我们当时开发和测试的服务器都达到两百多台,内存条按每台服务器插满24根算的话,我们保守估计使用到的内存条两千根,还有FPGA,固态硬盘等;但项目一旦没通过立项,整个团队很快就完成人员分流、项目总结等等,执行力很强。心态开放,虚心学习很重要。
  2. 这么优秀的团队,能调动这么多的资源,这么大力度的支持,最终项目还是没完成,要想做成一件事有多难,就像要组装一辆汽车需要拧100个螺丝,99个螺丝我们都拧好了,就是最后一个拧不上,车最后还是没组装好还是不能出厂;你要成功很难,100个螺丝都要拧好才行,缺一个都不行;但你要失败太容易了,随便一个螺丝没拧好都能做到,所以做事我们要抱着敬畏的态度去做,拧好每件事的所有螺丝。

项目经验:某大厂大数据项目总结相关推荐

  1. python大数据项目_(价值1280)大数据项目实战之Python金融应用编程

    朱彤老师,2009年博士毕业于北京大学光华管理学院金融系,对金融.数据分析与统计有着较为深刻的理解,多年来一直持续跟踪和研究金融量化分析与数据统计相关领域的进展与发展,对概率论.随机过程及其在金融中的 ...

  2. 助力工业物联网,工业大数据项目介绍及环境构建【一、二】

    文章目录 工业大数据项目介绍及环境构建 01:专栏目标 02:项目背景 03:项目需求 04:业务流程 05:技术选型 06:Docker的介绍 07:Docker的网络 08:Docker的使用 0 ...

  3. 企业大数据项目规划落地实施路线图

    一般来说,一个完整的大数据项目实施,需要经过开发环境搭建.集群环境部署.数据采集.数据存储与交换.数据离线与实时分析.大数据可视化等多个实现流程,这就要求系统掌握大数据技术知识. 下面以一个完整的大数 ...

  4. 大数据项目中的QA需要迎接新的挑战

    大数据项目中的QA需要迎接新的挑战 根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行 ...

  5. print的describe的展示全部数据_大数据项目中的QA需要迎接新的挑战

    根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%) ...

  6. informatica数据脱敏_助您首个大数据项目破茧成蝶的实践指南

    自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式.越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作.而调查发现,切实展 ...

  7. 电商数仓描述_笔记-尚硅谷大数据项目数据仓库-电商数仓V1.2新版

    架构 项目框架 数仓架构 存储压缩 Snappy与LZO LZO安装: 读取LZO文件时,需要先创建索引,才可以进行切片. 框架版本选型Apache:运维麻烦,需要自己调研兼容性. CDH:国内使用最 ...

  8. 最详细大数据项目落地路线图实践总结

    今天,来谈一谈"大数据项目如何落地?"这个话题.从事过多个大数据项目的规划方案及项目落地工作,在这里与大家分享一些心得,主要是关于大数据项目如何成功落地并取得预期目标,也可以说这些 ...

  9. 大数据项目开发hadoop集群搭建 python爬取前程无忧招聘网信息以及进行数据分析和数据可视化

    大数据项目开发实训报告 一.Hadoop环境搭建 1: jdk的安装 1):在linux系统下的opt目录下创建software 和 module 两个目录 2):利用filezilla工具将 jdk ...

  10. 大数据项目实战之数据仓库:用户行为采集平台——第4章 用户行为数据采集模块

    第4章 用户行为数据采集模块 4.1 数据通道 4.2 环境准备 4.2.1 集群所有进程查看脚本 1)在/home/atguigu/bin目录下创建脚本xcall [atguigu@hadoop10 ...

最新文章

  1. php 2 往数据库添加数据
  2. php5对象复制、clone、浅复制与深复制的区别与介绍
  3. c++ cuda拷贝内存
  4. 真给力!蚂蚁金服工程师总结的400道前端面试题提供下载
  5. rust怎么传送坐标_德国人怎么学电机——浅谈电机模型(十一):异步电机:绕线转子电机(一)...
  6. 今日arXiv精选 | ICCV 2021/CIKM 2021/ACM MM 2021
  7. Ceph分布式存储学习指南1.10 iRODS
  8. 开发者入门,这几款小工具能让你事半功倍
  9. CSRobot gen:mssql-c#类型映射
  10. .NET的一点历史故事:作者的一些感想
  11. 第一次使用SSE指令集
  12. cartographer源码编译测试之开发环境搭建全在这里了
  13. Fixjs——事件回调的this
  14. java使用RSA加密方式,实现数字签名
  15. 第三节基础篇—SQL的约束
  16. 阿里云云计算 13 OSS的优势和使用场景
  17. python简明教程_01
  18. [NOIP2017 普及组] 成绩
  19. Python:Django面试题
  20. 十大关系数据库SQL注入工具一览

热门文章

  1. 相位测试音频mp3_音频与相位的关系
  2. My sql 存储过程实例
  3. QSS(Qt样式表)概念
  4. Windows Server 2012R2 安装IIS 的详细配置
  5. 通过url访问静态资源
  6. c++ time_t和tm
  7. 众多时间时钟Flash动画素材一键即可获取
  8. 计算机照片文件大小,怎么把照片文件大于30k
  9. NOD 32 企业版远程管理服务器病毒库更新失败
  10. PyTorch 表情识别