BI工程师、数据仓库工程师、ETL工程师、数据开发工程师(大数据开发工程师) 有什么区别?

一味的解释数据仓库概念可能没意思,我们从不同角色出发吧

老板 :我是一家手机公司的老板,今天要向去董事局汇报,我要准备一份介绍过去三年的用户增长、用户留存、用户活跃度、手机里面每个APP使用率等情况的报表,假如下面没我下面没有BI,那我肯定就蒙逼了。。

BI : 我是一名非技术BI,我天天看竞品的分析报告,看双十一销量,看各种评论,知道自己的产品有哪些短板有哪些长处,我分析南北地域差异,国内外客户喜好,总之我在手机领域有着很强的行业解读能力和数据解读能力,我可以画出非常漂亮的图表和PPT。

FineBI做的可视化

今天老板让我出一份报表,我还要去刷脸找ETL工程师帮我跑出这次报告的数据,基于这份数据我要给出一定的解读,为啥这个月手机卖得不如上个月,为啥用户流失越来越严重等等都是我要去做的。

ETL工程师 : 我是食物链最底层的苦逼ETL工程师,我会写shell、我会搭hadoop/hive/hbase、会写超复杂逻辑的sql,今天那个不会自己计算数据的BI又让我跑几个数据,我本想让她提需求流程的,但她说这是老板要的(运营惯用的杀手锏!!!),要加急处理。

我只能放下手头的活儿给她跑数据了,花了半个小时把数据跑好给她,希望能就这么交差吧。

如果你以为我每天就做这点事那你就错了,我平时的工作可不仅仅就是完成上面交给我的任务哦,我还负责数据ETL过程、数据建模、定时任务的分配、甚至有时Hadoop集群的维护等等都得我去做,每件事单独拿出来都可以拿出来写本书。

就拿ETL过程来说吧,你要把原始数据从各种数据库、各种服务器的不同业务日志归一化到同一类格式,要约定好分隔符,然后导入到分布式文件系统HDFS,甚至你还要和业务系统定义数据格式出规范。

数据收集完,你还得出中间表,数据过滤,格式统一,ID统一,维度统一,通过不同的数据现象进行数据,完了,你就得出一些日报周报之类的数据了,这时候你要按照需求把数据组织成一定的格式然后到Mysql、或者HBASE等等。

总之你就是需要把数据各种收集、各种处理、然后各种导入导出,是不是很有意思?

不过这些数据仓库都非常初级,其中ETL工程师可发挥的空间太多了

1、正常情况下,老板 —> BI —> ETL 出一份报告,这中间能否BI直接去计算数据?sql太复杂,那么可不可以一切数据标签化,BI甚至老板要什么就选什么?

2、ETL工程师可以把数据收集自动化、可以规范业务日志格式、可以将一切都配置化,但是这些都是基于N+1的,也就是说今天的发生了什么一定要到明天才能看到,那么有没有一个系统能把数据分析做到实时或者准实时?参考双十一大屏,马总要是到12号才能知道成交了多少笔不劈了那帮做数据的才怪。

3、目前绝大部分分析系统都基于离线计算(HADOOP/ODPS),那这里有个问题了,运营或BI想看个数据还得你离线慢腾腾跑完才能看到,那么有没有一个系统可以支持你再大的数据量,再复杂的逻辑,毫秒出数据?

我们有提到的还有算法工程师、大数据运维工程师等等。

数据仓库的概念很广很大,但在大数据应用面前也不值一提。

如果把数据价值分层,这里分层的办法很多,我只列举一种方法,有人分过5层

第一层: 为老板提供决策支持,例如传统的财务报表

第二层: 为运营提供决策支持,例如数据化非常彻底的淘宝运营们

第三层: 为产品提供支持,例如有产品经理们会拿着报表天天看研究自己的某一个按钮摆放位置对不对

第四层:数据用于生产,比如直接对接广告系统产生收益,比如直接对接推荐系统为用户推荐商品,实现千人千面,再比如利用手机APP直接给不同用户push消息

第五层:大数据交换,数据产生直接收益

大部分公司能做到前两个层次就已经很不错了,如果能做到第三层,就已经很牛逼,做到第四第五层次,国内互联网公司不超过3家,阿里和腾讯可以做到,大数据应用太大了,不知从何说起,以后聊吧。

阿里大数据部门真实工作场景,和你想象的一样吗?相关推荐

  1. 大数据部门的作用与大数据工程师的工作

    1.大数据部门作用     随着大数据产业迎来了发展的黄金期,越来越多的互联网公司转型为大数据公司.为促进大数据公司的健康发展,解决发展中遇到的问题,从大数据公司的概念及业务内容等入手,剖析大数据公司 ...

  2. 大数据之-入门_大数据部门业务流程分析---大数据之hadoop工作笔记0006

    回流用户数,就是二次消费,三次消费的..这样的. 可以看到上面就是大数据部门的业务流程 就是上面这样了.产品人员,提需求,数据部门做数据,然后再进行数据可视化展示. 技术交流QQ群[JAVA,C++, ...

  3. 阿里大数据技术如何进化?资深技术专家带你回顾

    阿里妹导读:很多童鞋在后台留言,希望看到大数据相关的文章.因此,今天带来一篇阿里资深专家观滔在2017年云栖大会的精彩分享,为大家展示阿里大数据计算服务的进化演进.以及MaxCompute解读. 一. ...

  4. 详解:从Greenplum、Hadoop到现在的阿里大数据技术

    对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起 ...

  5. 第一章 阿里大数据产品体系

    1.大数据基础知识 什么是数据分析? 数据分析是基于商业目的,有目的的进行收集.整理.加工和分析数据,提炼有价值信息的过程. 数据分析流程:需求分析明确目标➡️数据收集加工处理➡️数据分析数据展现➡️ ...

  6. 从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

  7. 开发人员该选择什么大数据工具提高工作效率?

    开发人员该选择什么大数据工具提高工作效率? 海量数据使得数据分析工作变得繁重困难,开发人员选择合适的大数据工具来开发大数据系统成为新的挑战.因此开发人员要根据不同的数据处理方式对大数据工具进行分类. ...

  8. 【视点】从一些实例看大数据部门的权与责

    导读: 三年来,已经有超过二十个不同级别的政府成立了大数据相关的职能部门.这些大数据部门试图打通政府各个部门的数据壁垒,实现数据共享. "今年就可以把新生婴儿的数据入库.数据统筹就是告诉教育 ...

  9. 阿里大数据打假:实时分析数据每秒1亿次

     电商平台被投诉的问题主要集中在四个方面,包括商品质量不合格和假冒的现象比较严重.七天无理由退货难落实.消费者个人信息遭泄露,以及网上支付安全难保障. 假货泛滥遭遇集体诉讼 新消法实施两周年仍需落实 ...

最新文章

  1. 在一家公司呆了 10 年的程序员,最后都怎么了?
  2. android开发实例之viewpager无限循环+自动滚动,Android ViewPager实现无限循环的实例...
  3. python跟java-还在纠结选Python还是Java?看完就有数了
  4. boost::mpl模块实现empty相关的测试程序
  5. Leetcode: Palindrome Partition I II
  6. 日本生物学家登上千元纸钞,中国“疫苗之王”也应该受到尊重!
  7. json 示例_JSON文件 数据格式及格式化转换
  8. oracle+long列,oracle中对LONG列进行查询
  9. C++搭建集群聊天室(二):安装muduo网络库
  10. GD32F103串口DMA收发
  11. 月销10w支!不用洗牙,牙齿也能白到发光!买它,这支黑科技美白电动牙刷
  12. uni-app ios 苹果真机或安卓机运行
  13. 各种后缀名--使用什么软件打开
  14. [Cmder] ConEmu报错,用bandzip代替7zip或者winRAR
  15. win10 电脑找不到WIFI,手机却能连上,问题解决
  16. java中year与week year
  17. mongotemplate 多表多条件查询记录
  18. NVT | NVT 67X IQ移植
  19. CREATE TABLE 时的 SQL UNIQUE 约束
  20. MATLAB连接USRP实现数据采集

热门文章

  1. pat编程语言_浙江大学在线pat题库集合
  2. 第四章 生命周期函数--36 结合Node手写JSONP服务器剖析JSONP原理
  3. ffmpeg 视频合并
  4. JSon_零基础_005_将po(bean)对象转换为JSon格式的对象字符串,返回给界面
  5. java变量,初始化快,构造函数的执行顺序
  6. Java 集合系列 16 HashSet
  7. 由c#事件监听、回调函数引发观察者模式
  8. C#扩展方法奇思妙用高级篇一:改进 Scottgu 的 In 扩展
  9. 一步一步学习ObjectDataSource--(3)
  10. oracle数据管理员常用词语,总结Oracle数据库管理员的常用命令