大数据开发工程师、BI工程师、数据仓库工程师、ETL工程师、有什么区别?

今天我们来看一位大神如何解释。

BI,商务智能。BI工程师即为从事商务智能行业的工程师。从需求分析师到数据仓库架构师、到etl工程师、数据分析,报表开发工程师、数据挖掘工程师、etc.,都可以称之为BI工程师。

etl工程师:是从事系统编程、数据库编程与设计,要掌握各种常用的编程语言的专业技术人员。也叫数据库工程师。

对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解

想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家

并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

1

一味的解释数据仓库概念可能没意思,我们从不同角色出发吧

老板 :我是一家手机公司的老板,今天要向去董事局汇报,我要准备一份介绍过去三年的用户增长、用户留存、用户活跃度、手机里面每个APP使用率等情况的报表,假如下面没我下面没有BI,那我肯定就蒙逼了。。

BI : 我是一名非技术BI,我天天看竞品的分析报告,看双十一销量,看各种评论,知道自己的产品有哪些短板有哪些长处,我分析南北地域差异,国内外客户喜好,总之我在手机领域有着很强的行业解读能力和数据解读能力,我可以画出非常漂亮的图表和PPT。今天老板让我出一份报表,我还要去刷脸找ETL工程师帮我跑出这次报告的数据,基于这份数据我要给出一定的解读,为啥这个月手机卖得不如上个月,为啥用户流失越来越严重等等都是我要去做的。

ETL工程师 : 我是食物链最底层的苦逼ETL工程师,我会写shell、我会搭hadoop/hive/hbase、会写超复杂逻辑的sql,今天那个不会自己计算数据的BI又让我跑几个数据,我本想让她提需求流程的,但她说这是老板要的(运营惯用的杀手锏!!!),要加急处理,我只能放下手头的活儿给她跑数据了,花了半个小时把数据跑好给她,希望能就这么交差吧。

大数据工程师,就是我们所知的大数据开发工程师,主要从事大数据平台的搭建,对个人技术要求偏高,需要从业者具备java基础,还得具备以下技术能力,hadoop、hive、hase、flume、storm、kafka、spark等,是一个非常庞大的技术集群。

如果你以为我每天就做这点事那你就错了,我平时的工作可不仅仅就是完成上面交给我的任务哦,我还负责数据ETL过程、数据建模、定时任务的分配、甚至有时Hadoop集群的维护等等都得我去做,每件事单独拿出来都可以拿出来写本书。

就拿ETL过程来说吧,你要把原始数据从各种数据库、各种服务器的不同业务日志归一化到同一类格式,要约定好分隔符,然后导入到分布式文件系统HDFS,甚至你还要和业务系统定义数据格式出规范,数据收集完,你还得出中间表,数据过滤,格式统一,ID统一,维度统一,通过不同的数据现象进行数据,完了,你就得出一些日报周报之类的数据了,这时候你要按照需求把数据组织成一定的格式然后导Mysql、或者HBASE等等。

总之你就是需要把数据各种收集、各种处理、然后各种导入导出,是不是很有意思?

2

不过这些数据仓库都非常初级,其中ETL工程师可发挥的空间太多了

1、正常情况下,老板 —> BI —> ETL 出一份报告,这中间能否BI直接去计算数据?sql太复杂,那么可不可以一切数据标签化,BI甚至老板要什么就选什么?

2、ETL工程师可以把数据收集自动化、可以规范业务日志格式、可以将一切都配置化,但是这些都是基于N+1的,也就是说今天的发生了什么一定要到明天才能看到,那么有没有一个系统能把数据分析做到实时或者准实时?参考双十一大屏,马总要是到12号才能知道成交了多少笔不劈了那帮做数据的才怪。

3、目前绝大部分分析系统都基于离线计算(HADOOP/ODPS),那这里有个问题了,运营或BI想看个数据还得你离线慢腾腾跑完才能看到,那么有没有一个系统可以支持你再大的数据量,再复杂的逻辑,毫秒出数据?

我没有提到的还有算法工程师、大数据运维工程师等等。

3

数据仓库的概念很广很大,但在大数据应用面前也不值一提。

如果把数据价值分层,这里分层的办法很多,我只列举一种方法,有人分过5层

第一层: 为老板提供决策支持,例如传统的财务报表

第二层: 为运营提供决策支持,例如数据化非常彻底的淘宝运营们

第三层: 为产品提供支持,例如有产品经理们会拿着报表天天看研究自己的某一个按钮摆放位置对不对

第四层:数据用于生产,比如直接对接广告系统产生收益,比如直接对接推荐系统为用户推荐商品,实现千人千面,再比如利用手机APP直接为不同用户push消息

第五层:大数据交换,数据产生直接受益

大部分公司能做到前两个层次就已经很不错了,如果能做到第三层,就已经很牛逼,做到第四第五层次,国内互联网公司不超过2家,大数据应用太大了,不知从何说起,以后聊吧。

4

针对评论中的一些问题做些统一的解释

问:数据交换的理念

有人提到数据交换,数据交换不是简单的我给你一点,你给我一点;也不是我给你钱,你给我点数据。

原因是这些模式基本走不通

1、数据很难定价,无法简单的将数据定义为商品,数据供给方也无法去衡量一份数据能产生多大的价值,只有在具体的应用场景中才能大概估计它的价值,因此几乎没有一种简单公平的机制去为交易双反指定交易规则。

2、数据拷贝成本几乎没有

如果是一部iPhone,如果想要造出一模一样的一部iPhone成本奇高,所以苹果公司可以放心大胆的把手机卖给你而不怕你仿制,但是数据不行,因为数据几乎没有拷贝成本。

那么带来一个问题,如果我把这份数据一百万卖给你,我几乎除了『你的诚信』之外没有任何方法去限制你不把数据折价买个其它更多第三方,那这份数据的市场价值很快荡然无存。

3、隐私

商业有很多隐私规则,用户也有很多隐私,这些都是不能简单的通过拷贝的去交换的,如果给对方一份数据,例如:用户的在某APP的浏览行为,那么如果被第三方运用在电话骚扰,广告弹窗之类的场景中,肯定是不行的。

所以数据的交易一定不是通过价格衡量,也不能简单的数据拷贝

数据交换 最理想的方式应该是,双方共同拿出一些东西,然后服务于某个场景,而数据导出等行为都是被禁止的,双方不能看到对方的数据也不能导出对方的数据,可被导出的结果一定是无害、不侵犯隐私的、不对原数据价值产生影响的东西。

而这样一种数据交换的方式却需要非常大的体系建设,平台建设,制度建设。

这样的体系和平台,需要长时间的摸索和市场培育,数据人任重而道远。

对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解

想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家

并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

大数据工程师、BI工程师、数据库工程师什么区别?相关推荐

  1. 大数据与BI的区别在于哪里

    数据发展时代,企业也都搭上了大数据这台顺风车.在战略选择上,是更应该偏向于大数据,还是BI.这一直是讨论的话题.大数据与BI有什么联系,在选择上又有哪些区别点,下面中琛魔方将分别介绍大数据与BI,揭开 ...

  2. 大数据时代的新型数据库 — 图数据库 Neo4j 的应用

    概览 微云数聚(北京)科技有限公司是一家实力雄厚的大数据技术公司,由移动互联网技术专家团队.大数据专业团队和建模博士团队组成.微云数聚专注于研究图数据库技术及其应用,是世界领先的图数据库Neo4j在中 ...

  3. 大数据和BI商业智能有何区别?有何相关?

    大数据 ≠BI商业智能,大数据也不是传统商业智能的简单升级. 1.大数据和BI两者的区别 BI(BusinessIntelligence)即商业智能,它是企业数据化管理的一整套的方案,用来将企业中现有 ...

  4. 大数据与BI的联系与区别

    数据发展时代,企业也都搭上了大数据这台顺风车.在战略选择上,是更应该偏向于大数据,还是BI.这一直是讨论的话题.大数据与BI有什么联系,在选择上又有哪些区别点,下面我将分别介绍大数据与BI,揭开大数据 ...

  5. 大数据开发:大数据背景下的数据库选型

    在IT技术领域,数据库技术是重要的支撑性技术,尤其是进入大数据时代以来,海量的数据累积起来,成为庞大的数据集合,更是需要强大的数据库去完成存储支持.今天我们主要来讲讲,大数据背景下的数据库选型. 整体 ...

  6. 一篇入门物联网大数据:TDengine时序数据库

    目录 一.大数据时代 二.TDengine设计思想 三.CAP理论和TDengine的特性 1.CAP理论 2.TDengine特性 四.数据模型 1.数据特点 2.超级表和表 3.数据查询 a. 单 ...

  7. mysql 序列自增长 恢复到1_大数据教程分享MySQL数据库约束条件和自增长序列

    大数据教程分享MySQL数据库约束条件和自增长序列,一.约束(constraint) 约束就是在表上强制执行的一种校验规则,当执行DML操作时,数据必须符合这些规则,如果不符合,将无法执行. 约束的全 ...

  8. python解析json文件写入数据库_Python3实现将本地JSON大数据文件写入MySQL数据库的方法...

    本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法.分享给大家供大家参考,具体如下: 最近导师给了一个yelp上的评论数据,数据量达到3.55个G,如果进行分析时直接使 ...

  9. 大数据技术和python开发工程师

    一:大数据技术 简单来说,从大数据的生命周期来看,无外乎四个方面:大数据采集.大数据预处理.大数据存储.大数据分析,共同组成了大数据生命周期里最核心的技术,下面分开来说: 一.大数据采集 大数据采集, ...

  10. 大数据怎样帮助运维工程师实现无死角监控?

    今天一大早就看到了一篇文章,叫[大数据对于运维的意义].该文章基本上是从三个层面阐述的:工程数据,譬如工单数量,SLA可用性,基础资源,故障率,报警统计 业务数据,譬如业务DashBoard,Trac ...

最新文章

  1. python在财务上的应用-利用python实现周期财务统计可视化
  2. ubuntu下vim + ctags + taglist配置和使
  3. 32行代码AC——L1-027 出租 (20分)(~解题报告~)
  4. 数据库_数据库系统概论
  5. django 1.8 官方文档翻译: 2-1-1 模型语法(初稿)
  6. Spring 无缝整合 quartz
  7. JavaScript学习(八十四)—变量
  8. pytorch之expand和repeat
  9. Unix环境高级编程(二)文件和目录
  10. java urlconnection cookie_使用HTTPUrlConnection时如何保留cookie?
  11. MFC中资源视图中对话框大小和实际像素尺寸显示问题
  12. HTML 制作简单的下拉菜单
  13. java excel 取消科学计数法_基于Java将Excel科学计数法解析成数字
  14. 【ZYNQ开发系列】基于vitis(vivado2019以上版本)的程序固化~如何把程序烧录到QSPI?
  15. MATLAB之绘图基础
  16. Mac 外接键盘Command键( Windows 徽标键)失效
  17. c++英雄联盟_C联盟
  18. 关于TCP粘包和半包的处理
  19. 结构光资料 | 分享几个结构光方向研究者的主页
  20. 广播和多播,IGMP协议

热门文章

  1. win7网络里的计算机,win7看不到局域网计算机怎么办
  2. Android课设之校园二手交易app
  3. 微软账户服务器连不上开不了机,Win10无法登录微软账户提示“内部服务器错误(500)”怎么解决?...
  4. java 回调方法是什么意思_java什么是回调
  5. 云和恩墨 -全球化数据资产端到端解决方案服务商
  6. 计算机音乐学院,乐与录音艺术学院学生在中国大学生计算机设计大赛(计算机音乐创作类)中喜获佳绩...
  7. 【小程序】自定义导航栏
  8. 如何用自己的电脑作为服务器搭一个网站
  9. 时间末尾多了.000Z?
  10. 消防应急疏散指示系统在某居民社区综合体项目的应用