▼金猿奖·2019年度征集评选▼

大数据产业创新服务媒体

——聚焦数据 · 改变商业

来源:AustinDatabases丨文:Austin Liu
这个系列的上一篇就是写关于ETL 名字叫 数据,数据流,数据管道( )现在补充一些事情,算是对上一篇内容有一个交代。
上篇提到了大数据,众多种类的数据库如何将数据灌入到大数据的那块“处女地”。 看似容易,实际上问题那是梵天的星星,一般获取数据时你会遇到什么问题。
1  数据库的种类的问题,有人说了哎,你用一种数据库不就完事了,好吧,说这样话的人我就直接跳过,现在哪家公司只用一种数据库的,你传统数据库就算是一种,你NOSQL 的数据库就一个没有,如果真是这样,我只能给你送365个祝福了,估计你公司的业务也需要祝福了吧?
2  数据库里面的表的数据结构千奇百怪,现在公司里面的尤其是第三方开发的项目,那是没法看,表里面字段七扭八歪的不说,各种奇葩的字段名是只有你想不到(你见过用汉语拼音简写的字段名吗,我见过),还有没有让传统ETL工具能进行增量提取数据的有效时间字段,如果将这些都怪罪到开发的头上,有时候是不公平的,有的表的确有时间字段,但时间字段的含义,变动都不是为BIG DATA 服务的,而如果让开发应用的工程师在开发系统之前还要考虑BIG DATA的需求,未免有点强人所难了。
3 实时计算的大数据项目,目前我们就有业务部门需要5 - 10 分钟一次获得当前的CALL CENTER 的工作情况,数据量不少,如果每次在应用服务器来操作,势必给业务带来影响,而放到BIG DATA 的问题就是,不能实时运算,难道大数据的实时数据分析,还要不断的借助各种传统的ETL 的增量数据提取? ? ? OMG
4  字段的变更,在开发部门业务的需求以及字段的变更,增加,是常有的事情,传统的ETL 工具一般只要是你数据源的字段变化了,趴窝的几率会很高,不是字段顺序与源和目的端不一致的问题,就是字段的源与目的之间的字段缺斤短两,如果能有一个ETL 能进行相关的元数据管理,那将是涉及这些变化的开发,运维,BIG DATA 之间的福音。
5  ETL 在数据的权限管理上,传统的ETL 工具也是问题多多,而有一个良好的用户权限的管理,从与技术无关的角度来说,至少你公司的审计,你公司的安全部门,都的过问此事,尤其外企,对数据的流向,权限那是很重视的。
但实际上,以上5条能达到的ETL工具少之又少,但各种炫技,提供各种高大上的界面,以及各种出自名师的开源离线同步工具,并且加上各种并行任务,告诉你抽取数据有多快怎么把表给你分成100个TASK,提供各种数据质量的监控,解决数据失真的问题等等等等,那是一个比一个牛,在撕开外衣后,里面的棉絮能呛死你。
所以,一个ETL 几家欢喜,几家愁, ETL 工具最重要的点要搞清楚,否则和姑娘买车一样,看颜色,看内饰,看销售的小哥哥,就是不看发动机,变速箱,底盘这三大件,那就只能是小伙子火力壮,门外凉快去。
这三大件是什么
1  实时的数据流,从数据库底层做功课而不是去用SQL 来去提取数据。
2  支持多种数据库之间,数据库与大数据产品之间的任意往来
3  元数据管理,避免多个department 的罗圈架
当然从贵到喊“爹娘 ”的ETL 到 免费被吹捧到天上的 ETL 工具,此时大部分都变得不再喧嚣,因为什么,因为不行。
一个产品的好坏,最重要的是能解决用户的痛点的问题,如同我买车,我说我家里的路坑坑洼洼,我要底盘高的,动力好的,你给我来一个兰坡基尼,告诉我如何的快,如何的炫,如何马力强劲,如何能0 首付,我此时只能说,我勒个去。
那ETL 工具中如何能侵入到数据库内部,与数据的上层逻辑剥离,直接提取数据才是一种功夫,至少人家对各种数据库都的有相关的研究,而不是花里胡哨通过各种界面,各种并发,来填补内心的空虚,说句实话,你不知道你面对的表是什么情况,如同你初入社会,你不知道你遇到的会是“绿茶”,还是“掉渣烧饼”。 那怎么能搞定“绿茶”,“掉渣烧饼”,才是考验你ETL工具的试金石。
说道这里,还的说另外一个问题就是侵入性,如果一款ETL 要在数据库上安装AGENT ,然后才能进行提取,例如大名鼎鼎的那谁(就是那个数据库产品在走下坡路的数据库业界霸主的产品),如果你能顺利的完成部署(且不说和他公司数据库媲美的价格),我只能说你公司好“纯净”。 大公司任何一款产品如果要侵入到数据库服务器的层面,那都不会是容易的事,安全部门要审核,运维部门要审核,很可能开发部门也的来围观一下,然后就送你一首凉凉。 一款不侵入数据库服务器,或者最小化侵入数据库的产品才是能继续前行的KEY。
但这里就有矛盾了,上面是要从数据库底层来搞,下面又说不要侵入到数据库中,此时有人想说你是要找,年薪500万,身高1.8米,无父无母,北京三环有100多平的房子的未婚纯情肌肉帅哥,Day Dream!
其实我们目前倒是使用了一款“绿巨人”,至少从部署到现在8个月的时间,我倒是没有听说有什么抱怨。 其实市场上类似的东西也是有几种的,期间也联系了一家做演示,不过人家脾气大,根本不来,而绿巨人这家,来了一个“智慧型”女士来做PPT ,每句都能说到点子上,让你无法拒绝,那感受好像有点Soufflé,我想大部分人能明白我的意思。
(注: 避免广告嫌疑,这款软件从头到尾外号就叫“绿巨人”)
其实现在说的大数据工作主要部分,到底是什么,我看核心就两块 1 ETL 数据的抽取, 2 得到数据后的建模,分析,界面展示。
数据中台又是什么,数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。 这不就是,数据,数据流,与数据管道,打开数据流的水龙头就有源源不断的你要的数据流入你要的器皿。
难点在哪里,数据抽取,如果数据的抽取困难,数据不准确,不及时,你怎么能保证你后续数据分析的准确性,和及时性。
目前我们的“绿巨人”就承担了从多种数据库中实时抽数并且从底层还不强行介入的工作,所以拥有一个“绿巨人”你的BIG DATA 甚至是多种数据库的数据分发和汇聚都变得容易。
如同上次的那篇文字,如果数据如同水一样,打开水龙头就可以来去自如,那数据的处理,分析的工作就会变得容易,简单,高效。
在最后的最后,我也表达一下对这款产品的 unsatisfactory operation,希望能全面支持POSTGRESQL 你都支持TIDB了是吧,当然目前也是支持POSTGRESQL 的源端,如果目的端能支持就更好了,另外MONGODB 如果能产出一个MONGODB to FILE (JOSN)的图形化的tools,那就更完美了。 因为我们目前的MONGODB 还在半自动化的导出,尾音(真的很烦)

——END——

【推荐】
数据猿年终主题策划活动

关于数据、数据流、数据管道的一些看法(二)相关推荐

  1. 北京大学研究员董艳:数据功能开放管道——助力政府数据资源共享交换和融合应用...

    3月29日,2017年中国慢性病与信息大会在北京国际会议中心召开,大会上,北京大学软件研究所研究员/北京因特睿软件有限公司副总裁董艳发表了主题为<数据功能开放管道--助力政府数据资源共享交换和融 ...

  2. kafka传递文件_Kafka权威指南(二)数据传递/数据管道/数据镜像

    可靠的数据传递 可靠性保证 - kafka可以保证分区消息的顺序 - 只有当消息被写入分区的所有同步副本时,才被认为是已提交的 - 只要还有一个副本是活跃的,那么已经提交的消息就不会丢失 - 消费者只 ...

  3. Interview之DS:人工智能领域求职岗位—数据科学家/数据科学工程师的职位简介、薪资介绍、知识结构之详细攻略

    Interview之DS:人工智能领域求职岗位-数据科学家/数据科学工程师的职位简介.薪资介绍.知识结构之详细攻略 目录 数据科学家/数据科学工程师的职位简介 资讯指数 1.各大互联网巨头的薪资介绍 ...

  4. 4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:数据社 作者修鹏李One old watch, like brief ...

  5. 无法从套接字中获取更多数据_数据科学中应引起更多关注的一个组成部分

    无法从套接字中获取更多数据 介绍 (Introduction) Data science, machine learning, artificial intelligence, those terms ...

  6. 乐高ev3 读取外部数据_数据就是新乐高

    乐高ev3 读取外部数据 When I was a kid, I used to love playing with Lego. My brother and I built almost all k ...

  7. 数据科学家 数据工程师_数据科学家应该对数据进行版本控制的4个理由

    数据科学家 数据工程师 While working in a software project it is very common and, in fact, a standard to start ...

  8. 敏捷数据科学pdf_敏捷数据科学数据科学可以并且应该是敏捷的

    敏捷数据科学pdf TL;DR; TL; DR; I have encountered a lot of resistance in the data science community agains ...

  9. 终于有人把AI、BI、大数据、数据科学讲明白了

    导读:本文概述数据.分析.商业智能.报表.大数据.数据科学.边缘分析.信息学以及人工智能和认知计算这些基本概念. 作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson) 来源:大数据DT( ...

  10. 苏宁智能 BU大数据中心数据治理团队负责人韦真:数据治理“三字经”,超实用!...

    中生代技术 链接技术大咖,分享技术干货 全文:4700字 " 随着移动互联网和大数据的蓬勃发展,"数据即资产"的理念深入人心.大数据已发展成为具有战略意义的生产资料,在各 ...

最新文章

  1. 医疗领域中的AI/ML机会前景
  2. 30个极大提高开发效率的Visual Studio Code插件
  3. mysql服务实例配置_MySQL多实例配置
  4. python的scrapy爬虫可以将爬去的数据放入数据库吗_Python基于Scrapy的爬虫 数据采集(写入数据库)...
  5. Linux安装ImageMagick与JMagick完成过程及配置
  6. Windows系统下安装分布式事务组件Seata
  7. android studio创建文件,如何在Android Studio中创建File Templates
  8. mysql同一台服务器上不同数据库中个别表内容同步
  9. vim 配置_一步一步配置vim(4)--与latex进行实时显示
  10. python英文版怎么改成中文版_“PyQt的Qt Designer菜单是中文版的,怎么改成英文的“python的qt designer教程...
  11. mysql索引之六:mysql高效索引之覆盖索引
  12. Linux系统U盘怎么格式化,u盘怎么格式化各系统教程
  13. 第二次作业:软件分析之网易云音乐
  14. 铁路订票系统的简单设计(转)
  15. 电信天翼网关连接多个路由器
  16. Windows10资源管理器使用
  17. UI设计师高效切图6大步骤
  18. 性能第二讲:性能优化-每个程序员都应该知道的数字
  19. android 手机震动1次,Android的手机震动
  20. LeetCode-55、跳跃游戏-中等

热门文章

  1. 引导路径动画 (2)
  2. 精确到秒!一位清华学霸的学习生活计划表,值得借鉴!
  3. 基于requests+pyecharts的前程无忧工作岗位可视化分析
  4. 【基础算法Ⅰ】算法入门篇
  5. GateWay 服务网关
  6. http请求返回405 (Method Not Allowed)
  7. 企业微信朋友圈和个人微信朋友圈有哪些区别?
  8. 【spring里面都用到了哪些设计模式】
  9. synopsys软件安装
  10. gorm使用Joins方法查询关联表数据的示例