最近比较忙,不过最近间接的获取了不少关于数据流,及数据融合,管道等方面的知识,由于脑子内存小,不写出来很快就会忘记,所以还是硬着头皮写一写。

数据作为一个专有名词,至少有10年的时间,围绕这个词衍生出很多词汇。

大数据分析,数据敏捷分析,数据spss, 大数据应用,智能数据AI,围绕这些词汇的产品也不少,HADOOP, SPARK, HIVE, Teradata,greenlum 等产品。

这些产品已经在很多公司中的大数据分析中得到广泛的应用。 今天想说的并不是这些产品,今天想谈的是一个最近悄然热门的行业 Datapiple, 数据管道。

什么是数据管道,为什么需要数据管道软件,数据管道在目前的企业中到底有什么地位,如何应用。

有人马上提到,你别糊弄人,你说的不就是ETL嘛,老掉牙了。 是吗那我提几个问题,你看看如何解决。

问题1 :  业务部门数据由于历史原因,使用的RDS 类型多种多样,有ORALCE ,有SQL SERVER ,有MYSQL ,甚至有MONGODB ,现在大数据分析,要整合部分这些数据库的数据,到一个大数据平台进行数据分析?

问题2: 业务部门数据表设计之初,没有考虑ETL数据抽取的问题,换言之没有时间字段,你如何在上百G的数据中,抽取增量数据?

问题3; 业务部门多种需求,要求在业务获得数据的1个小时内,将更新的业务数据传递到数据部门进行处理,获得DATAVIEW

问题4:业务部门中都有数据分析人员,有的人员精通 T-SQL, 有的擅长 PL/SQL, 还有的只会JAVA 你如何满足这样多种多样的数据目的地需求。

问题5,; 目前由于数据库更新,将ORACLE 数据库替代,使用PostgresQL 来代替ORACLE。目前需要进行灰度发布,ORACLE 和 POSTGRESQL 数据之间进行实时同步,当程序跑通,上线两个礼拜后没有问题,将ORACLE 清除。

说没有什么了不起的同学,站出来,把我上面的问题一并解决吧,估计已经吐血了。

在提升一个高度,站到CDO的角度,你公司使用的数据库类型,我不关心,我只关心,你的数据流,是否能及时的传导到我的各种目的地,让我进行分布式的运算。 同时数据必须在管道中,进行加工处理,而我还要一些RAW的数据对我计算的数据进行验证,也就是 单点多传,数据清洗,数据整理的要求。

估计说ETL 的同学你的胆汁都吐出来了吧!!

这时候我听到一个声音 ORACLE  OGG , I am sorry,

1 OGG 有多贵你知道吗?

2 OGG 能满足上面所有的需求吗?

价格我们先放到一边,让OGG 支持 ORALCE 到 PG 的数据流, ORACLE 到 TIDB 的数据流, MONGO DB 到 传统数据的数据流(对你没有听错是MONGO DB 到传统数据库的数据流)

OGG还需要在数据的源端,安装AGENT,造成某些服务器的负担和不安全性,如果是外企,还要在评估一番你的数据获取方式安全与否,然后在推诿,扯皮,审批一番,在中国市场瞬息变化的行情下,半年过去了。等批准的时候,市场早就变化了,数据变质了。

而每次数据不能及时供应的背锅侠,运维,还是站在背锅侠的最前端,多个数据源数据获取不及时造成数据获取延迟,数据获取不准确,数据提供的格式不对,数据提取时,对业务系统的负担,造成业务投诉。

终上所述,集中了业务数据分析,大数据部门,运维,人的,机器的,程序的,各种问题,在这个 数据通道的需求中,集中爆发,各种不满和委屈淋漓尽致。

我们需要什么:

1 一个能实时获取数据流,将业务数据像水一样的方式,通过水管顺畅的流向各个目的端,支持者。

2 一个能支持各种数据库,及大数据软件的数据交换中心的支持者

3  一个能在数据交换的过程中,还能做点数据的小变动,将不必要的数据,截止在数据的源端的工具。

4  一个能方便快捷,部署,不在数据源端做任何安装的数据获取软件

5 将复杂的ETL +  数据调度,转换为无需担心的数据一致性必然传输。

——————————————————————————————

这样的软件有没有,根本就没有吧    NO NO NO

基于每个数据库的底层原理, ORACLE  REDO ,ARCHIVE , SQL SERVER CDC , MYSQL BINLOG  ,  POSTGRESQL WAL, MONGODB 的OPLOG  将这些底层编码破解的方法,就是获得上述能力的先决条件。

避免有广告的嫌疑,这里不提任何公司的名字,但在中国市场,已经有这样的高科技企业,实现了这样的功能。每个高速发展的企业,也需要这样的软件,将死的数据,变化为数据流,让每个数据的索取者,和数据提供者,皆大欢喜,一身轻松。

数据,数据流,数据管道相关推荐

  1. 北京大学研究员董艳:数据功能开放管道——助力政府数据资源共享交换和融合应用...

    3月29日,2017年中国慢性病与信息大会在北京国际会议中心召开,大会上,北京大学软件研究所研究员/北京因特睿软件有限公司副总裁董艳发表了主题为<数据功能开放管道--助力政府数据资源共享交换和融 ...

  2. kafka传递文件_Kafka权威指南(二)数据传递/数据管道/数据镜像

    可靠的数据传递 可靠性保证 - kafka可以保证分区消息的顺序 - 只有当消息被写入分区的所有同步副本时,才被认为是已提交的 - 只要还有一个副本是活跃的,那么已经提交的消息就不会丢失 - 消费者只 ...

  3. Interview之DS:人工智能领域求职岗位—数据科学家/数据科学工程师的职位简介、薪资介绍、知识结构之详细攻略

    Interview之DS:人工智能领域求职岗位-数据科学家/数据科学工程师的职位简介.薪资介绍.知识结构之详细攻略 目录 数据科学家/数据科学工程师的职位简介 资讯指数 1.各大互联网巨头的薪资介绍 ...

  4. 4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:数据社 作者修鹏李One old watch, like brief ...

  5. 无法从套接字中获取更多数据_数据科学中应引起更多关注的一个组成部分

    无法从套接字中获取更多数据 介绍 (Introduction) Data science, machine learning, artificial intelligence, those terms ...

  6. 乐高ev3 读取外部数据_数据就是新乐高

    乐高ev3 读取外部数据 When I was a kid, I used to love playing with Lego. My brother and I built almost all k ...

  7. 数据科学家 数据工程师_数据科学家应该对数据进行版本控制的4个理由

    数据科学家 数据工程师 While working in a software project it is very common and, in fact, a standard to start ...

  8. 敏捷数据科学pdf_敏捷数据科学数据科学可以并且应该是敏捷的

    敏捷数据科学pdf TL;DR; TL; DR; I have encountered a lot of resistance in the data science community agains ...

  9. 终于有人把AI、BI、大数据、数据科学讲明白了

    导读:本文概述数据.分析.商业智能.报表.大数据.数据科学.边缘分析.信息学以及人工智能和认知计算这些基本概念. 作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson) 来源:大数据DT( ...

  10. 苏宁智能 BU大数据中心数据治理团队负责人韦真:数据治理“三字经”,超实用!...

    中生代技术 链接技术大咖,分享技术干货 全文:4700字 " 随着移动互联网和大数据的蓬勃发展,"数据即资产"的理念深入人心.大数据已发展成为具有战略意义的生产资料,在各 ...

最新文章

  1. ML之Hog_HammingDistance:基于Hog特征提取“RGB”图像的768个值的单向vector利用汉明距离算法进行判别
  2. ASP入门(十三)-Server对象
  3. Direct2D (2) : 基本图形命令测试
  4. Library not loaded: @rpath/libswiftCore.dylib
  5. Android中简单的日期格式化
  6. escilpe mysql,wordpress函数esc_sql()用法示例
  7. Cognos访问权限之让拒绝更友善
  8. ASP.NET中Session模型简介
  9. 解决:ngxin做http强制跳转https,接口的POST请求变成GET
  10. Fortran 学习1--数据类型
  11. ITIL学习笔记——核心流程之:服务级别管理
  12. 触摸屏校准之tslib
  13. 火狐浏览器打印网页不全_打印网页显示不全,求助
  14. 打印机服务器虚拟端口,Win7打印机服务器端口添加方法
  15. 那个北大毕业去卖猪肉的已经50岁了,他现在在干嘛?又是人生的一个转折点?...
  16. 鲁大师7月新机性能/流畅榜:性能跑分突破123万!
  17. [置顶]CHENEY-YANG'S BLOG(cheney-yang)
  18. C语言试题164之求定积分
  19. PawningShop:一种NFT抵押借贷的实现
  20. 基于Cortex M0+的STM32L0系列简介

热门文章

  1. 【源码】二维平面应力问题中的弹性材料模型仿真
  2. 初探Python声音处理(Demo)
  3. java开发自我介绍范文(合集)
  4. ppt编辑器android,ppt编辑器
  5. Jquery遍历对象
  6. bilibili直播地址获取
  7. R语言安装Sampling包
  8. 使用UnblockNeteaseMusic播放网易云音乐客户端无版权歌曲
  9. GPU、CPU、显卡区别
  10. 怎么查看服务器的gpu信息,linux 查看服务器gpu