这是彭文华的第182篇原创

其实建模的文章写了不少了,但是都还停留在什么星型、雪花型这些比较粗浅的内容层面。

其实,建模这件事情是个能力要求非常高的技术活儿。而且这个活儿不是说公司牛、技术牛就能搞定的,这件事情直接决定项目的成败。

就在2021年2月份,IBM因为一个数仓项目失利,赔了客户好几亿。其中一个原因就是因为IBM叫过去的人,没有按照Teradata(天睿)的金融服务逻辑数据模型(FSLDM)去设计企业数据仓库EDW。

我作为吃瓜群众,就喜欢看热闹。而且,这里面的建模可以好好跟你聊聊。

这是个啥项目?

起因是这样的,有一家英国保险公司,叫Direct Line,2014年整了一个项目“Best for Customer”,跟所有保险公司一样,这个项目的核心是为客户服务。

他们本来想把所有的客户数据都归归拢,放到企业数据仓库EDW里,然后上面架设一个新的平台,所有保险业务都在这上面跑。数据打通了,业务流程也就能更顺畅,客户价值也能发挥到最大。

你看,想的是不是很好?没毛病啊!

整个项目的架构呢,也是早就设计好的。数仓用的是Teradata的Database14,数据迁移、ETL用的是Informatica的产品,也是世界顶尖产品。数据模型就用Teradata的金融服务逻辑数据模型FSLDM。

有些同学对这两个产品有些陌生啊。ETL工具刚才说过了,Teradata就好玩了。这么跟你说吧,Teradata一度是全球数仓界最牛的公司,没有之一。这个称号不是我说的啊,是客户说的。Teradata建的各种数据模型,早就是业界标杆了。

那出问题了?

按理来说,熟悉的业务,强大的技术,加上IBM、Teradata和Informatica这么强大的组合,又给了足够的时间。虽然有一些新系统的建设和新旧系统的切换,但是这都是有完善的解决方案的,不应该出现啥问题。

但是恰恰就是这不可能出问题的项目,最终让IBM赔钱了。

这次争议的核心点之一,就是Direct Line公司说IBM没有按照Teradata的金融服务逻辑数据模型(FSLDM)去搞设计。明明Teradata这边已经有标准模型了,还要不断重复建已有的实体。

原话是:“过以一种毫无章法、毫无根据的方式来复制和粘贴,以扩展该模型,结果破坏了设计集成层,使得EDW难以填充、维护和理解”。这句话的评价真的是太崩溃了。

明眼人一看就知道,IBM和Teradata之间肯定有什么不可调和的矛盾。我估摸着是这样的:IBM要去做项目,但是关系没搞好,Teradata一直就没鸟他,也不给资料,也不给支持,然后IBM就只好自己干。自己干呢,又没有Teradata的支持,就只好根据自己这边的经验搞建设了,最后搞的稀碎。

最后,IBM在2016年移交全部代码,由Teradata全盘接手,推到重来。你说这事闹的。

这还没算完。东家把IBM给告了!官司打了好几年。反正双方都你来我往,说自己没问题呗。这个案子到今年2月才判下来,我看的是赔了3个多亿啊。

其实我对IBM的事情一点都不关心,我其实想跟大家分享的是Teradata的金融服务逻辑数据模型FSLDM。这个比较难讲,没有啥动力啊。

如果本文的“在看”超过30个,我就单开一篇给大家解剖一下Teradata的标准数仓模型FSLDM,看看业界最经典的数仓模型是怎么建设的。

配合以下文章享受更佳

干货 | 一口气讲完数据仓库建模方法

干货 | 如何搭建一个数据仓库

【资料包】数据仓库建设完整资料包

【实战】 手摸手搭建一个实时数据仓库

【干货】 数仓到底要分多少层?

数据仓库为什么要有ODS层?

我需要你的转发,小小的满足一下我的虚荣心

出大事了!IBM的数仓项目黄了,赔了好几亿!相关推荐

  1. 大数据千亿级离线数仓项目第一天 环境部署和etl

    千亿级数仓项目第01天讲义 课程目标 了解大数据离线数仓架构 了解项目部署环境(数据规模和集群规模) 掌握ETL工具 Kettle常用组件的使用 能够掌握kettle作业与转换区别以及linux部署 ...

  2. 本地数仓项目(四)—— 即席查询

    1 背景 本文描述本地数仓项目即席查询相关内容,主要涉及即席查询工具包括Presto.Druid.Kylin. 本文基于文章<本地数据仓库项目(一) -- 本地数仓搭建详细流程> 和< ...

  3. 电商离线数仓项目实战(下)

    电商离线数仓项目实战(下) 电商分析--核心交易 文章目录 电商离线数仓项目实战(下) 电商分析--核心交易 一.业务需求 二.业务数据库表结构 1. 数据库表之间的联系 img 2. 业务数据库-- ...

  4. 2023.4.3数仓项目捋一捋

    数仓项目捋一捋 初步认识 1.数仓需具备 数据存储.管理(一些数据混乱).分析计算(分类,聚合,汇总,挖掘更大价值) 2.对于企业意义 往往作为企业BI(BI重度依赖数据,从大量数据去挖掘有用信息,帮 ...

  5. CDH数仓项目(一) —— CDH安装部署搭建详细流程

    0 说明 本文以CDH搭建数据仓库,基于三台阿里云服务器从零开始搭建CDH集群,节点配置信息如下: 节点 内存 安装服务角色 chen102 16G cloudera-scm-server chen1 ...

  6. 本地数仓项目(二)——搭建系统业务数仓详细流程

    1 说明 本文基于<本地数据仓库项目(一)--本地数仓搭建详细流程>业务数据,在本地搭建系统业务数仓. 根据模拟sql脚本生成业务数据,依次执行生成业务数据即可. sql脚本提供如下 链接 ...

  7. 【大数据数仓项目集群配置 一】

    本文用于记录我的第一次内网大数据集群配置过程. 本篇主要实现基础配置. 配置使用的软件版本和脚本参考自尚硅谷,链接如下: 链接: https://www.bilibili.com/video/BV1r ...

  8. 大数据电商离线数仓项目-上篇

    下一篇:电商数仓项目-下篇 文章目录 第1章 数仓分层 1.1 为什么要分层 1.2 数据集市与数据仓库概念 1.3 数仓命名规范 1.3.1 表命名 1.3.2 脚本命名 1.3.3 表字段类型 第 ...

  9. 【项目】数仓项目(四)

    总结 1)数仓概念总结 [1]数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据.JavaEE 后台产生的业务数据 输出系统:报表系统.用户画像系统.推荐系统 2)项目需求及 ...

最新文章

  1. 修改属性使按钮处于无验证状态
  2. 复习03统计学习方法(K近邻KNN)---图片版
  3. DuckHunter Attacks
  4. 《unix设备驱动》内存分配
  5. 使用Docker中的mysql
  6. 宏与内联(inline)的区别(转载)
  7. 黑马程序员_java基础笔记(06)...集合
  8. 修改同一张表的同一个字段的两个不同的值。
  9. 湖南高校教师评职称计算机等级考试,湖南高校教师职称评审出台新规,这些要点你了解了吗?...
  10. 【iCore3 双核心板_FPGA】例程二:GPIO输出实验——点亮三色LED
  11. layout_gravity和gravity的区别
  12. P2P平台公司的9种职位
  13. STM32管脚的复用和重定义功能(RCC_APB2Periph_AFIO)
  14. 烽火2640路由器命令行手册-01-基础配置命令
  15. 高德 android 百度转高德,记一次百度和高德经纬度互转(不是你想的那样)
  16. 好好说说互联网IT行业加班那点儿事
  17. XJOI 9552矩阵游戏(2级1段)
  18. mac pro 键帽 方向键 上下键 拆卸
  19. 第一周-2.3成绩排序
  20. java虚拟机有哪些分类?

热门文章

  1. HTML如何去掉链接下划线
  2. linux系统浏览器无声音,在Deepin 20系统中外接显示器切换后浏览器没有声音的解决经历...
  3. 什么是“Bash”破绽?
  4. DSP IIC-EEPROM实验
  5. 简单工厂模式-Simple Factory Pattern 工厂三兄弟之简单工厂模式(四):图表库解决方案的改进,简单工厂模式的简化,简单工厂模式总结
  6. 罗永浩:重新定义“微信”,子弹短信爬到AppStore第1?
  7. 大数据征信的“是与非”
  8. 暴风魔镜之虚拟漫游(更新中。。。)
  9. 无人驾驶汽车系统入门(十七)——无人驾驶系统基本框架
  10. 基于python的验证码自动识别系统设计与实现