导读:大数据平台可以分为操作数据存储(ODS)、数据仓库(DW)和数据集市(DM)三层,分别对应着数据清洗、数据管理和数据应用这三个核心功能。

作者:蔡主希

来源:大数据DT(ID:hzdashuju)

▲数据架构示意图

01 原始数据清洗

操作数据存储(Operational Data Store,ODS),又被称为贴源层,是原始数据经过ETL(Extract-Transform-Load)清洗后存储的位置。ODS通常有如下几个作用。

  • 在业务系统和数据仓库之间做了隔离,将业务系统产生的原始数据备份的同时,保证了两个系统之间数据的一致性。

  • 存储了业务侧的明细数据,方便后续的查询和加工以及报表的产出。

  • 完成数据仓库中不能实现的一些功能,相比于DW和DM层通常使用Hive查询,ODS一般利用更底层的编程语言加工而成,可以实现一些更复杂和更高效的ETL操作。

此外,ODS层保留了大量的历史明细数据,通常约定只能增加不能修改,利用时间分区的方式进行区分。

02 数据仓库管理

数据仓库(Data Warehouse,DW)是企业级数据集中汇总的位置。DW层最大的特点是面向主题,根据不同的主题设计表的结构和内容,这样做的好处是排除了与主题无关的冗余数据,提高了特定主题下的查询和加工效率。

另一方面,数据仓库作为连接原始数据和标签之间的中间层,必须保证数据质量,包括唯一性、权威性、准确性等。

以风控主题为例,DW层中通常会包括授信、支用、还款、催收等一系列数据,方便后期相关标签的计算。另外,还会有一些公用的维度表被存在与DW层平行的DIM层中,这些表通常是一些城市、日期类的字典数据,贯穿多个主题数据。

03 数据标签应用

整个数据平台的最上层是数据集市(Data Market,DM),也是与风控人员联系最紧密的一层。顾名思义,数据集市就是将数据仓库中的主题数据根据不同的业务需要挑选出来,构成特定的业务场景标签。

例如想构建与客户逾期表现相关的标签,只需要将DW层中与还款相关的表抽取出来加工即可,这样不仅结构清晰,还保证了标签计算的效率。

由于DM层的数据标签与业务联系较为紧密,建议在DM层逻辑设计的初期,让更多的业务人员参与进来,这样才能避免后期技术与业务在标签计算口径上不统一的问题。

最后想补充说明的是,由于大数据平台的计算链条较长,且充斥着大量的数据处理步骤,在实际生产中平台的监控和预警机制至关重要,例如对于上下游依赖关系的判断、每个时间分区数据量的监控、邮件和短信报警等,都是把控数据准确性和时效性的必要手段。

关于作者:蔡主希,研究生毕业于哥伦比亚大学统计专业,资深智能风控算法专家。现就职于某具有“全牌照”业务的综合性国际化资产管理集团,负责人工智能算法在金融科技领域的研究和落地。曾任两家头部互联网公司金融部门风控算法专家,以及北京大数据研究院金融研究员。

本文摘编自《智能风控与反欺诈:体系、算法与实践》,经出版方授权发布。

延伸阅读《智能风控与反欺诈》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:头部金融企业风控算法专家撰写,院士高度评价,系统讲解智能风控和反欺诈在信贷风控领域实践全流程。

划重点????

干货直达????

  • 65岁的编程语言重回Top 20,65岁的程序员还没退休吗?

  • 终于有人把准确率、精度、召回率、均方差和R²都讲明白了

  • 终于有人把Scrapy爬虫框架讲明白了

  • 编程语言哪家强?4种数据分析领域语言优缺点对比

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 1024 | 数学 | 算法 数字孪生

据统计,99%的大咖都关注了这个公众号

????

大数据平台的3个核心功能相关推荐

  1. 开源大数据平台的安全实践

    开源大数据平台的安全实践 刘杰 百度(中国)有限公司,北京 100085 摘要:开源大数据平台的安全机制目前并不特别完善,特别是用户认证.日志审计等方案还存在不少问题.分析了开源大数据平台存在的安全隐 ...

  2. 独家解读!阿里首次披露自研飞天大数据平台技术架构

    9 月 26 日,阿里云飞天大数据平台在云栖大会第二天主论坛上正式对外发布,这也是阿里首次对外披露飞天大数据平台的整体架构. 据介绍,飞天大数据平台由阿里自主研发,可扩展至 10 万台计算集群,是目前 ...

  3. 大数据平台架构浅析——以讯飞大数据平台Odeon为例

    文章目录 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 功能 数据采集 数据开发 数据分析 数据编程 补充 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 Odeon大数据平 ...

  4. Hadoop大数据平台安装

    实验一:Hadoop大数据平台安装 16281002 杜永坤 1.实验目的 在大数据时代,存在很多开源的分布式数据采集.计算.存储技术,本实验将熟悉并搭建几种常用的大数据采集.处理分析技术环境. &l ...

  5. 典型工业企业大数据平台解决方案(含数据治理)

    一.总体思路 当前,工业企业产生的数据日与俱增,如何利用大数据为企业产生驱动力.竞争力成为工业企业面临的重要问题.工业企业大数据平台建设的总体思路是将现有PLC.MES.ERP.CRM.SRM.SCM ...

  6. 自拍会不会被大数据_不会搭建大数据平台,我被老板优化了...

    [51CTO.com原创稿件]随着业务的飞速发展,信息化作为业务的支撑,各个企业都建立了自己的信息化系统. 图片来自 Pexels 在业务增涨过程中,每个企业不知不觉积累积累了一些数据.无论数据是多是 ...

  7. 大数据平台关键功能设计

    平台关键功能设计 系统功能视图设计承接业务能力视图设计的内容,通过对业务需求点的总结.分析和归纳,提炼出对应的系统功能,形成数据接入管理.数据存储管理.数据加工管理.数据共享管理.运维管理.服务监测管 ...

  8. 大数据平台由哪些分析功能

    按照标准化的思路建设大数据平台,实现政务数据.社会数据及其他数据的安全接入.存储.共享.分析.应用和管理的目标,以支撑整个创新创业生态.大数据产业链的健康发展.大数据平台主要由数据接入系统.数据存储系 ...

  9. 智慧农业大数据平台功能及应用

    智慧农业是现代科学技术与农业种植相结合,从而实现自动化.无人化.智能化管理的过程:它是智慧经济重要的组成部分,是农业未来发展的必然趋势:它可以帮助发展中国家消除贫困.解决粮食减产问题,实现后发优势.经 ...

最新文章

  1. 2022-2028年中国锂电池设备行业深度调研及投资前景预测报告
  2. Pipe Utilization管道利用率
  3. django 基础知识 ~ forms详解
  4. 【Flutter】Flutter 混合开发 ( Flutter 与 Native 通信 | 完整代码示例 )
  5. Ubuntu安装amule和编译安装amule-dlp
  6. HDU 6265 Master of Phi
  7. jsx怎么往js里传参数_Angular、React 当前,Vue.js 优劣几何?
  8. 旷视研究院张弛:行人重识别及其应用
  9. sql视图 权限_SQLmysql用户权限管理
  10. 【干货】如何搭建靠谱的数据仓库.pdf(附下载链接)
  11. spring 的jdbc和事务支持
  12. Nginx源码分析 - 主流程篇 - 解析配置文件(13)
  13. Redis BigKey
  14. 【Unity实战100例】Unity读取加载Gif动图的两种方式
  15. SpringSecurity实战(二)-基于数据库认证授权
  16. 1 Apache启动失败,请检查相关配置 √MySQL5 1已启动 解决方案
  17. 位图深度 PIL.image.save()保存图片后size变大
  18. 辛苦开发的 App 被山寨?阿里帮你为 APK 上把加固锁
  19. c语言实现循环结构的语句有哪些?它们的区别是什么?,2011年04月份计算机软件基础(一)复习资料二...
  20. 谷歌EfficientNet高效卷积网络的学习和使用

热门文章

  1. Python笔记-安装python虚拟环境及配置opencv及通过opencv识别颜色
  2. C++笔记-shared_ptr与weak_ptr需要注意的地方
  3. android 清屏函数,浅谈android截屏问题
  4. spring boot 加载静态文件
  5. centos8 忘记root密码
  6. 不适合学计算机的理由,哪些人不适合学计算机 原因是什么
  7. 启动mysql 1067_启动mysql遇到1067问题
  8. loadrunner自学笔记-性能测试的注意要点
  9. # android开发:4-1、Activity启动方式、生命周期、不同activity的数据传递
  10. Qt之表单布局(QFormLayout)