数据仓库系列篇——唯品会大数据架构
https://zhuanlan.zhihu.com/p/45123018
What——大数据&数据仓库
什么是大数据?
* 广义的大数据是指:无法用现有的软件工具提取、存储、搜索、共享、分析和处理的、海量的、复杂的数据集合。业界通常用4个V(即Volume、Variety、Value、Velocity)概括大数据的特征——
一是数据体量巨大(Volume)。
二是数据类型繁多(Variety)。相对以往便于存储的、以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据,对数据的处理能力提出了更高要求。
三是价值密度低(Value)。以视频为例,一部1小时的视频,在连续不断的监控中,有用数据可能仅有1~2秒。如何通过强大的机器算法,更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。
四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。
什么是数据仓库?
数据仓库的概念创始人W.H.Inmon在《建立数据仓库》中定义:面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库的目的,是构建面向分析的集成化数据环境,为企业提供决策支持。
大数据&数据仓库
现在大部分情况下其实大家说的是狭义的大数据,就是专门指处理大数据的新技术,新工具,例如分布式计算,分布式存储等。数据仓库是为企业提供决策支持的战略集合,而大数据是技术,是工具。
Why——为何要建设好数据仓库
大数据的运用,是金融得以快速发展的基础。而良好的数据仓库架构,可以协助这些应用快速实施,优化资源利用。
唯品金融在建设之初,就清楚地知道充分利用大数据的重要性。大数据的应用,体现在金融用户整个生命周期中——
在贷前阶段,通过对所有客户的分析和算法模型计算,我们分析哪些客户更有金融产品需求,有针对性地在广告资源和营销资源上进行重点投放;
在风控审核阶段,需要防止不符合要求的客户通过审核,基于大数据构建授信评分模型、欺诈模型来控制风险;
在营销阶段,需要识别高价值用户,利用大数据根据用户的浏览和购买行为,对用户进行画像描述,在运营广告位投放针对性的运营信息,促进用户的开通和使用;
在贷后管理阶段,根据客户的购买行为及还款行为,提前预测还款风险情况,提前沟通,使坏账始终维持在较低水平。
How——如何做好数据仓库分层
在现代数据仓库建设中,分层理论已得到广泛应用,它的价值包括但不限于:便于数据管理、清晰数据结构、便于数据血缘追踪、减少重复开发、简化复杂问题、屏蔽原始数据异常。
唯品金融的数据仓库,分为如下三层——基础层、中间层、应用层
1、基础层(DW)
基础层,也叫DW层,是最接近数据源中数据的一层。数据源中的数据,经过抽取、转换、加载(即ETL)之后,装入DW层。本层数据,大多是按业务系统的分类方式分类的,这样可以快速的和业务系统进行对应。
但是,这一层面的数据却不完全等同于业务原始数据。在源数据装入这一层时,要进行一定的清洗(例如去掉明显偏离正常水平的信息)、去重、提脏、业务提取、单位统一、砍字段(例如用于支撑前端系统工作但是在分析中不需要的字段,敏感信息字段)、业务判别等多项工作。
2、中间层(DM),是数据仓库的核心
从DW层中获得的数据,按照主题建立各种数据模型。中间层建设原则如下——
* 中性,共享:中间层的主题要足够抽象,不针对特定的应用而设计;
* 灵活,可扩展:当业务发生变化时易于扩展,适应复杂的实际业务情况;
* 稳定性强:能够在长时间内保持其稳定性,满足下游集市、分析、挖掘等的使用;
* 规范,易读:分主题进行模型设计,易于让使用人员理解和使用。
3、应用层(ST),这一层提供数据产品使用的结果数据
在这里,主要提供给数据产品和数据分析使用的数据,当然也有将集市层单独划分一个层次的设计,集市下面才是应用。我们之所以把集市划为应用,是因为集市与应用结合得非常密切,所有的预处理数据在DM层已处理好,集市层直接运用结果计算数据即可。
最终的应用一般会存放在redis、mysql等系统中,供线上系统使用,也可能会存在Hive或者hbase中,供数据分析和数据挖掘使用。 我们经常说的报表数据,一般放在这里。
总结
在互联网金融大数据建设中,数据分层建设是一个重要环节,它决定的不仅是一个层次的问题,还直接影响到后续血缘分析、特征自动生成、元数据管理等一系列建设。层级划分精简,减少了数据处理流程,弱化了传统数据仓库数据模型设计的规范限制。能够快速构建大数据生产系统、响应业务分析需求、迭代大数据分析能力、适应互联网公司业务发展节奏。但在建设之初,一定要把架构搭好,并做好数据源管理,且充分了解行业发展。
本文分享了笔者对唯品金融数据仓库的设计思路,未必适合所有行业公司。但方法是灵活的,理念是共通的,欢迎感兴趣的朋友,分享心得,交流经验。
转载于:https://www.cnblogs.com/davidwang456/articles/9732801.html
数据仓库系列篇——唯品会大数据架构相关推荐
- 进阶大数据架构师学习路线
![在这里插入图片描述](https://img-blog.csdnimg.cn/25b820fe1d054f53bab70310694faffe.jpeg#pic_center 文末有惊喜 大数据架 ...
- 从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!
大数据被称为新时代的黄金和石油,相关技术发展迅猛,所应用的行业也非常广泛,从传统行业如医疗.教育.金融.旅游,到新兴产业如电商.计算广告.可穿戴设备.机器人等.大数据技术更是国家科技发展和智慧城市建设 ...
- 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...
- 大数据架构系列:如何理解湖仓一体?
导语 | 本文推选自腾讯云开发者社区-[技思广益 · 腾讯技术人原创集]专栏.该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口.栏目邀约腾讯技术人分享原创的技术积淀,与广泛开发者互启 ...
- 大数据架构体系(数据仓库)
1.传统大数据架构 优点 缺点 使用场景 简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件 1.没有BI下如此完备的Cube架构,虽然目前有kyl ...
- 【成为架构师课程系列】作为一名大数据架构师该掌握的技能清单:
目录 大数据架构师该掌握的技能 硬能力 软实力 大数据架构师该掌握的技能 主要分为两块 硬能力 与 软实力 一.平台建设 <
- 云原生大数据架构中实时计算维表和结果表的选型实践
简介: 随着互联网技术的日渐发展.数据规模的扩大与复杂的需求场景的产生,传统的大数据架构无法承载. 作者 | 志羽 来源 | 阿里技术公众号 一 前言 传统的大数据技术起源于 Google 三架马车 ...
- 透过数字化转型再谈数据中台(三):一文遍历大数据架构变迁史
编者按:<透过数字化转型再谈数据中台>系列连载 6-8 篇左右,作者结合自己在数据中台领域多年实践经验,总结了数据架构知识.BI 知识,以及分享给大家一些产业互联网实施经验.本文是系列文章 ...
- 万字详解大数据架构新概念
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性. ...
最新文章
- Nchain旗下矿池挖出首个BCH区块,“算力战争”真的要来了?
- SCRUM的四大支柱
- __builtin__与__builtins__的区别与关系
- python作者叫什么-Python18:什么是字典
- 三、Python-列表
- Python之list对应元素求和
- redis 安装配置
- 华硕无双新品首爆:H45标压处理器+全球首款2.8K 120Hz OLED屏
- [Axis2与Eclipse整合开发Web Service系列之一] 生成Web Service Client(将WSDl 转化成 Java代码)
- 将Git子模块更新为最新的原始提交
- des加密 lua_lua-resty-nettle实现des解密
- 初学CSS,美化一个属于你自己的网页
- android 游戏遥感,Android2.2+游戏摇杆 MOPS魅影T800评测
- 拿到一份代码如何跑起来
- 上面一个星星下面一个r_谁能告诉我微博那个红色五角星有个R?
- UE4 跑酷游戏-得分机制
- 017利用颅内和头皮脑电图进行癫痫预测的卷积神经网络2018
- Revit:不过期启动“TR天正建筑 V5.0 2020”方法
- Mockito一个用于Java开发的伟大的模拟框架
- 这3种个人信息最易被盗用,这5个工具/方法网络安全专家必备
热门文章
- Linux信号 六 信号与线程的关系
- java选填,java选择填空 - osc_ug2wy0bi的个人空间 - OSCHINA - 中文开源技术交流社区
- matlab div矩阵运算,【求助】多维矩阵求和运算!!
- python运用实例视频_python爬视频实例
- python csv文件创建时间_记录 python 根据csv文件自动创建表插入数据
- blob字段乱码怎么处理_金九银十,你准备好了吗?没点Python面试题干货怎么行?(一)...
- DualLinkList
- 折纸机器人的步骤图解_折纸图解老虎
- pdf 天线理论与技术 钟顺时_虚拟仿真技术 | 基于HFSS仿真软件的微波天线课程教学探索...
- pytho sin(1/x)震荡间断点