https://www.sohu.com/a/197469801_99989999?sec=wd&spm=smpc.author.fd-d.20.1553654800781yejuW6n

随着公司业务的增长,大量和业务、流程、规则相关的半结构化数据也爆发式增长。但数据分散在公司的各个系统中,如何将它们汇总并形成统一的企业级数据仓库,使企业灵活,高效的运用成了难题。

如需将分散的各个底层数据汇总则需建立完整的体系,支撑风控的大数据框架则是重中之重。

拥有5000万+注册用户;13亿+设备标签;100亿+行为数据;1500万+行业关注名单等海量多维数据的拍拍信则是从这几个方面落实:

1. 数据采集

面对来源各异、以结构化/半结构化为主的数据,我们使用linkedin开源的camus来采集消息类数据,使用kettle来采集RMDB的数据。

2. 数据储存

将采集到的原始数据存储到hadoop集群的分布式文件系统中。此外,基于hdfs文件系统对小文件并不是很友好的前提下,定期对历史文件进行合并、压缩、归档的操作也很有必要。

3. 离线处理

数据的离线处理则是一个非常大的话题,相当多的工作量都在这里,但它的价值却往往不会马上得到体现,从而被企业忽视。不仅仅包含以下这些内容:

l 构建并不停地丰富数据仓库

参照传统的ODS,DW,DM将数仓分层,对数据进行加密、去重后分门别类,持续不断的坚持做这件事。

l 管理元数据

建立数据字典,统一数据编码,描绘数据血缘等。

l 检测数据质量

从众数、少数、中位数、平均值等多维度来检测和把握数据的质量。

4. 流式处理

我们使用spark streaming将特征工程、模型结果计算与流式处理相结合,提供秒级的输出。甚至成功的将类似RNN(循环神经网络)这样的深度学习计算添加到整个流式处理的过程中。

5. 数据可视化

使用不同的工具以满足不同场景、不同职责的人员对数据的使用。不仅仅包含以下这些内容:

l 数据的即席查询

懂SQL、随意组合查询条件,进行自助查询,可以忍受分钟级的耗时。

l 多维分析

不懂SQL的情况下,在给定的维度和指标下,随意组合,并在秒级得到查询结果。

l 静态报表

只关注关键性指标。

l 数据分析挖掘

会使用像python、R这样的语言,结合集群的Spark、hive这样的分布式处理工具,对数据进行更深层次的利用。

经过处理的底层大数据相对于以往,在实际业务中使源数据种类更丰富,数据量更多, 借助集群的助力,处理速度更快,回溯时间更久远。

实际运用:

模型训练:风控模型是互联网金融,传统金融等行业在风控流程中不可或缺的环节。

模型应用:将模型与流式计算相结合,提供秒级的风控决策。

数据产品:对数据加工处理,产生像多头、风险名单一类的数据产品。

常用业务:企业在日常工作中各个环节都涉及到数据如:处理数据,更新数据,数据调用,查询日志等。

运用大数据架构前后比对:

在进行大数据框架搭建时还需注意以下几点:

现在即使在同一细分领域,也有很多开源技术可供选择,请尽量选用相对成熟,社区活跃的;能选用开源的,尽量避免自研;另外代码如果要维护自己分支,请特别要谨慎,避免与社区越走越远;hadoop最初并没有太多的考虑数据安全方面,这点要自己加强;高稳定性和高性能往往一个是鱼,一个是熊掌,请考虑好取舍。

转载于:https://www.cnblogs.com/davidwang456/articles/10606042.html

资深数据大牛深度解析:大数据底层架构!相关推荐

  1. 深度解析大数据在公安领域的应用

    近一两年,大数据开始在公安等行业领域得到普及应用,除了行业自身的特殊要求外,大数据也带动了相关行业的需求发展.未来,基于大数据的行业应用会变得更加深入,更多的相关厂商也会涉及其中,大数据在公安领域的商 ...

  2. 深度解析 | 大数据面前,统计学的价值在哪里?

    来源:机器学习算法与Python实战 本文约8100字,建议阅读8分钟 本文介绍了关于统计学与大数据的一些观点. 统计学对大数据的意义 很高兴有这样一个机会,我能与大家在这里做一些关于统计学与大数据的 ...

  3. 深度解析大数据可视化管理平台的监控功能

    在上一篇的文章中已经明确说过DKM作为大快发行版DKhadoop的管理平台,它的四大功能分别是:管理功能,监控功能,诊断功能和集成功能.管理功能已经给大家列举了一些做了说明,今天就DKM平台的监控功能 ...

  4. 年末巨献|大数据盛会!企业大数据落地高峰论坛倒计时,速速报名!

    糟了!据不完全统计,目前报名名额仅剩20名,抽到iPhoneX的概率越来越低了! 距离企业大数据落地高峰论坛暨OurwayBI新品发布会启动报名系统以来,时间到了最后一周!最后一周!活动吸引了各行各业 ...

  5. 【工业大数据】工业大数据层层深度解析!

    我深知,工业4.0,不同于今天的2.0,或3.0,一个根本性指标是工业大数据分析模型.为了论述完整性,本篇将集中阐述工业大数据及其在工业4.0中的定位和重要性." ◎文丨廣乾草記 1 大数据 ...

  6. 深度探秘大数据新应用,2018 中国大数据技术大会(BDTC)强势来袭!

    2018 年12 月 6 -8日,由中国计算机学会主办,CCF大数据专家委员会承办,CSDN.中科天玑数据科技股份有限公司协办的2018 中国大数据技术大会(BDTC),在北京新云南皇冠假日酒店隆重召 ...

  7. BAT大厂的架构大数据你有了解么?解析大数据技术及算法

    本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术.算法和一些应用场景,帮助读者培养大数据的技术选型和系统架构能力. 不仅对大数据相关技术及算法做了系统性 ...

  8. 【涨姿势】网络术语解析—— 大数据

    大数据 big data 大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增 ...

  9. 李涛:深度解读大数据时代的数据挖掘

    3月13日下午,南京邮电大学计算机学院.软件学院院长.教授李涛在CIO时代APP微讲座栏目作了题为<大数据时代的数据挖掘>的主题分享,深度诠释了大数据及大数据时代下的数据挖掘. 众所周知, ...

最新文章

  1. asp.net的三层架构图
  2. python直方图均衡函数_Python中的自适应直方图均衡
  3. Nginx流媒体支持配置
  4. python 如何引用同一个目录下的另一个py文件
  5. python如何统计累计每日的人数‘’_Python数据分析2019陕西高考(理工)成绩及填报志愿...
  6. python 列表(list)去掉末尾的0或其他某个字符
  7. 求N个数的最大公倍数
  8. servlet 验证生命周期过程调用方法的次数
  9. can硬件结构和工作原理_汽车CAN总线工作原理及测量方法详解
  10. 零基础入门渗透测试教程
  11. BZOJ_P3110 [ZJOI2013]K大数查询(线段树+整体二分)
  12. 群晖黑科技docker套件_群晖Docker玩法
  13. html5对锚的更改,HTML5之锚链接
  14. “指尖上的中华”非遗国技互动展亮相上海徐家汇站
  15. 微信扫码登录只能填一个授权回调域问题
  16. C语言中##和#的作用
  17. matlab plot fplot函数
  18. 生产者/消费者模式的理解及实现
  19. 网络流24题之太空飞行计划问题
  20. delphi 11(10.5) 来了

热门文章

  1. dell 如何给raid分区_什么是RAID技术?
  2. 如何使用cmd进入打印机选项_cmd调用设备和打印机
  3. ubuntu查看cudnn是否安装成功_深度学习之目标检测系列(0) -ubuntu18.04+RTX2080Ti+cuda+cudnn安装...
  4. 广东白云学院计算机老师,广东白云学院 计算机系 余永权老师简介 联系方式 手机电话 邮箱...
  5. 利用全局数据实现数据通信
  6. mysql复制架构迁移到pxc_mysql复制(高可用架构方案的基础)
  7. 三包围结构的字是什么样的_手帐排版的高段位秘诀:运用艺术字丨大咖分享
  8. 有没有测试水泥稳定性的软件,水泥稳定碎石土7天无侧限抗压强度制件(参考模板)...
  9. r语言向量代码如何创建函数c,R中向量基本操作:创建、运算、访问
  10. C语言指针是什么?1分钟彻底理解C语言指针的概念