资深数据大牛深度解析:大数据底层架构!
https://www.sohu.com/a/197469801_99989999?sec=wd&spm=smpc.author.fd-d.20.1553654800781yejuW6n
随着公司业务的增长,大量和业务、流程、规则相关的半结构化数据也爆发式增长。但数据分散在公司的各个系统中,如何将它们汇总并形成统一的企业级数据仓库,使企业灵活,高效的运用成了难题。
如需将分散的各个底层数据汇总则需建立完整的体系,支撑风控的大数据框架则是重中之重。
拥有5000万+注册用户;13亿+设备标签;100亿+行为数据;1500万+行业关注名单等海量多维数据的拍拍信则是从这几个方面落实:
1. 数据采集
面对来源各异、以结构化/半结构化为主的数据,我们使用linkedin开源的camus来采集消息类数据,使用kettle来采集RMDB的数据。
2. 数据储存
将采集到的原始数据存储到hadoop集群的分布式文件系统中。此外,基于hdfs文件系统对小文件并不是很友好的前提下,定期对历史文件进行合并、压缩、归档的操作也很有必要。
3. 离线处理
数据的离线处理则是一个非常大的话题,相当多的工作量都在这里,但它的价值却往往不会马上得到体现,从而被企业忽视。不仅仅包含以下这些内容:
l 构建并不停地丰富数据仓库
参照传统的ODS,DW,DM将数仓分层,对数据进行加密、去重后分门别类,持续不断的坚持做这件事。
l 管理元数据
建立数据字典,统一数据编码,描绘数据血缘等。
l 检测数据质量
从众数、少数、中位数、平均值等多维度来检测和把握数据的质量。
4. 流式处理
我们使用spark streaming将特征工程、模型结果计算与流式处理相结合,提供秒级的输出。甚至成功的将类似RNN(循环神经网络)这样的深度学习计算添加到整个流式处理的过程中。
5. 数据可视化
使用不同的工具以满足不同场景、不同职责的人员对数据的使用。不仅仅包含以下这些内容:
l 数据的即席查询
懂SQL、随意组合查询条件,进行自助查询,可以忍受分钟级的耗时。
l 多维分析
不懂SQL的情况下,在给定的维度和指标下,随意组合,并在秒级得到查询结果。
l 静态报表
只关注关键性指标。
l 数据分析挖掘
会使用像python、R这样的语言,结合集群的Spark、hive这样的分布式处理工具,对数据进行更深层次的利用。
经过处理的底层大数据相对于以往,在实际业务中使源数据种类更丰富,数据量更多, 借助集群的助力,处理速度更快,回溯时间更久远。
实际运用:
模型训练:风控模型是互联网金融,传统金融等行业在风控流程中不可或缺的环节。
模型应用:将模型与流式计算相结合,提供秒级的风控决策。
数据产品:对数据加工处理,产生像多头、风险名单一类的数据产品。
常用业务:企业在日常工作中各个环节都涉及到数据如:处理数据,更新数据,数据调用,查询日志等。
运用大数据架构前后比对:
在进行大数据框架搭建时还需注意以下几点:
现在即使在同一细分领域,也有很多开源技术可供选择,请尽量选用相对成熟,社区活跃的;能选用开源的,尽量避免自研;另外代码如果要维护自己分支,请特别要谨慎,避免与社区越走越远;hadoop最初并没有太多的考虑数据安全方面,这点要自己加强;高稳定性和高性能往往一个是鱼,一个是熊掌,请考虑好取舍。
转载于:https://www.cnblogs.com/davidwang456/articles/10606042.html
资深数据大牛深度解析:大数据底层架构!相关推荐
- 深度解析大数据在公安领域的应用
近一两年,大数据开始在公安等行业领域得到普及应用,除了行业自身的特殊要求外,大数据也带动了相关行业的需求发展.未来,基于大数据的行业应用会变得更加深入,更多的相关厂商也会涉及其中,大数据在公安领域的商 ...
- 深度解析 | 大数据面前,统计学的价值在哪里?
来源:机器学习算法与Python实战 本文约8100字,建议阅读8分钟 本文介绍了关于统计学与大数据的一些观点. 统计学对大数据的意义 很高兴有这样一个机会,我能与大家在这里做一些关于统计学与大数据的 ...
- 深度解析大数据可视化管理平台的监控功能
在上一篇的文章中已经明确说过DKM作为大快发行版DKhadoop的管理平台,它的四大功能分别是:管理功能,监控功能,诊断功能和集成功能.管理功能已经给大家列举了一些做了说明,今天就DKM平台的监控功能 ...
- 年末巨献|大数据盛会!企业大数据落地高峰论坛倒计时,速速报名!
糟了!据不完全统计,目前报名名额仅剩20名,抽到iPhoneX的概率越来越低了! 距离企业大数据落地高峰论坛暨OurwayBI新品发布会启动报名系统以来,时间到了最后一周!最后一周!活动吸引了各行各业 ...
- 【工业大数据】工业大数据层层深度解析!
我深知,工业4.0,不同于今天的2.0,或3.0,一个根本性指标是工业大数据分析模型.为了论述完整性,本篇将集中阐述工业大数据及其在工业4.0中的定位和重要性." ◎文丨廣乾草記 1 大数据 ...
- 深度探秘大数据新应用,2018 中国大数据技术大会(BDTC)强势来袭!
2018 年12 月 6 -8日,由中国计算机学会主办,CCF大数据专家委员会承办,CSDN.中科天玑数据科技股份有限公司协办的2018 中国大数据技术大会(BDTC),在北京新云南皇冠假日酒店隆重召 ...
- BAT大厂的架构大数据你有了解么?解析大数据技术及算法
本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术.算法和一些应用场景,帮助读者培养大数据的技术选型和系统架构能力. 不仅对大数据相关技术及算法做了系统性 ...
- 【涨姿势】网络术语解析—— 大数据
大数据 big data 大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增 ...
- 李涛:深度解读大数据时代的数据挖掘
3月13日下午,南京邮电大学计算机学院.软件学院院长.教授李涛在CIO时代APP微讲座栏目作了题为<大数据时代的数据挖掘>的主题分享,深度诠释了大数据及大数据时代下的数据挖掘. 众所周知, ...
最新文章
- asp.net的三层架构图
- python直方图均衡函数_Python中的自适应直方图均衡
- Nginx流媒体支持配置
- python 如何引用同一个目录下的另一个py文件
- python如何统计累计每日的人数‘’_Python数据分析2019陕西高考(理工)成绩及填报志愿...
- python 列表(list)去掉末尾的0或其他某个字符
- 求N个数的最大公倍数
- servlet 验证生命周期过程调用方法的次数
- can硬件结构和工作原理_汽车CAN总线工作原理及测量方法详解
- 零基础入门渗透测试教程
- BZOJ_P3110 [ZJOI2013]K大数查询(线段树+整体二分)
- 群晖黑科技docker套件_群晖Docker玩法
- html5对锚的更改,HTML5之锚链接
- “指尖上的中华”非遗国技互动展亮相上海徐家汇站
- 微信扫码登录只能填一个授权回调域问题
- C语言中##和#的作用
- matlab plot fplot函数
- 生产者/消费者模式的理解及实现
- 网络流24题之太空飞行计划问题
- delphi 11(10.5) 来了
热门文章
- dell 如何给raid分区_什么是RAID技术?
- 如何使用cmd进入打印机选项_cmd调用设备和打印机
- ubuntu查看cudnn是否安装成功_深度学习之目标检测系列(0) -ubuntu18.04+RTX2080Ti+cuda+cudnn安装...
- 广东白云学院计算机老师,广东白云学院 计算机系 余永权老师简介 联系方式 手机电话 邮箱...
- 利用全局数据实现数据通信
- mysql复制架构迁移到pxc_mysql复制(高可用架构方案的基础)
- 三包围结构的字是什么样的_手帐排版的高段位秘诀:运用艺术字丨大咖分享
- 有没有测试水泥稳定性的软件,水泥稳定碎石土7天无侧限抗压强度制件(参考模板)...
- r语言向量代码如何创建函数c,R中向量基本操作:创建、运算、访问
- C语言指针是什么?1分钟彻底理解C语言指针的概念