大数据架构师该做到的

https://www.processon.com/view/5c3e0543e4b0db2e59364112?fromnew=1#map

软实力

六:个人素质

1.体系化建设

快速了解一个体系

渠道

专业图书

技术官网

github

processon 里的推荐功能

技术博客

知乎

体系报告网站(参考 数据获取-外部数据-数据报告)

各种行业平台网站

谷歌百度

找朋友聊

加微信QQ群

记录整理

找个工具记录最散漫的疯狂的阅读与吸取

最好用表格来划分横向维度和纵向维度

消除杂音

刨除过程中一些过时的资料或者概念

尽量找原版的设计与理解

快速形成自己的理解

聚合

分类

排序

深入

系统计划

修正策略

发现方向不对了要懂得立即止损

投资视角看公司

商业模式

完整的产品、服务和信息流体系,不完全决定着盈利模式但是衡量盈利模式的基础

简单易懂一句话说明白的模式就是好模式

在产业上下游关系所处的位置

定价权在哪里

企业和客户关系的好坏

盈利模式

探求企业利润来源、生产过程以及产出,对企业经营要素进行价值识别和管理 关注持续力

团队

关注公司的团队架构,工作任务如何进行分工、分组和协调合作 。关注CXO

专一性

创新性

管理者优势

用户来源

关注在特定的公司下他们是如何获客的,获客的效果与方法是否可以持续健康的保持优势

现金流

公司对于内部价值的挖掘和在商业上的资金变现能力

成本结构

成本结构

决定因素

成本产业优化

变现能力

路径依赖

公司内部对主营业务的依赖性,对于新业务拓展的阻碍。在快速调整方向时能动性的高低

烧钱速度

竞争对手

赛道内竞争对手的强弱与个数,竞争对手的资方背景。竞争对手对红海的竞争性与蓝海的开拓性

(赛道)行业特性

垂直行业内的一些特殊关注点和可能发现的价值挖掘点,也是可能构建护城河的点

价值流失

价值守护的能力,包括资产数据 用户,针对于流失的方法策略是否有意识和具体的动作

护城河

抵御竞争者的保护措施

财务效率

边际成本

回报率

品牌效应

天花板

公司所在的行业是否已经进入饱和状态,是否供过于求

关注行业或者需求拐点

关注小行业的大公司

关注新旧势力平衡关系

关注面对天花板公司采取的策略

2.业务破局

了解业务

老板 高管 经理

对钱感兴趣的人肯定对数据感兴趣(财务三张表)

资产负债表

利润表

现金流量表

投其所好

多渠道的了解老板画像

试探数据价值的关注度

换位思考

从他们的角度去考虑他们遇到的困难,不解和所做的决定

不要被他们的思维固化(在其位谋其政)影响你对于数据价值的思考

全面的体系 重要的分级

全面的体系化建设(基于对行业 业务 数据 的宽泛认知) 不赘述

永远要记住摸清主线

按照重要程度(看势)做事情的分级

观察对方的底线(长期)

技术 产品 运营

技术体系初步印象

前端(ios android pc tv) 涉及到埋点日志事情

后端(微服务 链路 数据库) 涉及到业务数据入库和日志收集

掌握全局(局部)数据库

先全面后局部的感觉下数据库设计(如果有ER图提供最好)

感觉下量级与增速

深入了解产品的规划

找到契合点 不要越界

数据价值为主 外层的展现为辅

产品方向的数据价值多数来自C端 所以 推荐 广告 用户画像等为主 不同的行业考虑下特性应用(O2O IOT 新零售 AI的落地应用)

拿出诚意才会得到配合

站在开发者角度去尽量减轻他们的负担

日志与埋点的配合

业务数据入库配合

底层运维支持配合

技术层面的分享带给别人更多理解相关技术的机会

是否需要数据产品经理

涉及到产品规划和业务赋能的最好有数据产品对接

关于数据报表分析的最好让数据分析人员进入对接一线

销售 业务 财务

良好的沟通从兴趣开始

数据价值来源于解决B端面临问题

是否能提供有价值的数据让业务跑得更快

能否提供销售更直接的客户服务数据

财务的事情佛系对待

合适的机会跟他们一起开会,反复强调的内容里面就有重点和痛点

多花时间研究他们的工作流程

流程最能体现价值(优化 提速 转化 效率)

接触工作流程中可以更深刻的理解业务

关键指标一定会有所提及(不懂找资料学习再沟通) 绕不过的钱

记录关键指标 自己先琢磨在找懂的人沟通

遇到不分享的可以先想办法解决他的一些问题,无论大小,展现诚意。记住自己的目标

分析痛点

将痛点归类(部门 角色 数据源 数据价值)

归类后痛点间的关联关系找主线

能解决的痛点才是痛点

缩小范围解决头部需求反手解决次类需求

痛点案例

基础数据指标与总体和各部门的KPI跟踪

流量广告投放优化问题

潜在用户挖掘与运营转化问题

用户深度运营模型问题

用户流量扩张和用户粘性问题

羊毛党风控问题【成本优化】

如何快速成交问题【效率转化】

多单率,交叉消费,多场景消费问题

竞品商家数据的融合

数据和用户流失和丢失问题

专注行动

象限法(重要紧急四象限)

优先处理 重要且紧急 紧急不重要的

阶段性的处理重要不紧急的(这种事情要记录在本本上)

行动前的影响与价值预估

可能对其他部门或人造成的工作加重减轻与正负面影响

此行动能得到的可能价值(对需求方 相关人 团队 自己)

可拆解的任务才能行动

行动计划保证在一个可控范围内(人员 时间 资源 )

任务的串并行尝试

人员维度的安排

时间维度的安排

行动中的修正与反馈

寻找一个反馈对象(最好是需求方)

修正来源于对结果的不可控(保证损失最小)

拿到结果一定要说话(不要当哑巴 付出得到回报天经地义)

打算说给谁听

准备好PPT(参见玩转keynote)

时间地点

3.数据解读

考虑受众

想要说给谁听是重中之重

了解对方的工作特性用类比方式的去阐述数据

实事求是 轻易不下结论

全局意识

局部业务专研分析思维

小心求证,在给出数据前多做检验

会看数据

维度-指标-特征-缺失-差值-聚合-分类-排序

比率-中数-众数-方差-维度相关性

多维度的去思考和验证

寻找数据点(点) - 寻找主数据(线) - 串联数据的顺序关系(面)

要有全局意识和局部业务专研分析思维,理解金字塔原理,自上而下表达,自下而上思考,从上提出疑问,从下寻找答案

4.工具利用

时间管理工具

Omni Focus

Tyme2

时间四象限

重要且紧急

重要不紧急

紧急不重要

不紧急不重要

快速记录工具

备忘录

Wiki

Macdown

扩展思维工具

MindNode

Processon

学习成长工具

优质微信公众号

人人都是产品经理

知乎

5.落地执行

落地能力

站在对方去思考

会讲故事让一件事情的参与者多方受益

角色设定 一定要在落地的时候事情是给哪个角色制定的,没目标群体的事情落地了也没用

计划时间点里程碑要明确

执行能力

时间管理

对于每一步的执行时间要有清醒的认知,到了时间点完不成要想后面的进度和对应方案

执行计划的时间点不要做太多的冗余也不要完全不留 短期的控制在10%左右的增量

同步进行的事情也要分清楚优先级

在一定的考虑内 周末也是用来buffer的

要清楚团队的有效工作时间范围,上午?下午?晚上?人不是机器总是要在某个时间段休息的

沟通反馈

要明确细分点的负责人 要巧妙的跟进进度

接受不完美

这个一定要接受,架构不完美可以完善,速度慢可以优化,产品功能完成度超过80%即可

接受了不完美不代表不朝着完美的方向努力,快速迭代项目分期是不错的解决方案

抓住重点80%

分清主次,没有任何的产品或者功能或者技术是满足所有人和场景的

要清醒的认知什么是对公司有价值的 什么是对团队有价值的

6.清醒复盘

复盘前的思考

为了解决什么目的,如果没想清楚不需要复盘

复盘的人员范围

时间控制

何时复盘

不要形式主义,在出现问题后记得一定要复盘

当信心缺失

当项目受挫

当可能骄傲自满

避坑总结

7.玩转keynote

确定主题与讲述思路

解决痛点模式

开篇直接从场景开始带出痛点

然后讲述痛点的原因 别人如何解决 我们如何解决

具体的方案落地执行与风险点

突出主题模式

体验报告模式

融资招商模式

数据报告模式

流程讲解模式

技术分享模式

讲述靠说不靠堆叠

言简意赅

归纳总结

利用模板来快速制作和辅助思路

参考模板

Layouts for Keynote(App Store有售)

PC6合集 http://www.pc6.com/mach/macmuban/

辅助思路

当有些思路阻碍可以看看模板上被人是如何处理和展现的

运用模板的特殊元素来装扮自己的文案

基础色调选取与排版建议

色调选择

多用过度色 原则上整体别超过5个

颜色可以用吸管 从浅入深或由深入浅波动选择

黑白灰为常用过度配色

分清极暖色 极冷色 暖色 冷色 微暖 微冷

色彩的对比 平衡 混合 多练习

排版建议

建议用“细黑”的字体,比如冬青黑体,华文雅黑,微软雅黑light等

节奏感:尺寸大小,上下位移,旋转,间距,就是不能让文字之间稳当地排在一起

巧用各种图形 可以更形象化的让人理解

大纲最好列在每页的面包屑上

巧用动画

8.行业关注

多读报告(参考 数据获取-外部数据-数据报告)

专业领域

大数据行业发展与新技术更迭

算法paper

开发领域新技术

业务领域

行业业务特性

产品角度

运营角度

兴趣领域

IOT

新零售

七:技术能力

系统工程

前端

后端

数据库

系统功能方向

CRM

ERP

CMS

BOPS

商家后台

......

数据分析

算法应用

回归算法

神经网络

SVM(支持向量机)

聚类算法

K-Means

DBSCAN

......

机器学习

有监督学习

决策树

朴素贝叶斯分类器

最小二乘法

逻辑回归

支持向量机(SVM)

无监督学习

聚类算法

主成分分析(PCA)

SVD矩阵分解

独立成分分析(ICA)

增强学习

降维算法

推荐算法

基于物品内容的推荐

基于用户相似度的推荐

其他

八:产品与运营思维

产品方向

B端(在数据价值里面已经有说)

C端(在数据价值里面已经有说)

运营方向(垂直人群 +营销场景)

品牌运营

渠道

公众号

小程序

微信官网

地推

纸媒

地铁

KOL合作

品牌融合合作

品牌跨界 品牌和场景跨界

品牌基本面

讲故事 不讲故事

营造感觉 营造氛围

视觉VI

品牌代言人

媒体策略

大水漫灌

精细化投放(例子)

传播策略

场景化

裂变分享(例子)

场景化植入

团组操盘

预算跟进

市场运营

市场大盘

竞争对手

商家

行业

品牌

内部效率

策略方案

预算申请

流量运营

推广投放

会员体系

用户增长

用户运营

价值 保证基本的活跃和贡献

价值的定义和活跃的定义

价值参考标准

做指标的评分加权都找到重要的价值维度

等级划分(案例)

等级特权(案例)

数据指标

基本指标(示例)

注册 登陆 搜索 下单 购物车 等

活跃

日/周/月 活

流失

复购

付费

深度(漏斗)

留存

生命周期

运营策略

制定目标

策略节奏

集中营销

精细化分群 针对不同群体做不同的策略

策略模型(案例)

核心目标及价值营销

裂变计划

方法论(案例)

效果评估

用户分群(案例)

产品运营

内容运营

活动运营

人性的把握

子主题

商城运营

商业变现

九:团队建设管理能力

1.遇见对的人

寻找综合素质能力高的人 培养副手

寻找技术能力强的人 培养技术核心

寻找潜力强的人 培养发展核心

寻找能主动承担责任有责任心的人 培养团队扛把子

2.人尽其才

组团队

差异化

重培养

3.上通下达

不要让自己成为瓶颈

将重点的项目让下属有露脸的机会

4.评级与晋升

5.拒绝沉溺(不要给鱼)

言传

体系化知识输出

团队分享会

身教

方法论的输出

完整的示范一次

要明确下属他需要做的事而不是事事都亲自动手

6.老司机别翻车

容忍与控制

不要触碰底线

没有什么是烧烤不能解决的 如果有那就两顿

十:人生开悟之路

1.平衡之道

规划VS变动

领导VS下属

个人VS团队

资源VS价值

家庭VS工作

2.破除心魔

以结果导向

理论上个人感受会是结果导向的障碍

结果是个大家相对一致的预期结果

接受一家公司代表要融入一种文化

是否喜欢是个很重要的分水岭

无论什么企业文化都会以结果为导向

综合评定自己的容忍度

敲碎or划清边界

阻碍目标的大多都是边界内自己要做或者推动的

多维度的看待事情

不要在不同纬度观点下讨论事情 这样容易产生无谓的争执

当一种角度理解不了某些人或事的时候那就切换下角度

对一个事情或者一个人的评判一定不要单纯的一个角度下结论

同样的维度之间切换自如有助于你讨喜

信任之路且行且珍惜

信任建立在共同的利益之上

道德沦陷还是底线失守

改变自己,做自己认为恶心的事情是不是就是道德沦陷

底线是一个恒久不变的还是一个根据自己的发展阶段 家人 事业 朋友动态调整的

3.推荐书籍

技术类(不包含理论与技术框架)

《数学之美》

《数据仓库工具箱:维度建模的完全指南》

《美团机器学习实践》

《数据挖掘与数据化运营实战 思路、方法、技巧与应用》

业务类

《无印良品的改革》

《增长黑客》

《智联网》

《流量池》

《浪潮之巅》

《京东平台化数据运营》

《智能商业》

管理与心理学

《原则》

《乌合之众》

《说谎》

《策略思维》

《卓有成效的管理者》

《九型人格》

《影响力》

硬能力:一.平台建设 二.数据搜集 三.数据价值 四.数据安全 五.质量保障

软实力:六:个人素质 七:技术能力 八:产品与运营思维 九:团队建设管理能力 十:人生开悟之路

硬能力

一:平台建设

1.行业平台(走马观花)

大平台

谷歌云

亚马逊云

阿里云

腾讯云

网易云

华为云

小平台

国云

国双

青云

勤思

专业工具平台

易观

海致BDP

永洪

APP分析平台

mix panel

growing IO

神策

诸葛 IO

2.技术选型(维护成本)

CDH

HDP+HDF

MAPR

Transwarp

cloudera hortonworks 新平台 CDP

3.平台架构(只谈用法)

HDP Core(平台核心)

Hadoop(基础存储计算)

HDFS分布式数文件存储

MR批处理

Yarn(基础资源调度)

Oozie(任务调度编排)

平台调度的基础保障

hadop 各种任务的使用与调度

对比 Azkaban Airflow

Slider(调度支持 新版已经集成yarn)

Enterpise Data Warehouse(企业数据仓库)

Pig(基础脚本服务)

用类sql语言保证mr执行顺畅

pig latin 的执行环境

Hive(数据仓库存储)

基础数据仓库(ods gdm dw app dim)

基础ETL的运行实例

OLAP的数据存储(kylin)

各种数据的hive外表用于查询

对比impala

Druid(adhoc方案 实时多维查询和分析)

Tez(简化增强hive)

简化和优化hive执行局于流程

缩小hive 执行时间

Sqoop(数据导入导出工具)

定时数据导入

定时数据导出

对比 datax kettle

Data sclence(数据科学)

Spark(内存通用并行计算)

flink

Spark sql(结构化数据处理) Spark streaming(spark流式处理)

实时数据计算

数据指标监控报警

Zeppelin(界面分析挖掘工具)

基于R和python的单机界面使用工具(分析挖掘)

基于spark kafka 的界面操作工具

基于预测数据的使用与展现

Operational data store(操作KV存储)

Hbase(kv数据存储)

binlog业务数据存储

日志数据存储

基础数据查询

Phoenix(hbase 类sql查询)

基于hbase的数据查询

基于habse数据的表建立

Securlty governance(安全治理)

Knox(鉴权工具)

数据的权限鉴权通道

平台跟外部的出入口

Ranger(权限管理工具)

架构下各组件的权限管理

记录操作日志到solr

对比 Sentry

Kerberos(认证)

Atlas(元数据溯源与数据治理工具)

大数据平台下各种操作的元数据记录

数据打标签(对于维度 指标 ETL等)

可查询hive storm spark sqoop oozie nifi 元数据,可自定义实现自己的需要查看和维护的工具

数据流转流程的图像化展现

元数据操作记录与各种信息查询

Stream procressing(流式计算)

Storm(实时数据处理分析)暂不用 spark streaming 替代

Kafka(分布式发布订阅消息系统)

MiNiFi(边缘数据处理)

Streaming Analytics Manager (流式数据处理界面工具)

拖放可视化设计,开发,部署和管理流式数据分析应用程序

进行事件关联,上下文衔接,复杂模式匹配,分析聚合以及创建警报/通知

Operations(平台运维工具)

Ambari(大数据平台管理工具)

管理部署各个大数据平台组件(改动 不在维护的除外)

平台数据监控收集与展示

管理各个组件版本

子主题

Ambari Metrics(监控平台各类服务及主机的运行情况)

Ambari Infra

对比 Ganglia、Open-falcon、Prometheus、Zabbix

Zookeeper(基础分布式保证工具)

整体的消息一致性可靠保障

协调分布式资源

Solr(搜索应用 操作日志存储)

hadoop操作日志存储查询

ranger操作日志存储查询

audits数据存储查询

Data operation platform(数据操作平台)

NiFi(数据 ETL 数据流处理)

日志清洗 业务数据入库

基础数据(mysql binlog业务库 )ETL

部分外部数据

自定义数据接入方式

自定义数据流程处理

数据输出出口

对比 StreamSets Data Collector

NiFi Registry(NiFi版本管理工具)

Hue(大数据交互界面平台)

数据查询操作入口

调度配置和使用入口

数据上传入口

ETL操作入口

Data visualization(数据可视化工具)

Superset(数据分析界面工具)

挖掘分析的界面展现

特定场景下(finebi满足不了的) 图表展现

FineBI(BI界面分析工具)

报表数据可视化

部分OLAP分析

Fine Index

FIne Direct

现场数据实时展示

(Cboard) 主用于数据导出

数据导出邮件配置入口

finebi 外的数据展示

Metabase

后续直接用来对接运营产品的数据交互工具

支持问题模式,支持对数据进行标记

对比 Saiku Tableau Qlikview

自主开发

Echarts

inMap

datav

OnlineAnalytical processing(OLAP解决方案 adhoc)

Kylin(MOLAP方案)

维度间交叉分析

构建过程基于hive集群不需要单独搭建

数据存储于hbase集群,主要消耗磁盘

Elasticsearch

横向可扩展,高可用 分片机制

单集群,索引缓存在内存中,单节点易造成内存溢出

不支持复杂sql,无法实现关联统计分析

Presto(MPP-SQL交互式查询引擎)

多数据源(Hive,Hbase,RDBMS)

支持标准SQL 不支持UDF

对表的连接以及 group by操作有比较严格的大小限制

对集群结点的内存和CPU消耗较大

HAWQ(SQL on Hadoop)

符合ANSI SQL规范并且支持SQL 92、99、2003 OLAP

包含关联子查询、窗口函数、汇总与数据库、广泛的标量函数与聚合函数的功能

TPC-DS针对具有各种操作要求和复杂性的查询定义了99个模板(例如,点对点、报告、迭代、OLAP、数据挖掘等)

HAWQ使用Apache Ambari作为管理和配置的基础

PostgreSQL (单机ORDBMS)

天生就是为扩展而生的,可以在PG中用Python、C、Perl、TCL、PLSQL等来扩展

强大 SQL 支持能力和非常丰富的统计函数和统计语法支持

hash join、merge join、nestloop join的支持方面做的较好

GreenPlum(MPP架构升级版PostgreSQL)

基于PostgreSQL

采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性

建立在实例级别上的并行计算,可在一次SQL请求中利用到每个节点上的多个CPU CORE的计算能力

解决大问题而设计的并行计算技术,而不是大量的小问题的高并发请求

HashData(SQL on Cloud)

托管于云平台,用户不再需要为基础设施投资,不再需要调优运维,仅为您使用的计算资源买单

分布式架构,根据负载快速扩充计算能力,实现高性能计算,满足用户交互式查询的需求。

云数据仓库,针对云平台订制设计。利用云计算的优势,实现数据仓库的高可用、快速恢复、弹性扩容

ClickHouse

列式存储数据库,数据压缩

分布式并行计算,把单机性能压榨到极限

可以不依赖hadoop平台

关系型、支持SQL

TiDB(没研究 美团用的多)

Graph database(图数据库)

Janus Graph(图数据库引擎)

Dgraph(事务性的分布式图形数据库)

Neo4j(NoSQL图数据库)

ArangoDB(NoSQL数据库)

4.资源申请

基准测试

资源预估(基于业务存量与增量)

理解各组件的CPU IO 内存 硬盘 带宽的特性

硬件知识(RAID 存储加速 存储接口等 )

资源预判

CPU

内存

带宽

千兆

万兆

硬盘

RAID 0 1 10 5

SSD HDD FDD SATA

转速

数据增量

5.日常维护

bigdata devops

服务优先级

中高

服务耦合关系图

服务高可用

目前已经高可用的服务和组件

需要后面做到高可用的服务和组件

不需要高可用的组件和服务

平台规划

现有集群

硬件拓扑图

硬件资源列表

服务配置图

目前软件使用列表

软件拓扑依赖关系图

运维平台管理关系图

未来一年集群

新增业务场景和工具的调研

资源利用率核查 资源瓶颈判断

服务与资源保障

平台 安装 升级 降级 维护

平台监控报警

服务监控报警

灾难演练

测试环境

操作规范

权限授权

瓶颈判断

基于需求的平台二次开发

组件版本关注与升级

各种疑难杂症修复

环境维护(正式 测试)

6.技术调研

大数据相关

机器学习

IOT相关

边缘计算

二:数据搜集

1.公司内结构化数据

增量

全量

拉链

binlog

接口

kafka对接

2.公司内非结构化数据

小程序

微信小程序

头条系小程序

支付宝小程序

日志

接口

内部埋点

后端埋点方案

无埋点方案

url规约系统

用户级别

版本跟踪

页面级别

块级别

事件级别

第三方埋点

GA

百度

友盟

其他

搜索

其他

视频图像

图像帧提取

图片压缩转制

excel

格式化规约

约定上传时间方式版本

文本

NLP

格式化关键信息

存储源文件但废弃无用信息

3.外部数据(非公司IT支撑)

爬虫平台开发利用推进

API对接

销售使用的外部工具

商家查询平台

启信宝

企查查

天眼查

赤狐

CRM工具

运营使用的外部工具

各种广告平台

广点通

达摩盘

知乎DSP

今日头条系

百度系

微博营销工具

......

各种流量平台

各种统计分析平台

WIFI 探针类

分类

WIFI

BLE

Zigbee

蓝牙

算法

信号强弱

围栏

人脸视频类

faceid 设计

图片帧

4.外部数据

数据报告

199IT(100+)

艾瑞(100+)

IT橘子

国家互联网中心

恒大研究院

亿欧智库

易观数据

中国通信研究院

腾讯数据实验室

阿里研究中心

商业合作

数据交换

专项购买

流量互补

竞品数据

分析竞品列表

关联品牌

关联人物

关联商家

热点主题

讨论度

新闻动态频率

正负面情绪

风险信息 商业环境

爬虫获取商家 商品 评论等业务数据

从一些公开平台获取统计数据

新媒体

微信公众号

微博

知乎

行业数据

大盘数据

行业动态数据

统计数据

数据资讯

大行业

本行业

其他

三:数据价值

1.数据清洗

日志数据清洗(UDF spark straming )

业务数据清洗

维度数据抽取

数据缺失与修复

NLP语义化

图片识别等

2.数据仓库

分层

Operational Data Store(ODS) 原始操作数据

General Data Mart(GDM)清洗后通用数据

Data WareHouse (DW)数据集市

用户

行为

商家

商品

......

Dimension Data(DIM)维度数据

规范

权限规范

ETL规范

调度规范

ETL

元数据(Atlas查看和标记)

业务元数据

ETL元数据

数据元数据

3.统计报表

分类

维度

指标

数据可视化

5.数据报告

抓重点业务或关键路径

体系化叙述

重点数据解释

编写参考 玩转keynote

4.商业智能

关键指标与转化

博弈分析法(找到博弈方,找到博弈方的冲突与矛盾)

利益方

行动

信息获取

损失

均衡点

优化

策略

收益

企业价值评估法(找到利益保持或者增长的关键点或者业务流程量化KPI) 上图参考案例

行业参考(标准行业的指标体系)

保证少而精 结果导向 可衡量 一致性

影响业务决策

商家风控

用户风控

影响运营决策

AARRR模型

RFM模型

运营增强工具

用户分层理论

影响老板决策

全局跟踪报表

关键节点转化数据跟踪

市场大盘的搜集与预估

竞争对手信息挖掘

效率周期的提醒和关注

业务预测与告警

6.业务赋能

数据预警

数据预测

数据查询

对运营支持的数据工具

对业务销售支持的数据工具

7.数据产品

2B产品

行业标准与数据共享

垂直行业指数项目

B端客户数据价值展示

2C产品

结合产品规划

用户信息(关系)打通

结合产品2C的优惠券 通知 推送等

推荐

搜索

风控

舆情

用户画像

反作弊

8.场景探索

IOT场景

AI场景探索

数据交换场景

规则漏洞-业务场景漏洞-效率优化

四:数据安全

1.企业数据分级

普通

基础业务数据

用户产生的非免敏感数据

敏感

用户信息

商家信息

机密

合同

推广

活动

订单

绝密

财务

战略

融资

2.数据隐私保护

公众数据

Personal Identifiable Information(PII级别)

用户唯一标识(因公司而异)

核心业务数据订单 优惠券 等(掩码)

3.平台权限控制

数据导出权限控制

账号跟踪与密钥更换

统一LDAP账号建设

数据使用申请

4.数据流程规范

需求对接规范

数据订正规范

提取数据规范

业务数据变更修正

五:质量保障

1.平台与资源保障

平台监控

服务监控

调度监控

计算监控

2.数据质量

抽样检测

数据准确性跟踪

业务一致性

3.统一口径

专人负责业务领域模型

数据仓库主题域宽表建设

需求对接明确责任人和需求对接人

4.故障跟进

钉钉报警群的建设与跟进

值班制度

大数据架构师该做到的相关推荐

  1. 数据中台已成气候!大数据架构师如何站上风口?

    你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...

  2. 这可能是程序员学习大数据架构师的最佳之路!另附送1024G学习资料!

    随着大数据时代的到来,[这次国家教育部的改革要动真格了],JAVA程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢? 人生别只顾低头拉车,更要抬头看路! 国家教育部全面改革:大数据领衔 所有高 ...

  3. 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术

    大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...

  4. 大数据架构师指南 pdf_ZTE十年大数据架构师教你:高效搭建企业IT系统架构,超越CTO...

    前言 如果你是一名IT工程师,首席技术官( CTO)希望你在一周内提交一份公司未来IT系统基础架构的初步建议;如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向... . ...

  5. 【成为架构师课程系列】作为一名大数据架构师该掌握的技能清单:

    目录 大数据架构师该掌握的技能 硬能力 软实力 大数据架构师该掌握的技能 主要分为两块 硬能力 与 软实力 一.平台建设 <

  6. 大数据架构师深入学习视频教程

    大数据架构师深入学习视频教程 大数据分析你要掌握概率统计学的知识,学会数据分析工具的使用.比如MATLAB,这个工具非常强大,掌握起来有些难度.但不是说你掌握了这个工具就能胜任数据分析师的工作了.你还 ...

  7. 奈学教育《大数据架构师》课程大纲

    深度剖析了各个基础技术的源码(ZooKeeper.Hive.Spark.Flink.Hadoop等),对这些基础技 术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面, ...

  8. 大数据架构师拿年薪50W的方法诀窍

    什么是大数据架构师: 围绕大数据系平台系统级的研发人员, 熟练Hadoop.Spark.Storm等主流大数据平台的核心框架.深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并 ...

  9. BATJ大数据架构师带你领略实时计算框架Flink的魅力!

    你是不是经常体验或看到以下这些场景? "小张,你看能不能做个监控大屏实时查看促销活动销售额(GMV)?" "小王,我们现在搞促销活动能不能实时统计销量 Top3 啊?&q ...

  10. 大数据架构师在关注什么?

    大数据架构师在关注什么? 在一个大数据团队中,大数据架构师主要关注的核心问题就是技术架构选型问题.架构选型问题一般会受到哪些因素的影响呢?在我们的实践中,一般大数据领域架构选型最受以下几个因素影响: ...

最新文章

  1. php 正则 最后一个字符,关于正则表达式:在PHP中查找字符串中的最后一个字符...
  2. Linux服务器上挂载window本地iso镜像文件的方法。
  3. iOS开发③UIView
  4. saltui试用遇到的问题
  5. 查询方法android的CursorLoader用法小结
  6. 牛客网数据开发题库_数据库刷题—牛客网(21-30)
  7. 单调栈 leetcode整理(一)
  8. Eclipse JPBC library安装及测试
  9. 每晚有1700万人逛淘宝但什么都不买,马云:我们仍可以靠他们赚钱
  10. python中的ch表示什么_材料符号里面的 CH表示什么意思 : ( )
  11. 崛起的 Python,真的影响了 76 万人?
  12. Nodejs实时通讯 在线聊天室(Socket.io)_收藏
  13. h5 iframe显示不全_干货|H5 唤醒APP小记
  14. linux tomcat 7.0下载 64位,tomcat 7.0下载
  15. 手机通话记录重复显示怎么处理_华为出现重复联系人 - 卡饭网
  16. hⅰgh怎么读音发音英语_gh和ph的发音
  17. oppo文件管理android在哪里,OPPO手机中缓存视频文件路径在哪里查看?怎么查看?
  18. power bi 如何构建不同年份的月度对比_以Google Analytics为例,盘点BI产品四大要素...
  19. STM32----FLASH和EEPROM的区别
  20. 解决微信小程序自定义tabbar跳转页面图标闪动问题

热门文章

  1. 快商通智能客服云平台、金融反欺诈方案获中科院互联网周刊金i奖
  2. 图像处理库Pillow的使用
  3. 数据结构课程 -- 学期总结
  4. linux firefox flashplayer 升级,在deepin中更新火狐浏览器firefox和firefox-flashplayer的方法...
  5. When Does Self-Supervision Help Graph Convolutional Networks?
  6. 怀旧--这些游戏你都玩过么?还记得么?
  7. 屁孩君儿子讲解 2022 【例4.7】最小n值
  8. 61家第三方收单机构、247家商业银行、70家农商银行及119家村镇银行收单机构号
  9. 小学计算机课题研究报告,小学信息技术自主学习方法探究研究课题研究报告
  10. win10怎么更新显卡驱动_如何禁止win10自动更新显卡驱动