架构图从下往上看,从数据采集和接入为始,抽取到计算平台,通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。

基于公共数据中心在上层根据业务需求去建设消费者数据体系、企业数据体系、内容数据体系等核心数据资产,深度加工后,数据就可以发挥其价值被产品、业务所用。通过数据服务平台“OneService”提供统一数据服务。

目前在这个服务之上正在构建两个智能化平台:数据智能平台和BI平台,数据智能平台让智能服务更便捷的集成到业务流程中,BI平台则让数据分析更敏捷高效。

数据应用层,每天有上万内部员工在使用内部的数据产品。在商家端 ,“生意参谋”累计服务了超2000万商家,帮助商家做一站式经营全链路分析。“数据银行”服务了七千多家头部的品牌,帮助品牌商从流量运营升级到消费者运营。云上通过Dataphin与Quick BI核心中台产品,服务数千家大型企业和机构,其中包括央视网、蓝光地产、大润发、华硕等知名企业。

这一数据应用链路过程中的数据构建、管理、实体连接、标签萃取、立体画像、数据服务能力,可以通俗地理解成阿里数据中台的能力,整套体系包含了方法论、组织和工具。“采建管用”是贯穿了整个应用和数据走向,所谓“采”,即数据采集和同步;所谓“建”,即数据开发和构建;所谓“管”, 即数据管理;所谓“用”,即数据应用和分析。

统一采集管理

经过多年沉淀,DT具备站内流量采集、广告外投采集、爬虫采集和三方授权采集 等多种采集能力,并通过采集管理平台对采集全流程进行统一管理,有效识别作弊流量,保证数据质量和数据安全。

阿里日志平台

阿里数据平台旗下的官方流量数据采集管理平台,从Aplus和UserTrack采集端到端体系到实时计算、离线公共层建设,阿里日志平台提供全链路的流量数据解决方案以及从埋点申请、可视化埋点实施、验证、发布到监控的全生命周期管理。

UT/Aplus

目前已覆盖集团内所有APP,具有数据到达率高,性能好,稳定性高等特点,每天上传万亿条日志,已经成为阿里巴巴大数据基础设施的重要一环。

AplusX长链采集技术

阿里巴巴全双工的采集体系,一次建连,所有请求全部复用,具备多路复用、高性能、双向通讯、端到端攻防、不阻塞业务等特性。

可视化埋点

可视化埋点改变传统的代码埋点的开发模式,统一采集规范和采集技术,实现埋点配置化,降低埋点成本,保证埋点质量。

外部数据采集平台

面向全集团的爬虫采集平台,提供爬虫基础设施建设(包括IP代理池、真机、登录态)、智能接口服务、浏览器渲染、爬取策略设计、脚本开发、数据落库等全系列服务,极采平台提供外部三方数据的采购、资产管理、数据服务。

数据建设和管理

OneData:阿里大数据研发体系和工具
采集的数据经过ODS、DWD、DWS、ADS的数据分层服务进行统一模型设计和计算加工。OneData这套标准化、体系化的大数据建设体系可以帮助大数据团队高效,高质量的建设自己的数仓或数据体系,达到去除数据烟囱式重复建设、降本节能提效。

赤兔流计算平台

时代的竞争要求业务反射弧越来越短,除离线数据外,实时数据计算也是不可或缺的一环。基于Flink和OneData体系构建集团实时数据公共层和流计算开发平台,为集团和云上客户提供流计算服务。目前内部可以通过赤兔贯穿实时数据完整链路。

数据资产管理平台

全域数据建设好之后会面临两个难题:如何组织全域数据方便用户找到,以及如何管控数据,不能重复造轮子,无效的数据如何方便快捷的进行下线从而达到有效的成本管理。团队多年深耕数据资产管理平台,为用户提供多维度数据资产分析与评估,自动化、智能化的数据资产治理,全链路数据资产监管与价值追踪,全方位资产运营工具触达数据消费者,赋能中小企业客户,助力企业实现数据的资产化、管理自动化、商业智能化。

核心数据资产

全域数据资产中的核心资产建设,一直在进行。大OneID体系通过大规模图算法,清理整合多源异构数据,实现了包含个人、位置、企业三者的千亿级别实体的识别和链接,让oneID做到连接时间与空间。

OneID,OneID 是阿里数字经济体在自然人数据上全域融通后的重要资产之一,包括自然人多维度ID,核心人生标签、社会关系,形成了一套跨屏、跨域的自然人身份识别、行为追踪、关系判断系统,经过三代持续升级,已成为全域营销必不可少的资产要素。目前已覆盖了97% 以上的中国网民数据的实体识别和链接。
以“企业”为中心的账号体系OneCompany,实现千万级企业实体识别和连接,目前覆盖7000W家企业,链接1亿+工商企业,企业特征标签。为toB业务打下坚实基础。企业数据资产为核心,通过数据、服务、产品的方式,提升B类业务场景效率&效果,具有阿里特色的智能数据服务体系。
OneLocation, 基于地理位置的数据洞察,覆盖POI、人口、客流等数据的一套核心资产,实现位置数据在经济体内的全面融通,在B端提供基于位置的深度洞察和智能决策能力,提升位置相关运营效率;在C端提供全面的位置感知能力,提升用户线下体验。大家熟悉的盒马选址、团圆打拐项目就是OneLocation很好的应用CASE。

统一数据服务OneService

基于阿里计算平台,建设数据中台统一服务出口。以集团数据公共层(统一模型)提供上层应用接口依始,提供数据查询服务SmartDQ,复杂数据查询服务(承接集团全域自然人中心(OneID)、用户画像(GProfile)),实时数据推送服务Ipush 三大特色数据服务,目前已覆盖淘系、CBU、风控 、 菜鸟、钉钉、高德、飞猪、优酷、阿里妈妈等全域数据。

BI平台技术

从QuickBI 和FBI 产品中沉淀的底层技术引擎体系出发构建统一的BI平台,实现前端渲染引擎和后端分析引擎在架构和功能上的融合,提供通用的数据分析和数据可视化能力,作为基础技术底座承载QuickBI、FBI 和其他更多的数据分析产品。

数据智能平台

是数据智能的从生产、管理、服务、应用的一站式平台,核心目的是希望降低整个数据智能在业务中应用的成本,释放数据的价值。实现三大核心数据资产经济体内打通、管理统一化、服务透明化、应用智能化、价值可量化;沉淀和复用数据智能服务能力,高效赋能新零售业务,实现数据智能普惠。

数据产品

►小二端

行业—行业360,为集团行业小二打造的行业级决策数据智慧中枢,通过对行业分析方法进行梳理、沉淀和不断优化升级,对小二在行业问题诊断、行业运营决策支持及行业发展趋势预判等方面进行全方位的数据赋能。根据不同业务主要有行业360、猫超360、进出口360三大版本。

商家—商家360(原鹰眼),致力于为内部运营提供“运营视角的系统性一站式商家(包括集团、品牌和店铺,下同)全链路经营数据分析诊断型产品服务”。

活动—营销活动分析,为集团小二提供大促数据作战室日常实时指挥中枢,基于活动前、中、后全链路提供专业的、实时准确的数据分析产品。

流量——A+,集团统一的全域流量数据分析平台。以页面、小站、活动、APP和资源位等作为切入点,构建宏观概览数据、坑位点击分布、路径分析、成交转化、用户细分等流量数据分析闭环,帮助业务掌握流量现状、定位流量问题和提升流量转化。

通用工具—黄金策和FBI : 黄金策打通数据生产、分析和场景应用的全链路对象分析工具。提供多数据源接入、便捷对象圈选、灵活群组分析和方便系统对接的能力,核心解决帮助用户解决群组分析和数据应用两类问题,帮助构建行业对象运营解决方案。FBI是阿里生态内智能大数据可视化和分析平台,帮助各种角色快速、低成本的获取数据、自助完成数据可视化的搭建、在PC和无线端自由的使用数据;提供报表、Dashboard、电子表格、数据门户、数据产品等各种解决方案。

无线——阿里数据官,是一款面向数据用户的对话式智能数据机器人,通过自然语言交互方式提供智能问答、关联推荐、订阅推送、预警归因等功能。旨在帮助用户方便快捷查找数据、简单直观地解读数据、智能深入地挖掘数据,实现人人都有自己的专属分析师,提高数据查询与分析的效率。►商家端

生意参谋: 生意参谋是阿里官方打造的全渠道、全链路、一站式数据平台,致力于为用户提供经营分析、市场洞察、客群洞察等多样化数据服务,帮助用户全面提升商业决策效率。

数据银行:帮助商家管理在阿里数字经济体内的消费者资产的平台。帮助品牌沉淀消费者和品牌的关系,进行度量并持续催化,放大品牌投入的价值,赋能品牌从流量运营升级到消费者运营。

►云上

Quick BI 专为云上用户量身打造的新一代智能BI服务平台;作为基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台,无缝集成云上多种数据源,拖拽式操作、强大的数据建模、丰富的可视化图表、快速搭建数据门户,灵活的嵌入第三方系统。

Dataphin,以OneData、OneID、OneService为方法论的智能大数据平台,一站式满足用户从数据接入到数据消费全链路的智能数据构建与管理的需求,助力打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系。

∞媒体端

2013年的数据大屏,让媒体、消费者与阿里巴巴第一次在数据层面实现了信息对称,从那以后,数据大屏就成为双11媒体发布不可或缺的一部分。2018年在双11十周年之际,阿里数据团队用最新的可视化与交互手法,诠释了阿里经济体传递的商业与人文的大融合~

数据安全—为数据应用保驾护航

用户对数据安全与隐私保护的重视程度已经变得越来越高;Facebook等企业数据泄露事件的发生、《网络安全法》的发布、欧洲《通用数据保护条例》(General Data Protection Regulation,简称GDPR)的施行,也让各大公司在使用用户数据时,更加注意用户数据的隐私保护。

DT以合规,安全需求为出发点,紧贴业务研究并落地数据安全技术。如差分隐私/本地差分隐私解决数据分析过程中可能出现的个人隐私数据泄露问题;保序脱敏解决公域数据发布、共享中的安全数据脱敏问题;安全多方计算、可信执行环境等数据安全技术,解决多方数据融合场景下可能的数据泄露问题……

差分隐私

Althena数据安全服务平台式数据银行团队基于内部产品矩阵(御膳房大数据开放平台、策略中心、数据银行、数据工厂等)的数据开放业务场景,针对各场景中的安全问题进行一系列理论技术工程研究实践,沉淀出一整套数据安全服务来满足数据查询、数据发布、数据分析过程中的隐私保护,主要覆盖阿里的业务数据(行业及品牌类目相关数据)、客户的个体隐私数据相关保护。数据安全服务平台目前已经接入到集团数据安全服务中。安全服务平台内置人群脱敏、保序脱敏、差分隐私等数据安全服务。

保序脱敏

针对公域数据指数化函数不统一、安全性难以评估等问题。基于密码学保序加密算法的思想,设计并实现多种保序加密/保序脱敏指数化函数,通过配置输入/输出范围、密钥,实现数据脱敏功能的同时,保证脱敏结果的顺序与脱敏前结果的顺序相同,使得脱敏结果仍然具有一定的可比较性。

本地差分隐私

在数据银行的标签上传场景中,用户可以上传自己的数据,通过数据银行进行透视分析。在此过程中,需要针对上传标签实施个体隐私保护。在数据银行中使用了本地差分隐私来解决个人隐私保护问题。

通过本地差分隐私,数据银行可以更安全地支持用户将自己的私有数据和线上数据进行融合分析,更好地帮助品牌商对用户和品牌进行精细化运营,同时平衡了业务和安全之间的需求。在未来新零售战场中可能会出现更多的数据采集和数据融合场景,本地差分隐私可能会进一步在这些场景下得到应用。

总结

数据来自业务,经过阿里数据体系的锤炼最终反哺业务,如此循环往复。未来,通过数据智能的普惠,将会进一步释放数据价值!

【转载】阿里数据技术大图详解相关推荐

  1. [转载]用数据说话 Pytorch详解NLLLoss和CrossEntropyLoss

    [转载]用数据说话  Pytorch详解NLLLoss和CrossEntropyLoss https://www.cnblogs.com/jiading/p/11979391.html NLL_Los ...

  2. 大数据技术Flink详解

    一.有状态的流式处理 Apache Flink 是一个分布式流处理器,具有直观和富有表现力的API,可实现有状态的流处理应用程序.它以容错的方式有效地大规模运行这些应用程序.Flink 于2014 年 ...

  3. 大数据技术Hive详解

    一.Hive 概述 1.Hive 简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类S ...

  4. Hadoop大数据技术栈详解

    一.大数据概述 1.大数据简介 大数据(Big Data)∶指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高 ...

  5. 全民大数据时代已来 阿里数加平台详解

    文章讲的是全民大数据时代已来 阿里数加平台详解,业界流行一种说法,云计算与大数据就是一枚硬币的两面,相生相惜,不可分割.在当下互联网时代,数据的价值越来越受到社会的认可,并在今天,已然成为一种普惠资源 ...

  6. 阿里云物联网平台-数据解析脚本详解

    阿里云物联网平台-数据解析脚本详解 var COMMAND_REPORT = 0x00; //属性上报. var COMMAND_SET = 0x01; //属性设置. var COMMAND_REP ...

  7. 负载均衡原理与实践详解 第五篇 负载均衡时数据包流程详解

    负载均衡原理与实践详解 第五篇 负载均衡时数据包流程详解 系列文章: 负载均衡详解第一篇:负载均衡的需求 负载均衡详解第二篇:服务器负载均衡的基本概念-网络基础 负载均衡详解第三篇:服务器负载均衡的基 ...

  8. 计算机三级网络技术知识点cn,计算机等级三级网络技术考试详解

    首页 > 办公休闲手游 计算机等级三级网络技术考试详解 一.基本知识 1.具有计算机软件及 应用的基本知识 2.掌握操作系统的基 本知识 3.掌握计算机网络的基本概念与基 本工作原理 4.掌握I ...

  9. 交换机最多可以接几个_【技术】详解一个交换机能带动多少个网络监控摄像头?...

    原标题:[技术]详解一个交换机能带动多少个网络监控摄像头? 一个交换机能带动多少个网络监控摄像头?千兆交换机一般接200万网络摄像机能接几个?24个网络头,用一台24口百兆交换机行不行?下面就这类问题 ...

  10. Android网络开发技术实战详解

    <Android网络开发技术实战详解> 基本信息 作者: 朱桂英 丛书名: Android移动开发技术丛书 出版社:电子工业出版社 ISBN:9787121173493 上架时间:2012 ...

最新文章

  1. 文件目录Android SDK目录结构
  2. Python 学习日记 第八天
  3. 解密module_init幕后的故事
  4. Redis数据结构:字典(hash表)
  5. Docker Swarm bind 数据持久化
  6. linux 块编辑,vim中的可视块编辑
  7. html纵向固定导航菜单代码,jQuery和css3响应式垂直固定导航菜单插件
  8. C#LeetCode刷题之#500-键盘行(Keyboard Row)
  9. bat 远程桌面登陆 命令_内网渗透之域渗透命令执行总结
  10. Linux-Ubuntu安装软件
  11. Angular通过CORS实现跨域方案
  12. io里没有driveinfo没有_来福宝宝,愿天堂里没有病痛
  13. Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载][续]...
  14. ElementUI:使input自动聚焦的两种方法
  15. linux下MySQL安装及设置
  16. Winserver AD管理Powershell——GUI 计算机加入域
  17. 三个理由告诉你 为什么社保不能断缴
  18. 1C.小a与星际探索(C++)
  19. 移植wifi无线网卡到arm linux上全过程
  20. 车联网用到了哪些关键技术,未来的趋势是什么

热门文章

  1. [网络安全自学篇] 六十.Cracer第八期——(2)五万字总结Linux基础知识和常用渗透命令
  2. Mac翻译系列软件推荐三:Mate Translate for Mac多国语言翻译工具
  3. 知识答题小程序功能总结
  4. 把hive sql的关键字小写转大写的小程序
  5. canny算法(3)——非极大值抑制
  6. 2022年电子考研经验分享,本科双非,一志愿南航,调剂国科大上岸
  7. STM32 cubemx驱动ws2812b灯条
  8. 1688商品类目API接口-(item_cat_get-获得1688商品类目接口)
  9. 在文档阅读器上为 PDF 文档生成多级目录
  10. [裴礼文数学分析中的典型问题与方法习题参考解答]4.3.1