一、概览

随着全球主要市场陆续出台个人信息保护政策,互联网生态中的数据安全和用户隐私保护问题变得越发重要且日趋严格。

如何在营销场景下安全合规的使用数据,维护在线广告商业模型的核心运作,成为当下广告生态中各企业亟需解决的问题。阿里妈妈一直注重对于隐私数据的安全合规使用,最大限度地保护用户隐私和数据安全。本篇分享阿里妈妈在保护数据安全和用户隐私方向的Data Clean Room实践产品营销隐私计算平台Secure Data Hub(以下简称“SDH”),欢迎阅读交流。

1.1 产品介绍

营销隐私计算平台SDH(Secure Data Hub)是由阿里妈妈提供的一套面向广告引擎、广告主、第三方检测公司在隐私安全环境下进行数据融合、隐私计算、联合建模的Data Clean Room解决方案。

SDH基于多方安全计算(Secure Multi-Party Computation, MPC)、隐私保护机器学习(Privacy-Preserving Machine Learning, PPML)等隐私增强计算技术,立足于广告营销场景,贯穿广告投放的跟踪、采集、激活和衡量的全流程,实现对隐私数据的安全合规使用。在营销场景下的数据处理、人群洞察、投放优化、归因衡量、增效度量、触达监测等流程中严格保障多方数据的隐私安全和数据合规,为品牌提供跨域安全一致的数据决策能力。

SDH已于2022年12月份通过了中国信通院第七批“可信隐私计算”评测,并获得多方安全计算(MPC)和联邦学习(Federated Learning, FL)的基础能力专项评测的两项评测证书。

1.2 核心能力

  • 数据可用不可见:业务方持有数据不出业务私域,通过对MPC元数据管理实现对数据“表级”和“列级”的隐私保护,网络通信中不泄露各方任何隐私保护字段(网络传输数据全部为可见数据,明文数据传输采用RSA加密等多种加密算法),基于SDH的MPC底层计算框架实现了数据可用不可见下的多方数据联合分析计算。

  • 简单易用API接口:SDH提供了SQL的用户接口,向业务用户屏蔽了分布式执行、密码学技术等底层细节,并且SQL学习门槛低、具有完备的问题表达能力,极大地降低了SDH对接的开发和运维成本。

  • 通用营销分析组件:集成多种面向营销场景下的通用型数据转化、联合计算和归因模型分析组件,通过组件化使用支持业务方快速完成人群洞察洞察、归因衡量、增效度量等计算分析,提高开发和分析效率。

  • 轻量化云部署方案:面向不同云环境(阿里云、第三方云、私有云)提供多种轻量化部署方案,部署流程方便简洁,网络打通后即可享有SDH提供的隐私增强计算能力。

二、背景

在广告营销业务场景下,数据隐私问题贯穿整个广告投放的投前、投中和投后的全环节,覆盖广告投放链路的跟踪、收集、激活和衡量的全流程,同时涉及广告生态下的多方角色。如下图所示:

在广告生态中,需要在保障多方数据隐私安全和数据合规的基础上,合理使用数据构建广告系统,维护在线广告商业模型的核心运作过程,解决广告在不同投放阶段的多方数据联合分析和算法联合建模问题,同时合规适配来自个人隐私和数据安全合规性的约束。广告营销场景下的隐私计算问题既是挑战更是机遇,也同样是广告业内一直探索的技术方向。因此在广告营销业务场景中要实现数据的可用不可见,严格保障多方隐私安全和数据合规,并提供完整的数据融合、隐私计算、联合建模的隐私增强分析能力,SDH项目应运而生。

三、技术架构

3.1 系统架构

SDH系统架构分为Console管理、Agent代理和计算引擎三层结构。

  • Console管理:负责基础数据管理和任务调度分发,不涉及业务方数据的存储和计算,由业务方管理、元数据管理、实例管理、权限管理等模块构成。

  • Agent代理:实现身份认证,并提供实例生命周期管理的API,负责运行实例的启动、查询、停止等。

  • 计算引擎:对应各业务方在私域环境中部署的异构执行引擎,负责私域环境中逻辑执行计划的生成和物理执行计划的调度执行。计算引擎可细分为驱动层、调度层、引擎层和存储层,分别承担不同的执行计算能力。

SDH同时提供了SQL的用户接口,利用SQL完备问题表达能力的优势,向业务用户屏蔽了分布式执行、密码学技术等底层细节,极大地降低了SDH对接伙伴的开发运维成本和技术门槛。

3.2 核心原理

3.2.1 元数据设计

为描述“数据可用不可见”能力,SDH对数据的可用性和可见性按照数据列粒度进行了详细的分层定义,包括:

  • 可用性:关联键列属性、分组键列属性

  • 可见性:可见属性、哈希可见属性、分组可见属性、聚合可见属性

3.2.2 执行计划生成

SDH计算引擎基于Flink计算框架实现,在执行计划生成阶段自底向上遍历执行计划,主要包含合法性校验和拆分改写两阶段。

  • 合法性校验

SDH定义了完整的数据可用性和可见性的推导规则,覆盖Flink内置的Operator算子、系统函数和自定义UDF函数。包括但不局限于继承输入列属性、继承可用性、调整列属性等。

在SQL执行计划生产阶段,会优先级完成数据合法性校验。在此阶段,系统会结合输入数据的元数据信息进行数据可用性和可见性的推导及校验,验证满足合法性要求(即满足数据“表级”和“列级”的隐私保护要求)后,再进行SQL的拆分改写,否则任务返回权限不足的报错。

  • 拆分改写

拆分改写阶段自底向上遍历执行计划,从输入数据开始根据数据持有方对执行计划染色,同时对Operator进行改写,最终根据染色结果将执行计划拆分成若干子图(每个参与方对应一个或多个子图)。以下面的SQL任务为例,其中a表和b表分别来自两个业务方,两表的id为不可见字段。

INSERT INTO result
SELECT a.id,
FROM a JOIN b
ON a.id = b.id;

执行计划的拆分改写过程如下图所示,其中Join节点被改写为RemoteJoinProbe、RemoteJoinBuild节点,两节点基于网络通信实现了id字段的密文计算。

3.2.3 密态算子实现

  • Join算子

分布式Join的常见实现包含Sorted-Merge Join、Hash Join,目前SDH中已支持(Shuffle)Hash Join,即两方的数据根据等值条件中的Join Key按相同的规则进行分片,且分片数一致,这样双方相同Join Key的数据Shuffle后必然会分布在相同分片ID的Worker上,双方的Worker基于Hash Join进行连接即可。

Hash Join划分为Building和Probing两个阶段。Building阶段由Build侧遍历数据,对Join Key使用ECDH加密,同时发送给Probe侧请求二次加密,最终生成以加密Join Key为键的哈希表。Probing阶段由Probe遍历数据,同样对Join Key使用ECDH加密,再发送给Build侧请求PSI(Private Set Intersection)求交,从而完成Join条件中等式真值判断。同时为了提升Hash Join计算性能,SDH在Join算子里引入了Bloom Filter,在Probing阶段实现Join Key的预过滤,Join性能有显著提升。

  • 不等式运算算子

不等式真值的判断由表达式执行引擎执行计算,表达式执行引擎是多方安全计算能力的核心。以下面的SQL任务为例,其中a表和b表分别来自两个业务方,两表的id、time、value字段均为不可见字段。

INSERT INTO result
SELECT a.id, a.time, a.value
FROM a JOIN b
ON a.id = b.id
AND a.value < b.value
AND 2 * a.value >= b.value;

Join条件如下:

a.id = b.id AND a.value < b.value AND 2 * a.value >= b.value

当Join实现采用Hash Join时,Join条件中等式的真值会在Hash Join的Probing阶段进行判断,因此表达式执行引擎首先简化表达式,裁剪掉Probe阶段已执行的的等式,裁剪后生成的表达式树如下图所示:

表达式树中的运算节点分为本地明文运算(单侧参与运算)和远程密文运算(两侧参与运算)两类。表达式树执行阶段,两侧表达式执行引擎会按完全一致的后序遍历的顺序同步执行运算。

  • 明密文运算单元

通过使用密码学的相关技术,包括ECDH(Elliptic Curve Diffie–Hellman key Exchange),秘密分享(Secret Sharing),同态加密(Homomorphic Encryption)等,SDH里集成了多种类型的密态算子。SDH中明密文运算单元已支持常见的逻辑运算(AND、OR)、关系运算(<、<=、==、!=、>=、>)、算术运算(+、-、*、/)。并且通过对密态算子的优化,持续提升密文运算单元的计算效率。

3.3 隐私安全保护

3.3.1 隐私保护能力

  • 元数据保护:提供“表级”别的权限控制;

  • 字段级别保护:提供“列级”别的字段可用性和可见性控制,支持针对不同的operator的字段隐私保护属性推导和合法性校验;

  • 数据保护:业务方原始数据不离开本地;同时保障网络传输的数据全部为可见数据(明文数据或加密数据),明文数据传输采用RSA加密。

3.3.2 密态算子能力

  • PSI 算子:SDH实现了基于ECDH的PSI密态算子,在Hash Join的Building、Probing通过ECDH的加密完成Join条件中等式真值的判断。支持百亿数据规模的隐私求交,并通过多种优化手段保证计算准确性和时效性;

  • 密态比较&算术运算算子:SDH基于Secret Sharing封装了密态比较和算术运算算子,在保证计算精度(2的-32次方)的前提下完成亿级别数据量级的密态比较和算术运算。

四、业务应用

UniDesk(https://unidesk.taobao.com/)是阿里妈妈推出的一款品牌数字营销的Working Desk,立足于站外媒体矩阵,服务阿里经济体内部各业务、电商行业和非电商广告主进行站外广告投放和全域营销分析。目前SDH已经和UniDesk完成系统打通,服务集团内部和部分品牌广告主,主要用于对站外广告投放进行人群洞察、联合建模、效果衡量等营销分析。

借助SDH平台的隐私增强计算能力,在双方数据不出私域的前提下通过MPC和FL计算,实现多方的数据联合分析和建模,产出市场洞察和结案分析报告,帮助广告主衡量广告的投放效果,优化广告投放策略。

五、总结及规划

SDH营销隐私计算平台通过MPC元数据管理实现对数据“表级”和“列级”的隐私保护,集成多类密态算子,兼顾明密文计算,基于Flink和密态执行引擎支持明密文计算任务的分布式执行,同时提供以SQL的用户接口和通用型营销分析组件,在保证数据可用不可见前提下可快速实现营销场景下的数据处理、联合建模、效果衡量等的计算分析。此外联邦学习解决方案EFLS(Elastic Federated Learning Solution)已完成项目开源,对营销场景中的大规模稀疏的联邦学习应用有很大的参考价值。

SDH未来将持续推进营销隐私计算平台的建设,基于隐私增强的大数据处理与机器学习建模能力,完善异构环境下的多模式、弹性化部署方案,优化百亿级数据规模的计算性能,支持更高计算复杂度的联合统计能力。以提供营销客户标准Saas产品化隐私解决方案,帮助广告主高效地进行广告营销场景下数据处理、投放优化、效果衡量的隐私计算分析或联合建模计算。

广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH相关推荐

  1. 【阿里妈妈营销科学系列】第八篇:增强分析在营销分析场景下的实现和应用...

    丨目录: · 背景 · 业务场景 · 基本概念 · 阿里妈妈智能洞察系统Autolnsight · 应用场景和案例 · 总结 · 关于我们 ▐ 背景 随着以数据驱动业务增长的发展趋势,"数据 ...

  2. 京东购物在微信等场景下的算法应用实践

    本文根据京东微信手Q业务部马老师在京东\u0026amp;DataFun Talk算法架构系列活动中所分享的<京东购物在微信等场景下的算法应用实践>编辑整理而成,在未改变原意的基础上稍做修 ...

  3. 【工业智能】人工智能之于工业,应当是融入者而非颠覆者;记一场工业场景下的AI技术实践

    2018年1月13日,由极客邦科技InfoQ中国主办的AICon全球人工智能与机器学习技术大会在北京国际会议中心召开.此次大会以"助力人工智能落地"为主题,汇聚了国内外知名企业和顶 ...

  4. 分享实录 | 单人开发场景下的测试环境实践

    在软件研发过程中,"测试环境"是部署最频繁.也是开发者使用最频繁的一种运行环境,稳定而易用的测试环境能够极大提高开发者的工作效率和幸福感.为更好的将阿里巴巴在测试环境管理方面的实践 ...

  5. 单人开发场景下的测试环境实践

    在软件研发过程中,"测试环境"是部署最频繁.也是开发者使用最频繁的一种运行环境,稳定而易用的测试环境能够极大提高开发者的工作效率和幸福感.为更好的将阿里巴巴在测试环境管理方面的实践 ...

  6. 报名 | 美团技术沙龙第64期:美团不同业务场景下的系统架构实践

    [美团技术沙龙]由美团技术团队和美团科协主办,每期沙龙邀请美团及其他互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域.从2015年7月举办第一期美团技术沙龙至今,已经吸引了三万多名工程师 ...

  7. 阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践

    作者:徐闻春(花名 陌奈) 阿里妈妈事业部技术专家 本文整理至Flink+Hologres实时数仓Workshop北京站,点击查看视频回放>>> 阿里妈妈数据引擎团队负责广告营销计算 ...

  8. 【阿里妈妈营销科学系列】第七篇:目标群组发现

    丨目录: · 分析背景 · 基本概念 · 解决方案 · 方案流程 · 案例参考 · 关于我们 ▐ 分析背景 在行业运营的场景中,我们需要针对业务目标,从"人-货-场-店" 角度去进 ...

  9. 【阿里妈妈营销科学系列】第三篇:受众沟通和品牌认知评价

    ▐ 分析背景 品牌向目标消费者进行新品推广.内容种草.心智提升时,关注的并不是短期销量,而是期望通过大规模曝光与受众沟通,传达品牌形象.产品功能,影响消费者态度,提升品牌认知度,从而影响长期购买决策, ...

最新文章

  1. CloudCompare基础架构介绍(PPT)
  2. 曲线 线性回归_机器学习笔记 线性回归
  3. kettle 使用java版本_Kettle最新版本8.X详解
  4. myeclipse 中项目名出现红色感叹号解决方法
  5. define、const、typedef区别
  6. java 路径的故事
  7. 单片机位寻址举例_单片机学习:51单片机寻址方式详解
  8. Unity 提取游戏资源之ktx转换
  9. 股票分红对于短期投资有好处吗?
  10. Abaqus 用户子程序 UEL
  11. 湿淀粉 - 搜搜百科
  12. merge squash 和 merge rebase 区别 GIT使用
  13. 真核生物基因结构 mRNA结构
  14. gst-launch命令转换为C代码(gstreamer框架)
  15. 面向对象编程训练:模拟购物车模块(:3[▓▓]快醒醒开学了
  16. java-php-python-ssm网上拍卖系统计算机毕业设计
  17. Git的4 个阶段的撤销更改(通俗易懂)
  18. 那些跳槽做程序员的人,后悔了吗?
  19. 统计学习第二弹--描述性统计(理论公式)
  20. 【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

热门文章

  1. javascript鼠标点击实现改变CSS样式
  2. centos7.4/rehat7.0系统安装
  3. 知识蒸馏论文读书笔记
  4. web前端期末大作业 html+css+javascript网页设计实例 宠物狗网站制作
  5. 培训c语言程序,编程人员培训手册C语言程序设计基础
  6. linux 音频播放的系统层问题
  7. iOS监控-野指针定位
  8. 哈哈哈哈~山野村夫大进展
  9. python之Scapy 中文文档:三、使用方法
  10. 《820事件:钻哥对AI人工智能下重手!!!》(Yanlz+AI+人工智能+元宇宙+Python+神经网络+深度学习+语言识别+NFT+VR+AR+MR+XR+虚拟现实+AI2026立钻哥哥++==)