丨本文作者:茂道、羲洋、君之、天柏

1. 业务背景

算法同学在日常工作中经常要面临一些耗时较多的临时工单,这类工单的问题类型五花八门,背后对应的原因也各不相同,例如广告主操作类问题、大盘流量波动问题、海选问题、粗排问题等。这类Case每次都需要耗费较长时间单独解决,没有办法沉淀相应的工具和知识体系,随之带来的是算法团队开发诊断代码工作量大、开发周期长、不宜维护等问题。

为了有效地持续提升工单处理效率,算法同学希望可以通过简易服务化方式,通过数据  + 指标  + 规则 + 服务化模式快速配置SOP诊断链路,提升自动化诊断能力,最大化提升排查效率,并沉淀业务知识库,加快后续相似问题的诊断和响应速度。未来更期望将自动化诊断能力进行服务环节前置,如xspace、袋小蜜,直接赋能广告主,并基于诊断和建设能力,升级营销诊断和袋小蜜等。因此,商家端智能诊断系统应运而生。

客服体验问题的解决思路

2. 建设目标

1)框架建设:希望通过SQL或者规则引擎+低代码方式提升业务侧迭代效率,提升算法同学的开发效率,迭代平台侧的的能力,沉淀组件和相关工程能力,整体工程资源和数据资源可控。

2)数据建设:目前replay数据、操作日志、效果数据均由算法维护或者算法可灵活获取,从算法角度可以建立完善的广告诊断数据中心,标准化数据存储方式和数据获取方式。

3)诊断规则知识库建设:通过建设示范性SOP,可以沉淀出大量可用的基础广告诊断规则(例如广告主余额不足、计划是否下线等)。同一数据诊断规则可以复用在多个SOP流程当中,用户可以基于诊断规则知识库搭建出复杂的广告诊断链路。

3. 技术方案

基于商家端引擎,我们开发了一套基于商家端框架的自动化SOP框架,将用户策略收口到商家端框架,可针对数据存储&管理、sop微服务开发&测试&监控制定标准,提升开发和迭代效率;建立数据、指标、规则、服务的统一开发标准,依托Dolphin数据湖的能力进行数据存储和查询,规则引擎支持规则输入和SOP诊断链路编排,支持用户自助迭代。利用工程团队的技术优势,提升开发和迭代效率。

  • 标准化:数据存取标准化;服务接口标准化;核心算子SQL化、函数化;

  • 可扩展:数据的扩展性;规则的扩展性;

  • 少代码:数据读取高度抽象(SQL化)、流程模块化/函数化、SOP链路可视化配置;

  • 可跟踪:日志、监控;

商家端诊断引擎框架图

3. 规则引擎

  • 标准化客诉流程:通过规则引擎促使各个业务线的SOP流程统一为标准流程,遵循统一的guideline。将SOP流程抽象为依赖什么数据,进行怎样的规则判断,得出怎样的结论,无法排查时应根据什么条件转交给不同的团队继续进行跟进。

  • 为什么要引入规则引擎?将业务决策逻辑从系统逻辑中抽离出来,降低系统间的耦合,使两种逻辑可以独立于彼此而变化,降低维护两种逻辑的维护成本,不同sop链路可以复用规则。

  • 不同用户的使用场景不同,代码能力不同。

3.1 引擎选型

智能诊断场景需求:轻量开发、定义规则方式多种、支持代码模式和表达式规则,最终选择选择轻量、高效的表达式和代码结合的引擎easyRules。

3.2 规则

低代码平台针对不同的使用群体,划分为三种模式:

1)简单运算

通过四则运算和条件运算,产出规则,具体是metric 和 metirc之间的四则运算表达式 和 逻辑表达式,产出为 true或者false。

if(100.0 * (competition_times - adReplayInfo.getSn_real_competition_times()) / competition_times�)>80

2)code模式

对于具有复杂数据结构的运算,需要使用code模式,编写代码片段,使用QLExpress语法格式。

for (i = 0;i < bidwordList.size();i++) {bidword = bidwordList.get(i);keywordCateInfoEntity = keywordCatInfo.get(bidword);if (entity == null) {subSopDiagnosis.appendDetails(String.format("投诉词【%s】与AD的类目不符.", bidword));} else if (!entity.getCate_map().containsKey(cate_id)) {subSopDiagnosis.appendDetails(String.format("投诉词【%s】与AD的类目不符,推荐类目为【%s】.", bidword, entity.getMain_cate_full_name()));} else {goodWords.add(bidword);subSopDiagnosis.appendDetails(String.format("投诉词【%s】与AD的类目相符.", bidword));}
}

3)java代码

直接由用户编写rule class,运行时动态加载。

用户自定义规则编写示例

3.3 SOP链路

将SOP链路划分为参数检查、数据读取、规则组织、结果返回,在不同阶段绑定不同规则集,进行诊断链路串联。

  • 参数检查:输入粒度规范、日期检查、输入关键词检查等;

  • 数据读取:指标读取、衍生指标读取等;

  • 规则组织:规则集绑定;

  • 结果返回:诊断结果、诊断话术。

诊断链路编写示例

4. 数据中心

4.1 SQL统一查询

同步查询

统一的SQL查询引擎对外提供统一的SQL语法(语法和PG语法保持一致),实现对Dolphin、IGraph、Hologres、Http、HSF等数据源的统一查询功能,同时也支持跨引擎查询功能,极大降低了用户的使用成本,使用存储在不同数据源的数据就像在ODPS上一样方便。

SQL统一查询引擎框架图

异步查询

对于数据量特别大、查询模式支持异步化查询;

4.2 数据建设

广告诊断系统数据可以划分为6大类:物料数据、效果数据、投放数据、干预数据、操作数据和人群数据。各类数据分别来自BP、SDS、投放引擎、算法维护、操作日志、达摩盘等,数据存在分散、存储引擎多种多样、数据格式不统一、维护团队较多、部分数据实效性较差等问题,整合和产出一份格式统一、数据完备的广告诊断数据仓库十分必要。对tickets工单系统中的客诉工单进行统计,诊断所需要的数据粒度也分为AD粒度、关键词粒度、人群粒度和QUERY粒度。

广告诊断数据大图

实时、离线数据建设

  • 离线数据:数据ETL产出ODPS,通过极光平台[2]导入Dolphin。

  • 实时数据产出:TT数据流回流ODPS,通过极光平台[2]导入Dolphin,产出小时级数据。

实时离线数据建设链路图

将存储在不同数据源的数据在平台进行注册,将诊断数据统一化为数据指标类型,用户可以在数据层定义衍生指标,支持四则运算以及复杂函数类型计算,沉淀出数据层的指标和衍生指标。

  • 支持同一数据粒度下的多指标运算

  • 生命周期管理

  • 有效性巡检

  • 指标数据探查

5. 加速引擎

广告诊断场景的查询具有查询QPS低、查询周期长、单值查询的特点,诊断场景对于查询延迟要求不高,实时数据与离线数据存储量较大,存储成本较高。针对这样的场景,我们通过数据库的外表技术,可以实现计算引加直接读取HDFS上的数据,多个计算集群,可以共享一份HDFS上的文件存储数据,实现数据的一写多读,HDFS底层使用HDD存储数据,实现数据成本的大幅度降低,数据统一存储。

为了支持外表数据,索引下推查询,我们对orc代码数据读取部分做了大量深入优化,包括排序列的智能选择,动态row group stripe size和索引和数据的本地cache。在直通车展现波动SOP场景中,90天长周期T级别数据量查询可以达到秒级延迟;在人群SOP场景中,Dolphin在标签圈人百亿ID的交并差领先的技术优势能够很好地体现出来。

ODPS表数据也可以直接通过极光平台[2]进行查询加速,极光平台[2]同时也支持原生SQL对各种数据源进行查询。

数据加速引擎架构图

6. 总结与展望

当前在直通车业务场景下,商家端智能诊断系统可以支持展现波动、流量不精准以及搜索无展现、相关性优化SOP。展现波动/无展现SOP中49%给出诊断,流量不精准可100%给出建议,相关性优化可93%给出建议;覆盖直通车推广优化类工单65%,准确率>90%(推广优化类工单主要由技术同学负责解决,最复杂难解且数量多;覆盖率指能给出明确诊断或建议的比率),面向不同子问题的完结率和处理时长均有显著提升。

智能诊断系统由数据引擎团队与广告主赋能算法团队共建,希望可以通过低代码的智能系统更好地帮助算法侧沉淀营销知识库,真正从平台视角来帮助广告主解决营销投放中可能存在的问题,同时也可以更及时地排查系统中的潜在风险。后续我们希望通过业务场景拓展,推向更多的工单类型,同时将服务环节前置,从根源上释放算法同学的压力,同时更好地赋能广告主;并基于诊断和建议能力,升级营销诊断和袋小蜜等。未来可以基于多维时序数据进行归因分析辅助诊断,在广告主进行提出工单之前就将问题定位,提高平台的智能性。

7. 附录

[1] Dolphin:面向营销场景超融合智能引擎,Dolphin源自阿里妈妈数据营销平台达摩盘(DMP)场景,在通用OLAP MPP计算框架的基础上,针对营销场景的典型计算(标签圈人,洞察分析)等,进行了大量存储、索引和计算算子级别的性能优化,实现了在计算性能,存储成本,稳定性等各个方面的大幅度的提升。Dolphin引擎作为商家端服务的核心基建,可以横向覆盖交互式OLAP分析,AI算法计算,Streaming, Batch等多个计算场景。

[2] 极光平台:针对B端商家的统一服务框架和研发平台,主要有以下功能:1)统一服务框架:FAAS函数服务,算法同学开发业务核心代码,工程团队负责基础功能,实现服务的快速开发,迭代,发布上线及低成本运维;2)统一研发平台:支持商家端算法特征的开发,管理,沉淀。模型管理、发布上线;3)统一计算引擎:算法核心通用算子下沉Dolphin引擎,实现业务逻辑和底层计算解耦,算子复用。

END

阿里妈妈数据引擎团队-系列内容

阿里妈妈智能诊断工程能力建设相关推荐

  1. 营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

  2. 广告深度学习计算:阿里妈妈智能创意服务优化

  3. 【阿里妈妈营销科学系列】第八篇:增强分析在营销分析场景下的实现和应用...

    丨目录: · 背景 · 业务场景 · 基本概念 · 阿里妈妈智能洞察系统Autolnsight · 应用场景和案例 · 总结 · 关于我们 ▐ 背景 随着以数据驱动业务增长的发展趋势,"数据 ...

  4. 工程能力提升管理之道

    在架构设计上不同层次的架构师在架构抽象上总会有不同的见解,和高p架构师讨论架构往往能上升到哲学层次,什么分久必合 合久必分,什么无法 有法,什么道,法,术,器. 在工程能力提升上不同团队也有不同章法, ...

  5. 十年再出发!阿里云智能总裁张建锋演讲全记录

    3月21日,"十年再出发"阿里云峰会于国家会议中心正式召开.阿里云智能总裁张建锋(行癫)携核心管理团队首次悉数亮相,并对阿里云做了全面的战略解读.以下是演讲全文. 张建锋:今天是我 ...

  6. 阿里云周宇:神龙计算平台智能运维体系建设

    嘉宾 | 周宇   整理 | 吴林锋 出品 | CSDN云原生 2022年4月12日,在CSDN云原生系列在线峰会第1期"SRE与智能运维峰会"上,阿里云高级技术专家.神龙计算平台 ...

  7. 阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践

    作者:徐闻春(花名 陌奈) 阿里妈妈事业部技术专家 本文整理至Flink+Hologres实时数仓Workshop北京站,点击查看视频回放>>> 阿里妈妈数据引擎团队负责广告营销计算 ...

  8. 阿里妈妈内容风控模型预估引擎的探索和建设

    作者:徐雄飞.金禄旸.滑庆波.李治 内容作为营销的重要载体,能够促进信息的交流和传播.在营销场景中,广告高曝光的特性放大了风险外漏带来的一系列问题,因此对内容的风控审核就显得至关重要.本文将为大家分享 ...

  9. 奖池90万!阿里天池发起肺部CT多病种智能诊断大赛

    点击我爱计算机视觉标星,更快获取CVML新技术 全球数据智能大赛(2019)--"数字人体"赛场一: 肺部CT多病种智能诊断 大赛概况 全球数据智能大赛(2019)由广西壮族自治区 ...

最新文章

  1. sqllite配置(参考别人)
  2. 【转载】用 Pyinstaller 来打包 + 解决打包结果过大问题
  3. 【采用】无监督核心聚类算法
  4. 全球及中国微电网市场规模容量及建设运营模式分析报告2021年版
  5. 快速求幂(Quick Exponentiation)
  6. linux下批量替换文件内容的三种办法
  7. 浅谈PHP自动化代码审计技术
  8. MySQL【案例讲解】分组函数
  9. webpack 引入jquery和第三方jquery插件
  10. iOS中XML解析 (一) TBXML (实例:打印xml内容及存储到数组)
  11. 数据科学家:我的工作就是发现别人未知的
  12. 半自动驾驶大对决:特斯拉和凯迪拉克谁是真王
  13. 苹果Mac强大的网络流量分析工具:Debookee
  14. 软件测试行业发展现状及前景
  15. 【题解】[NOIP2018 提高组] 填数游戏
  16. 一篇文章解决所有的 #如何下载安装xshell链接VMware虚拟机liunx系统(如SentOS,ubuntu等等)# 等问题
  17. 回归分析中的相关度(Corr)和R^2
  18. 解决访问远程共享时发生 请检查名称的拼写. 否则, 网络可能有问题 故障
  19. Cognos 配置启动错误
  20. 大数据之------------数据中台

热门文章

  1. Kali Linux 初探
  2. python微信加人_Python 基于wxpy库实现微信添加好友功能(简洁)
  3. 2. 监督学习之分类
  4. 计算机课外活动小结,课外活动总结
  5. 7-20 | 打印九九口诀表
  6. cad审图软件lisp_CAD审图标记最新版
  7. 钱包:BUMO 小布口袋 APP 用户手册
  8. 苹果邮箱登录入口_LOL手游只有一种登录方式怎么办?只有拳头账号登录入口解决方法...
  9. 自动化做任务、收能量工具Hamibot,我愿称它为神器
  10. python检测微信好友被删被拉黑_如何用Python,查看是否被微信好友删除