背景

长期以来,信息曝光量的度量存在误差。测量方法基于信息检索量来度量,与可见曝光量存在较大偏差。信息检索量测量方法为:

(1) 服务端记录返回的信息列表;

(2) 客户端记录服务端返回的信息量。

以上度量方法实际为信息检索量,无法准确描述信息是否被用户感知。从而

(1) 信息对用户价值被错误衡量,降低了用户发现有价值信息的概率;

(2) 用户行为特征正负样本失衡,未真实曝光的信息作为负样本的作用被放大。

综上,需要改进已有的信息曝光度量方法,从而为后续策略优化、产品迭代升级等多场景提供更加真实可信的曝光数据。

广告可见性

信息的可见性度量策略借鉴互联广告的可见性度量方法。美国MRC可见曝光指南2014年6月30日版本1.0(最终版)给出的国际现行、接受度最高的广告可见性标准如下表:

•广告可见曝光的定义

被投放了的数字广告在满足以下条件时可被定义为可见曝光:广告创意出现在浏览器的可见窗口页面的活跃标签上,并且满足设定的曝光条件(如像素露出面积的百分比和连续有效曝光的时长)。不是每次的广告投放都会产生可见曝光,而只有可见曝光才被认为是『有机会被看到』的。(引自MMA中国无线营销联盟移动互联网广告可见性验证标准V.1.1)

•广告可见曝光度量的补充要求

在度量技术实现过程中,一般同时需要满足以下补充要求,以提高广告可见曝光度量的真实可行度。具体为:

(1) 使用客户端前端日志上报,即广告是否可见以上报数据为准;

(2) 包含非人类行为、无效行为、异常流量的过滤机制;

(3) 包含防止缓存的机制;

(4) 区分人为启动的显著的页面刷新活动;

(5) 区分失焦或者页面遮挡。

可见曝光在58的实践

下图为用户与58平台交互时,信息检索、曝光的流程图示意如图1所示:

图1 用户交互流程示意图

•信息可见曝光的度量

基于广告可见性的要求,结合58信息检索、曝光流程,兼顾用户体验的前提下,58落地的信息可见性曝光标准定义如下:

(1) 核心要求:

a)像素要求:信息像素在可视区域露出面积>0像素;

b)时间要求:信息像素在可视区域内露出时间>0s。

(2) 补充要求:

a)度量方式统一为客户端测量;

b)每次信息被检索,可见曝光仅度量一次;

c)用户操作不引起页面刷新的帖子曝光,无需重新测量。

•信息可见曝光的数据处理

信息可见曝光作为信息检索、曝光、点击、其它核心用户行为(电话拨打、微聊等)的用户行为序列的重要一环,对于识别用户行为的真实度,降低虚假用户行为产生的数据噪声有重要作用。

从58平台的场景触发,一般可认为用户行为是从用户发起的一起信息检索请求出发,连接产生用户请求、浏览、点击、交互行为(电话、微聊等)序列。由此可见,可见曝光数据需要与用户的请求数据保证数据一致性,从而保证用户行为序列数据浏览的可信度。

为保证用户浏览、点击、交互行为数据的数据一致性,从用户行为的起点——信息被请求、检索触发,通过TrackId(后文简写为TID)标识信息每次检索,以达到信息检索、曝光的数据强一致性要求。

TID的定义及生成规则如下:

(1) TID定义:唯一标识信息信息的一次检索;

(2) 生成规则:确保唯一性,建议使用UUID。展示信息来源为乐高平台,请使用乐高平台检索返回的TID;如展示信息来源不为乐高平台,请对应信息检索服务根据生成规则自行生成。

TID的生成、追踪过程如图2所示:

图2 TID的生成、追踪过程示意图

通过在信息被检索时,给予每个信息被检索时的唯一标识,关联检索数据与可见曝光数据,即可以提供信息可见曝光时的上下文信息。

检索数据与可见曝光数据处理流程如3所示:

图3 检索数据与可见曝光数据处理流程示意图

因可见曝光的数据来源为各个业务线,所以:

(1) 首先,可见曝光数据源通过ETL处理为数据格式统一的事实表;

(2) 然后,通过唯一标识信息检索的TID将可见曝光事实表与信息检索事实表进行数据关联,产出为统一的数据视图。

•数据质量

从可见曝光数据的数据完整性校验要求和可见曝光数据与信息检索数据关联的数据一致性要求,结合实际场景下,用户行为应较高比例归因于信息可见曝光事实,因而数据质量从以下方面保证:

(1) 可见曝光数据的核心字段填充率;

(2) 分信息展示资源位的可见曝光数据与检索关联后的可见曝光比例;

(3) 分信息展示资源位的可见曝光数据带来的用户行为(点击、微聊、电话等)的数据比例。

通过以上的数据监控报警触发,可以保证可见曝光数据的可信度。

总结和展望

引入可见曝光数据来描述用户浏览行为,作为策略模型迭代的数据来源,在商业策略团队基于二手车可见曝光数据的策略过程中,带来了以下核心评价数据的提升:

CTR2 +7.62% ,CVR +4.62%

以上数据,表明:

(1) 对用户:可以更快捷、高效地获取高价值信息;

(2) 用平台:提高用户粘性,提升平台服务能力。

后续将围绕以下几点继续进行数据建设:

(1) 数据完整性:推进可见曝光数据的度量标准,提高可见曝光度量覆盖范围;

(2) 数据时效性:现有数据处理基本为T+1的离线数据计算,进一步将可见曝光数据作为商业实时数仓的重要组成部分。

参考文献

https://mmachina.cn/mma%e4%b8%ad%e5%9b%bd%e6%97%a0%e7%ba%bf%e8%90%a5%e9%94%80%e8%81%94%e7%9b%9f%e7%a7%bb%e5%8a%a8%e4%ba%92%e8%81%94%e7%bd%91%e5%b9%bf%e5%91%8a%e5%8f%af%e8%a7%81%e6%80%a7%e9%aa%8c%e8%af%81%e6%a0%87-2/《MMA中国无线营销联盟移动互联网广告可见性验证标准V.1.1》

作者简介

路亚州,商业产品技术部工程团队高级大数据开发工程师。负责商业全站行为数据仓库的建设和开发,对大数据技术有相关研究。


欢迎大家关注“58技术”微信公众号,“58技术”是58官方技术号,58技术创新、分享与交流平台。

保证可见性_基于广告可见性的可见曝光数据建设实践相关推荐

  1. 银联基于OpenStack的金融私有云建设实践

     银联基于OpenStack的金融私有云建设实践 发表于2015-10-06 17:17| 1390次阅读| 来源CSDN| 1 条评论| 作者中国银联 祖立军 OpenStackSaaS银联金融 ...

  2. 千万数据去重_基于 Flink 的百亿数据去重实践

    在工作中经常会遇到去重的场景,例如基于 App 的用户行为日志分析系统,用户的行为日志从手机客户端上报到 Nginx 服务端,通过 Logstash.Flume 或其他工具将日志从 Nginx 写入到 ...

  3. elasticsearch 数据类型_基于 MySQL Binlog 的 Elasticsearch 数据同步实践

    来源;马蜂窝 一.背景 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品.订单等数据的多维度检索. 使用 Elasticsearch 存 ...

  4. pythonspark实践_基于Python的Spark Streaming Kafka编程实践

    版权声明:本文为CSDN博主原创文章,未经博主允许不得转载. 说明 Spark Streaming的原理说明的文章很多,这里不做介绍.本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些 ...

  5. 滴滴基于 Flink 的实时数仓建设实践

    简介:随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践.本文主要以顺风车这个业务为引子,从引擎侧.平台侧和业务侧各个不同 ...

  6. 美团点评基于 Flink 的实时数仓建设实践

    来自:美团技术团队 引言 近些年,企业对数据服务实时化服务需求日益增多.本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过 Flink 引擎构建实时数据仓库,从而提供高效.稳健的实时数 ...

  7. 小米基于 Flink 的实时数仓建设实践

    摘要:本文整理自小米软件开发工程师周超,在 Flink Forward Asia 2022 平台建设专场的分享.本篇内容主要分为四个部分: 小米数仓架构演变 Flink+Iceberg 架构升级实践 ...

  8. 快手基于 RocketMQ 的在线消息系统建设实践

    作者:黄理,10 多年软件开发和架构经验,热衷于代码和性能优化,开发和参与过多个开源项目.曾在淘宝任业务架构师多年,当前在快手负责在线消息系统建设工作. 为什么建设在线消息系统 在引入 RocketM ...

  9. 快手基于RocketMQ的在线消息系统建设实践

    简介:快手需要建设一个主要面向在线业务的消息系统作为 Kafka 的补充,低延迟.高并发.高可用.高可靠的分布式消息中间件 RocketMQ 正是我们所需的. 作者:黄理 黄理,10多年软件开发和架构 ...

最新文章

  1. java程序设计输入输出实验_20145320《Java程序设计》第五次实验报告
  2. 训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现
  3. android intent-filter作用,Android中Intent-Filter的匹配规则是什么
  4. VMWare 虚拟机安装及新建虚拟机
  5. 有趣的圣诞节 库的打包
  6. 内部排序比较(Java版)
  7. PAIP.提升安全性---更好的签名HASH算法
  8. Python时钟代码——利用python turtle实现模拟时钟
  9. 从零开始开发HybridApp
  10. 笔记本计算机风扇连线,机箱风扇接口怎么接电源线【图文】
  11. iOS——Segue的使用
  12. php计算指数函数,指数函数运算法则公式有哪些
  13. PRCV2018美图短视频实时分类挑战赛落幕,第一名解决方案技术解读
  14. 【PS】抠图,通道抠图
  15. 过期带备案域名扫描工具SEO工具
  16. OPPO年薪百万offer经历分享
  17. h5 神策埋点_神策埋点思路
  18. 哥伦比亚网银支付PSE
  19. python中输入字符串中只有字母_python中,只有一个字母的字符串属于类型
  20. php文件目录教程,详谈PHP文件目录基础操作_PHP教程

热门文章

  1. keepalived mysql集群_keepalived + Mysql(主主)实现高可用集群
  2. python函数速查_Python语法速查: 7. 函数基础
  3. 自媒体敏感词大全_让新媒体小编头疼的敏感词与错别字
  4. redis 亿级查询速度_Redis 性能优化的 13 条军规!史上最全
  5. 加密保护软件 WinLicense 注册常见问题(一):许可证
  6. kubeadm源码分析(内含kubernetes离线包,三步安装)
  7. linux系统编程:自己动手写一个cp命令
  8. html5常用模板下载网站
  9. 正则匹配:Email 密码强度 身份证 手机号 日期 数字每4个字空一格等
  10. 企业shell编程基础问题解决实践-是骡子是马溜溜!