如何筛查虚假流量? 如何预防作弊?

首先应用场景是什么,广告反作弊的种类很多,简单说几个应用场景:

  1. 按平台分:PC、移动,不同的平台玩法不一样;
  2. 按照防作弊的时间段分:请求阶段,实时扣费阶段,离线计算阶段;
  3. ……

说上边的目的是:这个问题很难回答,因为反作弊这个范畴本来就很大,但是必须要明确的一点是反作弊跟机器学习没有必然的联系,反作弊的核心在于如何更快速、节省资源、高效的将作弊流量排除,而不是非得用机器学习来做。

-----------------分割线,很早之前写的一篇水文,参考如下,同时建议重新编辑问题,或许能带来更多回复--------------------------------

移动时代,在流量快速变现的利益驱动下,流量造假越发猖獗,流量造假形式和技术手段也越发高级。无论什么形式的作弊,最后损失最大的永远都是为流量买单的“广告主”。移动营销时代,流量作弊的方式有哪些?同时该如何杜绝和应对虚假流量,减小损失?

传统 PC 时代,IP、Cookie、User-Agent 很容易刷,那么到了移动端,是不是设备信息就很难刷了呢?比如IMEI、IDFA。事实却并非如此,不仅移动的设备信息容易且批量地刷,而且被识别出来的难度更高,更像真的一样。

前段时间某监测公司说,贵司必须要实施SDK监测,一律按照MMA教条做事,鄙人心中淡淡一笑…

下面简单介绍前几年秒针发布的一个《互联网广告反作弊技术白皮书》,期间所谓的揭秘了6种互联网广告作弊行为,如下:

1.广告CTR异常:

主要指虚拟点击或恶意点击,即Click/PV过高比例,或者起伏很大。

2.广告访问IP分布异常:

通过Log日志发现某几个IP产生大量的点击或者曝光数。

3.URL,访问者指纹信息(浏览器,操作系统等)异常:

例如大量的点击或者曝光数,都来自于同一版本的浏览器或操作系统,或者占比过高;或者点击或曝光的访问者信息中带有Robot/Spider等标识信息。

4.广告点击没有对应的曝光请求:

如果广告同时监测了曝光和点击,广告的点击IP/MZID前都应该出现对应广告的曝光,且绝大多数都应该出现在同时段的曝光日志中。

5.广告来源异常:

点击或者曝光的Referer可以标记点击或曝光的来源页面,如果大量来源集中在某一页面,且不是广告所在的Web页面,可能存在媒体在其他流量大的地方(如BBS)设置隐藏页面来充当曝光和点击。

6.广告访问时间分布异常/规律

某些IP/MZID每分钟定时出现在点击/曝光日志中,或者连续点击/曝光的发生时间的间隔过于规律。

以上的确是一种解决反作弊的手段,但是我想说的是在几年后的今天,这只能解决一些“非暴力”刷流量的手段,当然也只能限于PC端的小问题了。当然作为前表厂员工,对公司献出如此宝贵的白皮书深感“荣幸”。

移动流量作弊形式的主要形式:

刷广告数据:

刷广告曝光和广告的点击。如今的Android手机,不比当年的Windows XP 时代好。在用户毫不知情的情况下,预装或者下载了乱七八糟的应用的情况比比皆是,被各种流氓软件留些后门已是常态,顺理成章地为黑色产业链做贡献。移动广告的销售更加的程序化,按 CPM 与 CPC 的销售是主流。在这样的大环境下,按 CPM 与 CPC 购买的流量质量风险如何?可想而知。

来个小段子休息下,前几年某知名视频公司离职员工来到我司后,我们线下聊天,他告诉我说,在Android机下,你如果按照了某视频软件,那么你的手机就是个肉鸡,想干什么都行,我听完后,不禁菊花一紧。为何如此欺凌我等屌丝,Android机招你还是惹你了?从那我就发誓,努力赚钱,买苹果,最后苹果没买成,倒是吃了不少苹果…

所以,不要怪Android流量广告主不喜欢,主要是耍流氓比比皆是,Android已是赤裸相见,广告主喜欢iOS的朦胧美也是有情可原的。

刷下载,激活与留存数据:

除了积分墙这种APP 广告主自发的刷下载行为之外,不少广告主还是花了大价钱在不同的广告平台、应用市场上做转化效果推广的。

既然 KPI 是下载量、激活量,那当然有非常多的办法去冲KPI。即使要求高的留存,也难不倒这帮“专业”刷客。

现在刷客团队非常“规范透明”,据某“知名专业刷客团队带头大哥”透漏:PV 10000个0.3元(其中随机携带点击,真TM专业),实现App下载成本在0.2~0.8元,设备激活大概0.3~1元,设备激活+留存,一般需要1~1.5元。一块五你买不了吃亏,一块五你买不了上当,童叟无欺。

这让我想起,前几天有运营同学反馈说某知名旅游App在我们平台上投放时,之前50多一个激活,现在100多,而在其他平台上投放时,激活成本一直非常稳定。WTF,这必须怪我们,我们平台太实在,没有为其进行刷量,改天我就告诉运营同学,其他平台激活成本多少钱,我们就着比他便宜1毛钱搞,便宜多了还不行。

那么虚假流量是如何刷出来的呢?

原理较为简单,就是不断变更设备信息,实现模拟行为,批量造成想要的流量。

设备伪装,主要通过篡改设备ID号或者使用模拟器等进行,并伪造虚假的网络环境。现在已经可以实现移动设备 ID (MAC、IMEI、IDFA、Android ID)不重复、IP 地址离散、机型变换、时间分散。主要是集中于 Android 系统上,iOS 系统伪装成本高很多。

当我近期调研了很多作弊手段后,由于现在反作弊在每个公司都是一个黑盒子(当然是个行业透明的黑盒子,只不过每家加密算法不太一样而已),感觉作弊已经到了一个无法无天的境地。在某次和领导开会时,我开玩笑的提了一句“反作弊根本没法反”。现在的作弊手段真的是环环相扣,已经成为一个生态链,成为一个生态市场。

当然,针对以上手段,现在也有监测公司提到,用硬件指纹标识,也就是多个ID作为唯一标识,而且这个标识更改频率非常高,这样还是只针对普通级别的刷流量行为而设防。像那种留有后门的App,这种行为是不行的。

还有一种联盟反作弊手段,利用广告点击率上限和广告主转化数据进行作弊,站在反作弊的角度来看,这种是饮鸩止渴,解决不了真正作弊行为。

还有一种就是利用机器学习,根据一段时间的表现,对设备id进行健康度标识,这种成本太高,还有就是对于那种随机生成设备id的行为也无法标识。

反作弊任重而道远。

最后,我们一定要上升到哲学层次装一把,要不有损我们一贯装B的风格。

反作弊不是为了反而反,我们一定有我们的商业目标,在这个博弈的社会,说白了,大家都是混碗饭吃,所谓打工的何必难为打工的。我们要做的就是完成商业目标。举个例子,如果我们要做移动联盟,那么对于这种刷激活、留存的流量,我们是否要防,当然是No!欢迎还来不及呢。

如果我们是广告主,是不是也一定要防这种刷量和留存,就看你怎么刷,如果你能在App排行榜上也给我刷上去,那么省了广告主的事了。

(就像前段时间某新闻App和某监测公司掐架一样,为了一个DAU吵个不停,哎,世道啊。)

如果广告主最终流量上去了,甭管真的假的,就可以变现了,然后再坑别的广告主的钱,大家你坑我我坑你,最后钱才能流通,说大了这是“为国家解决就业问题”,还不快谢谢作弊的主(哈哈)。

所以某种程度上,我们要做到反我们该反的作弊流量,留我们该留的流量。世界这下就变得和谐多了。

发布于公众号:计算广告那些事儿

如何用机器学习做广告反作弊(二)相关推荐

  1. 如何用机器学习做广告反作弊(一)

    如何筛查虚假流量? 如何预防作弊? 知乎问答记录,仅供学习参考 作者:李小喵 链接:https://www.zhihu.com/question/53627544/answer/337003640 来 ...

  2. 算法系列 - 广告反作弊概述

    以下所有内容均整理于各种博客 文章目录 一.广告名词解释 二.广告作弊手段 三.广告反作弊规则方案 3.1 用户标识 3.2 用户行为 3.3 广告来源 四.广告反作弊机器学习方案 五.参考文档 一. ...

  3. 【fraud detection】秒针系统发布《互联网广告反作弊技术白皮书》

    中国领先的第三方广告技术公司秒针系统日前发布<互联网广告反作弊技术白皮书>,把点击率异常.IP分布异常.URL/访问者指纹信息(浏览器.操作系统等)异常.点击没有对应的曝光请求.来源异常. ...

  4. 如何用Excel做一个战斗模拟器(二)属性表

    如何用Excel做一个战斗模拟器(一)升级经验表 如何用Excel做一个战斗模拟器(三)战斗过程模拟 目录索引 属性表 属性表 首先确定人物的生命.攻击.防御.暴击值与闪避值属性.用公式将其设定为与等 ...

  5. 广告反作弊的常用技术分析

    基于IP地址1 来自同一IP地址的多次点击,会被视为一次点击或直接视为作弊而被K掉账号:同一广告点击IP大部分来自同一地理区域,也会被怀疑为作弊. 基于Cookies2 虽然IP不同但是Cookies ...

  6. 网络广告反作弊在线广告作弊手段一览

    广告业有句古老的名言:你知道广告投入的一半都被浪费了,可你不知道究竟是哪一半."这是个最好的时代,也是最坏的时代."这句话用来描述互联网时代广告主们的处境实在是再准确不过了.这里提 ...

  7. 和朋友们一起探道一下CPA广告反作弊方面的技术,欢迎大家发表意见。

    目前最常用的作弊手法就是 1.通过安装在用户电脑上的插件,捆绑注册流程自动在用户不知情的情况下注册,这个一般可以使用高强度的验证码来防止. 2.通过雇佣注册手来注册.这个完完全全是人工操作.而且IP地 ...

  8. 互联网广告作弊与反作弊综述

    一.互联网广告反作弊的意义 互联网行业发展的几十年来,已经渗透到生活的方方面面,各种互联网公司层出不穷.互联网公司的商业变现途径已经发展出引流.电商.游戏等多种流派,但是广告变现作为一种最快捷和直接的 ...

  9. 技术揭秘 | 互联网广告黑产盛行,如何反作弊?

    简介:有人的地方就有江湖.广告作为互联网公司商业变现最为直接快捷的途径,广告作弊已经形成了一个有完整链条的黑产行业.如何通过技术手段识别并防范广告作弊?本文通过介绍常见的广告计费模式和虚假流量的获益形 ...

最新文章

  1. 机房设备与线路资源管理
  2. git 生成patch和使用patch
  3. [转载]Memcache内存临界测试
  4. c#Ice开发之环境配置(一)
  5. 【Spring】Spring 深入理解注解及spring对注解的增强
  6. 矩池云Jupyterlab支持download as pdf
  7. 模拟CMOS 集成电路设计
  8. Tableau宣布退出中国市场,背后的原因细思恐极...
  9. mysql规格单位转化_存储单位的换算(KB, MB, GB)
  10. html css绘制24色环图,HTML5 色环钟表
  11. 免费的onlineserver工具livezilla
  12. static关键字分析(含解析图)
  13. speedoffice文档中怎么删除页眉页脚
  14. CTF逆向-[CISCN2018]2ex-WP_mips-32架构以及base64换表
  15. matlab 中值滤波 medifit,基于多级中值滤波-提升小波技术的图像去噪
  16. 关系型数据库保证数据完整性和一致性的方法
  17. C语言数组fun函数逆置数组元素,C语言
  18. WebOffice使用二
  19. mysql 从后往前截取指定个数字符串_Mysql字符串截取函数SUBSTRING的用法说明
  20. 计算机室走廊文化内容,寝室走廊文化设计方案

热门文章

  1. py计时器 为了孙曌凌/CSDN
  2. idea 配置 jdk
  3. linux-alarm函数
  4. oracle中有关listagg函数的使用
  5. 计算机技术在学前教育的应用,浅谈幼儿教育软件在学前教育中的合理应用
  6. m基于PSO粒子群优化的第四方物流的作业整合算法matlab仿真,对比有代理人和无代理人两种模式下最低运输费用、代理人转换费用、运输方式转化费用和时间惩罚费用
  7. 深度学习中常用的优化方法
  8. csharp基础练习题:几何级数【难度:1级】--景越C#经典编程题库,不同难度C#练习题,适合自学C#的新手进阶训练
  9. 企业安装电脑监控软件是否侵犯了隐私权?
  10. 英语老师对我们的无语