在这个新媒体时代,各种低俗广告和短视频、造谣、刷单、违法曝光等内容不断触及法律底线,而人工审核的传统方式已经无法应付机器爆发式生成的内容量,因此,如何做好流量反作弊方面的智能风控一跃成为热点。
        本次论坛分享从胡一然老师处了解到GCN 图卷积神经网络的模型在异常流量识别方面的应用;从余意老师处了解到虚假流量给公司业务带来的损失以及全栈式实时风控引擎相比其他反作弊平台的优势;从王璐老师处了解到图算法的架构和建模流程、挖掘黑产的流程和方法;从张宇仁老师处了解到电商短视频行业的风险以及对抗黑产的难度、反作弊的特征、自动化对抗的价值。以下将以四位老师的分享顺序分节记录论坛笔记。

一、GCN图卷积神经网络

1.1 图神经网络发展史

图卷积神经网络是一种能对图数据进行深度学习的方法。2005年提出了图神经网络的概念,2013年图卷积引入图神经网络基于频域卷积,2016年引入基于空间卷积,2017-2019年GCN、GAT、GraphSage以及MPNN发展起来,2019年之后计算机视觉、自然语言处理、社交网络分析、交通流预测等都不断发展应用。图神经网络模型的出现,实现了图数据的端对端学习方式,为图数据的诸多应用场景下的任务提供了一个极具竞争力的学习方案。

1.2 图建模场景

图数据的应用场景越来越广,在图数据上的挖掘需求也越来越深,比如图上的管理计算,一些小号识别、账户常用设备管理等,都是关于用户账户方面的应用,如果不对机器号进行管理,将会影响后续整体的用户偏好统计,也会影响真正的客户群体对平台的满意程度,对公司业务管理方面也会带来损失;再比如图上的建模,应用于内容推荐、用户偏好挖掘等场景,例如羊毛党对某一些错误设置的优惠商品发起“进攻”,就会影响内容推荐的准确性,给公司维护平台带来更大的经济支出;还有社区检测/高密子圈挖掘,应用于恶意刷屏、用户可信度检测等方面,对现在的大型社交平台的“刷转赞评”、“抡博”等行为进行控制。

1.3 图建模的特点及优势

特点:端对端解决问题、融合结构和特征信息、弥补传统知识图谱的先天缺陷。
        优势:是对业界高热关注度和业务场景结合的实践探索,大规模图神经网络是认知智能计算强有力的、推理方法多样的应用场景。

1.4 GCN模型

离线GCN模型针对于大规模的数据,GCN的分类任务是GCN层加上分类器。基础模型为多轮迭代,GPU加速,以提高准确度。而针对大规模数据的调整,是使用随机GCN层参数,并且在CPU上使用分类器,不同分类器的效果也不同。


        实时GCN模型可以快速识别异常流量、进行小数据量的计算、无需数据标记。实时模型不需要训练,给出随机参数保证和带预测数据参数一样即可。

二、全栈式实时风控引擎

2.1 流量反作弊行业现状

目前的行业现状主要是虚假流量造成的数据样本失真,源于批量羊毛团伙对数据的干扰,导致消费群体的抽样画像中某地区、性别等关键数据出现大规模失真。
        目前的黑产链条完备,分工明确,从上游的黑产基本服务,如卡源卡商、猫池、接码平台、打码平台、注册机、代理IP等,到中游的账号生产与分销,如洗号团伙、盗号团伙、账号交易平台、养号团伙等,最后是下游的盈利变现,如投票、优惠券、微商、转赞评、秒杀红包等。设备、手机号、IP等黑产资源不断进化,使得反作弊的投入成本增加,识别难度加大。

2.2 流量反作弊服务搭建痛点

业务痛点:黑产技术变化快,应对策略需要快速验证上线。对模型的管理和部署服务成本变高。
        技术痛点:有海量的复杂数据源需要处理,千亿级的日流水只有12亿的月活设备,稀疏度高,数据异构严重,标准不一致。黑产团伙作案加大了技术难度。黑样本标签少导致风控建模困难。

2.3 天御流量风控平台

可配置化的策略管理平台可以解决策略分散无法管理、策略上线受制于开发、对接成本高等问题。

        天御流量反作弊平台具有策略配置能力、数据建模能力、策略实验能力、业务分析能力等,可以快速制定防控策略对抗黑产。包括策略管理、实施指标管理、模型管理、策略实验室、风险监控管理、案件中心、变量中心等模块。可以针对不同行业场景下的恶意问题,快速制定出防控策略体系。
        针对黑产团伙作弊,基于同构异构混合模型,挖掘行为和关系链数据。

        流量反作弊系统的落地场景及风控服务如下图所示:

三、图算法在反作弊中的业务实践

3.1 图算法架构

图算法包括图构建、图传播、图分割和图嵌入四大类,广泛应用于风控黑产团伙挖掘、图Embedding特征、推荐向量召回等场景中。

        但目前使用图算法进行反作弊仍然存在痛点,比如传统的图算法过于依赖图的构造,且图割算法不灵活、不可控;黑产篡改某些关键维度信息图模型易失效;通常有业务反馈,团伙整体识别无误但存在个体的误杀;各场景单独建模耗费人力大,且团伙在各个场景常流窜作案,单场景信息利用率低。因此算法有了如下的演进:

3.2 建模流程

建模流程如图所示,从简单的图构建开始,对节点和边进行定义,再对图进行学习应用,以达到风控效果。

四、反作弊的自动化对抗

4.1 行业与风险

字节的业务范围较广,主要风险存在于电商、短视频、游戏、社交这几大块平台,电商包含刷单、羊毛党、黄牛秒杀等行为;短视频包含虚假粉丝、抄袭搬运、数据盗爬等行为;游戏包含游戏外挂、打击工作室、虚假拉新等行为;社交包含账号盗用;感情诈骗、垃圾广告等行为。
        目前风险对抗难度从小到大分别为纯机器人、人机结合、真人作弊。黑产在每个账号上投入的平均成本在变大;黑产从事更高收益的作弊活动,比如拿高成本投入去追逐高净利润;作弊用户量级会变少但识别难度不断增加,并且机器人作弊并不会彻底消失。

4.2 反作弊自动化对抗系统

引入自动对抗,早期和运维期更少地投入人力,能更快进入稳定状态,能有更持续的业务效果。

        从早期低表达能力的开环系统思路到后期的宏观认知,自动对抗系统的发展已经越来越成熟。


注:图片为论坛直播会议手机截图,故存在放大后像素失真的情况。

2021.05.15智能风控峰会之流量反作弊论坛-论坛笔记相关推荐

  1. 2021.05.15继承球体和圆柱体

    原文链接: 自动车 手动车:https://codeeggs.github.io/2021/05/15/2021.05.15%E7%BB%A7%E6%89%BF%E7%90%83%E4%BD%93%E ...

  2. 广告流量反作弊风控中的模型应用

    作者:vivo 互联网安全团队- Duan Yunxin 商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务风控,有效保证各方的利益:算法模型可有效识别策略无 ...

  3. 【实践】阿里妈妈流量反作弊算法实践

    阿里妈妈是阿里巴巴集团旗下商业数字营销平台.依托阿里巴巴集团核心的商业数据和超级媒体矩阵,为数百万的广告主每年提供上千亿金额的广告服务. 2020年中国互联网广告市场规模达5292亿元,根据秒针< ...

  4. 阿里妈妈流量反作弊算法实践

    阿里妈妈是阿里巴巴集团旗下商业数字营销平台.依托阿里巴巴集团核心的商业数据和超级媒体矩阵,为数百万的广告主每年提供上千亿金额的广告服务. 2020年中国互联网广告市场规模达5292亿元,根据秒针< ...

  5. 爱奇艺流量反作弊的“术”与“道”

    爱奇艺流量反作弊的"术"与"道" 本文根据爱奇艺张晓明老师在DataFun Talk大数据风控系列活动中分享的<爱奇艺流量反作弊的"术" ...

  6. 回顾·爱奇艺流量反作弊的“术”与“道”

    作者:张晓明 整理:DataFun社区 社区公众号ID:datafuntalk 今天主要从以下几个方面介绍,首先介绍下流量反作弊相关的介绍,然后是爱奇艺流量反作弊的"道",爱奇艺流 ...

  7. 查看树莓派处理器型号.2021.05.15

    Raspbian GNU/Linux 10 (buster) 查看树莓派处理器型号 cat /proc/cpuinfo 不是太准确 比较准确的查看方式是直接查看板子芯片上的刻印

  8. 限量放送,2018全球智能驾驶峰会「免费拿票攻略」接住了!

    2018全球智能驾驶峰会即将开幕,手里没票的小伙伴是不是慌得一批? 10月26日.27日两天,雷锋网&新智驾(微信公众号:AI-Drive)联手苏州高铁新城管理委员会.数域.上海交通工程学会, ...

  9. 会议交流 | 智能风控技术峰会(请关注图分析相关论坛)

    2021年5月15日,9:00-18:00,DataFunSummit--智能风控技术峰会将如约而至,本次峰会由3位主席和8位出品人精心策划而成,邀请来自业界的40余位嘉宾从风控系统的架构,到智能风控 ...

最新文章

  1. Turing渲染着色器网格技术分析
  2. 互联网各大公司职级和薪资一览
  3. 科普长文揭秘生命为何会具有主观能动性
  4. BZOJ4943 洛谷3823 UOJ315:[NOI2017]蚯蚓排队——题解
  5. PWN-PRACTICE-BUUCTF-1
  6. 复习JavaFile类_递归_综合案例
  7. php 周末 培训,济南php周末培训班
  8. Python 之父谈放弃 Python:我对核心成员们失望至极!
  9. 在Ubuntu 18.04上安装PostgreSQL 11和PgAdmin4
  10. 卧槽:这款 SQL自动检查神器,吊炸天的功能,真TMD多!!
  11. 中国各省份省会的坐标
  12. 【机器学习】在生产环境使用Kafka构建和部署大规模机器学习
  13. 20162328WJH实验五网络编程与安全实验报告
  14. webstorm下载安装教程
  15. css 点击事件击穿
  16. 河南省哪所技校学计算机软件工程,河南技校排名前十有哪些?都有什么专业
  17. 迪思杰支持mysql_迪思杰Oracle数据库复制产品
  18. word2013插入excel对象报错_excel插入对象文件夹 Excel2013中插入对象文件的方法
  19. Recsys'21 | 基于Transformers的行为序列建模
  20. php riak,PHP操作Riak

热门文章

  1. UI设计师是做什么的?
  2. Golang 等比例调整图片分辨率且用黑色补齐多余部分
  3. Docker managed volume
  4. 微信小程序加入(长按识别)群聊(群二维码)
  5. 一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集
  6. 屏蔽 app 开屏广告,舒畅了
  7. 校招详解(术语、时间、流程)
  8. 新方法破解Wi-Fi WPA2加密平均只需10分钟
  9. 三星手机android版本升级包,三星平板电脑N8000闪存机将Android版本升级到7.1的过程记录...
  10. 啥?Grafana 还能为日志添加告警?