转载自:http://www.klshu.com/1617.html

引言

  ”物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了’聚类’和’人群’之间的内在联系。 例如在现代数字广告投放系统中,最为关键的’人群定向’功能正是通过’聚类’算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。

  广告传递信息的受众是每个在浏览器前的自然人,然而互联网上的分析手段无法触达自然人,只能以他们上网的痕迹和记录作为在数字世界中的代表,这就是Cookie. 于是,以物拟人,以物窥人,才是比任何大数据都要更大的前提。明白了这一点,也就触摸到了人群定向的天花板–不可能百分之百精准。

  如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。它以cookie为单元,根据cookie的海量历史行为,推断其行为特征,兴趣爱好,并以此为依据,将最合适的、最有可能产生转化的广告展示给用户。受众行为分析一方面能够提高用户对于广告的反馈程度,增加转化率;另一方面能够降低广告主进行广告投放的成本,以更低廉的价格产生最佳的投放效果。

  下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。

  关键词标签

  关键词标签从何而来? 从网页中来。一个Cookie会被贴上什么样的标签,是由这个Cookie浏览过的网页等历史行为所决定的。这个预处理过程,大致可分为以下三步:

  (1)记录受众的历史行为,包括产生浏览、点击、搜索、注册、购买等行为的网页地址(URL),积累原始数据;

  (2)以商品内容和新闻内容为导向,建立关键词标签库,作为受众行为分析的基础元数据;

  (3)针对所有受众相关的URL,通过网络爬虫程序和语义分析(分类和关键词提取),生成每个cookie的初始标签集合。

  定义1:关键词标签模型

如图1所示,在每个关键词标签模型中,考察多种典型用户行为,如:浏览,点击,搜索,注册和购买等其它行为。在图中,每个标签就像是一根竹签,上面串着五粒或更多的糖葫芦。举例来说,关键词标签 Valentino (id为1) 的模型 σ={1,100,5,0,0,1} 表示在用户浏览的网页中共含有关键词Valentino 100个,在他/她点击过的页面中含有关键词Valentino 5个,而在他/她进行购买下单的页面中含有1个关键词Valentino。这个标签表征该用户对奢侈品品牌Valentino有相当的兴趣和关注度。

从上述关键词标签模型可以看出,通过提取用户感兴趣的特征标签集合,并以此为依据进行广告精准投放,主要的优点在于:

(1)能够细颗粒度地刻画出受众对某件事务或者领域的兴趣程度,从而使得投放更加精准。

(2)可以实现”协同过滤”的功能,即利用受众类别之间相似性,预判出受众潜在的购买意向。

受众对象模型

关键词标签模型记录了最原始关键词信息,将爬虫所得的非结构化文本抽象成为结构化的标签信息。接下来对标签的五个行为计数器进行加权归一化处理,遍历受众的全部关键词标签,量化每个关键词标签对于受众的重要程度,就形成了受众对象模型。

 定义2:受众对象模型

如图1所示,受众对象模型刻画的是受众Cookie的历史行为特征,而其维度就是不同的关键词标签,通常可达几十个乃至上千个维度。这就好比一杆草桩上密密麻麻地插满了不同口味的糖葫芦。映射函数θ(?)使得标签的行为被加权归一化,θ(?)可以根据不用的业务需求进行设计。一般而言,购买行为是最强的信号,权重最高;点击则属于次强级别,表明用户的主观兴趣,有明确的目的去了解相关信息;而浏览在很多情况下是被动行为,故权重值最低。

  在第一节的例子中, 假设白领女性Amanda的cookie ID为1, 拥有关键词标签Valentino: σ_1={1,100,5,0,0,1}, 被加权归一化后系数θ(σ_1)=0.75;同时, Amanda还拥有另一关键词标签宝马微型车品牌Mini Cooper: σ_2={2,90,15,0,0,1}, 则被加权归一化后可能有θ(σ_2)=0.8(点击行为的权重比浏览高);此外受众A还拥有其它一些标签,但权重系数比较低。那么该受众Amanda的模型就可表示为ρ_1={1,0.75,0.8,0.1,…}。至此,自然人的兴趣属性和特征,通过其浏览器Cookie为代表,经过上述建模手段被抽象和重构出来了。

  受众对象模型是受众聚类的原子单元,可以形象地理解为多维聚类空间中的一个”点”。通过受众聚类算法,将含有相似关键词标签集合的用户聚合在一起,就组成了受众聚类模型。

  本文介绍的整个受众行为分析的模型流程图如图2所示:

聚类模型和算法

累积受众对象模型后,我们已经坐拥成亿量级的受众’矿山’,其中每块矿石具有几十乃至上千的标签维度。 如何才能有效地开采矿山,提炼金子呢?这得有请在计算机届鼎鼎有名的数据挖掘工:聚类(Clustering)。聚类是一个将数据集划分为若干类的过程。聚类的宗旨和评判标准是使得同类对象相似度尽可能大,而各个类之间的相似度尽可能小。相似或不相似的描述是基于数据描述属性的取值来确定的,通常是用各对象在多维空间中的距离来表示。

定义3:受众聚类模型

常用的聚类分析算法大致包括划分方法,分层方法,基于密度的方法和基于网格的方法等几类。易传媒的投放系统所搭建的受众行为分析模型借鉴了CURE (Clustering Using REpresentatives) 层次聚类算法,并在其基础上参考了其他聚类算法(例如:BIRCH等),融合改进,试图使整个聚类算法更加符合实际的广告业务需求。CURE算法将分层方法与划分方法结合到了一起。它克服了偏向发现相似大小和圆形形状聚类的问题;同时在处理高维数据和异常数据时也表现得更加高效稳定。相比其他算法,CURE算法主要有以下几个优点:

  (1)通过使用”代表点”表示一个聚类,从而使得聚类算法能够适应各种不规则形状的类,而不仅仅是球形的。

  (2)通过因子α将代表点向聚类中心进行收缩,从而使聚类算法抵抗离群点的能力更强。

  (3)通过随机抽样和划分技术,使得CURE算法能够处理超大规模的数据,以加快聚类算法的执行效率。

  为了验证该模型的可靠性,易传媒技术团队根据统计学中一些经典的方法设计了验证系统,结果证明误差被控制在一个比较理想的范围内。

  定义4:聚类效果指标

该指标R^2的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以R^2大为减小作为代价。测试结果R^2的值在0.80左右,这表明易传媒这套算法的聚类效果比较好。

  继续前面的例子,已有受众A ρ_1={1,0.75,0.8,0.1,…},若还有受众B ρ_2={2,0.78,0.81,0.2,…},受众C ρ_3={3,0.77,0.82,0.1,…}等等。他们有极其相似的标签属性,并且规模足够大,那么运行聚类算法后,很可能会产生一个独立的受众聚类φ。这个受众聚类包括了相当数量的类似受众,其聚类属性就是标签集合”Valentino&Mini Cooper”。这个人群就是经过多道工序处理之后,数据挖掘工最终给我们淘出的亮灿灿的金子。

  人群定向投放

  作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。 其结果,受众聚类φ可能被同时映射到人群分类”奢侈品-Valentino”,”汽车-宝马”和”汽车-微型车”。根据第一节所述关键词模型的优势,它至少有如下两个用途:

  (1)当一个投放策略的人群定向选择了”奢侈品”或者”汽车”时,广告允许被指定投放给受众聚类φ所包含的Cookies.

  (2)利用两个标签在一个细分人群中的内在关联性,推测喜欢Valentino的人对Mini Cooper也感兴趣,可尝试进行交叉投放,例如把Mini Cooper的广告投放给曾购买过Valentino商品的回头客,反之亦然。

  结语

  综上所述,基于关键词标签和自然聚类的受众行为分析具有很强的扩展性和实用性。易传媒持续大量的实践统计结果表明这套受众行为分析方法使得人群定向的精准度相比于原始的分类标签法提高了30%以上。 并且,易传媒在所有涉及受众行为分析的产品中都已推广这一技术方法,包括防作弊监控和人群自然属性分析等。通过搭建这样的统一分析平台,能将所有采集到的受众信息最大限度地整合利用起来,产生规模效应。对于广告需求方来说,借助这样先进的行为定向技术,同时结合地域,人口属性定向,回头客定向等手段,多管齐下,将大大提高广告投放的精准度和投资回报比,切实做到有的放矢。

走近算法:受众行为分析与人群定向相关推荐

  1. 广告投放算法:受众行为分析与人群定向

    引言 "物以类聚,人以群分"这句古语不仅揭示了物与人的自组织趋向,更隐含了'聚类'和'人群'之间的内在联系. 例如在现代数字广告投放系统中,最为关键的'人群定向'功能正是通过'聚类 ...

  2. php人群定向搜索,【干货】人群定向玩法!超实用!

    原标题:[干货]人群定向玩法!超实用! 十一上来第一天,我们给大家送上超级干货! 看完觉得有用的话,就快快收藏起来吧! 有些商家在做快车推广的时候是直接抢关键词排名的,平均点击成本扣到5元甚至更高,导 ...

  3. ISP算法高水平分析(上)

    ISP算法高水平分析(上) 一.ISP基本框架及算法介绍 ISP是Image Signal Processor的缩写,全称是影像处理器.在相机成像的整个环节中,它负责接收感光元件(Sensor)的原始 ...

  4. Apriori算法进行关联分析实战

    使用Apriori算法进行关联分析(层次聚类) 一.基础知识 1.关联分析定义及存在的问题 定义:从大规模的数据集中寻找物品间的隐含关系,被称为关联分析或关联规则学习. 关联分析存在的主要问题:主要问 ...

  5. Apriori算法、FP-Growth算法、顺序分析、PrefixSpan算法

    Apriori算法.FP-Growth算法.顺序分析.PrefixSpan算法 目录 Apriori算法.FP-Growth算法.顺序分析.PrefixSpan算法 Apriori算法 FP-Grow ...

  6. 程振波 算法设计与分析_算法分析与设计之动态规划

    动态规划同样是一种将问题分解为求解子问题的方法,不过与分治不同的是,动态规划算法的子问题不是相互独立的,而是有公共的部分,即有重叠子问题,这个时候使用分治算法,将会重复计算公共的子问题,效率很低!而用 ...

  7. 【机器学习】Apriori 算法进行关联分析和FP-growth算法

    [机器学习]Apriori 算法进行关联分析和FP-growth算法 文章目录 1 关联分析 2 FP-growth算法理解和实现 3 FP增长算法的频繁项集产生 4 FP-Growth关联分析算法在 ...

  8. 算法设计与分析课程的时间空间复杂度

    算法设计与分析课程的时间空间复杂度: 总结 算法 时间复杂度 空间复杂度 说明 Hanoi $ O(2^n) $ $ O(n) $ 递归使用 会场安排问题 \(O(nlogn)\) \(O(n)\) ...

  9. 哈工大威海算法设计与分析_计算机算法设计与分析第一章 算法概述

    晓强Deep Learning的读书分享会,先从这里开始,从大学开始.大家好,我是晓强,计算机科学与技术专业研究生在读.我会不定时的更新我的文章,内容可能包括深度学习入门知识,具体包括CV,NLP方向 ...

最新文章

  1. python软件在哪里自学好_python自学教程【安装python及第一个程序】
  2. 并发编程 - 协程 - 1.协程概念/2.greenlet模块/3.gevent模块/4.gevent实现并发的套接字通信...
  3. 根号x_干货 | 设x=my+n?这不耍流氓嘛
  4. RHEL6基础之八查找、文件内容查看类命令
  5. 年前辞职-WCF入门学习(5)
  6. java中斗地主发牌程序代码_java模拟实现斗地主发牌小程序
  7. C# 异步定时器,可以重载; System.Timers.Timer
  8. 谁提供一个能用的ICHAT文字聊天室程序,急需
  9. [索尼]笔记本电脑驱动程序安装顺序?
  10. m1也能用的视频无损放大软件:topaz video enhance ai mac版
  11. 普通话测试-短文60篇文章,附带拼音(41-50篇)
  12. 谷歌高级搜索技巧之高级语法查询指令
  13. [转]河北省生源地助学贷款流程及注意事项
  14. golang 实现微信授权
  15. 新手轻松日赚300+搬砖项目详解
  16. geartrax2020中文繁体转简体
  17. 一起学 pixijs(1):常见图形的绘制
  18. 黑中介北京链家,收了中介费,不给你服务
  19. 基于PX4六旋翼无人机百米悬停定点降落
  20. 打破技术壁垒, 用SpreadJS 抢占“表格文档协同编辑系统”的入市先机

热门文章

  1. Ubuntu18.04之boost警告报错
  2. Android指定SDK编译版本
  3. Ubuntu 安装Samba(Linux与Windows共享文件)
  4. Video for linux 2 example (v4l2 demo)
  5. TensorFlow之Vscode调试
  6. VALSE学习(十六): Visual Question Generation and Answering-视觉问题生成和视觉问题
  7. 电脑机房用成品——名词解释
  8. 购买云服务器时如何选择适合的数据库?
  9. java多线程常用方法_Java多线程入门中几个常用的方法
  10. 内存颗粒和闪存颗粒的区别_颠覆你的常识,这内存上面混搭了四个厂家的颗粒...