http://www.infoq.com/cn/articles/4-billion-mobile-device-user-portrait-and-tag-architecture

大家好,我是来自TalkingData的王鹏,很高兴在这里和大家一起探讨大数据的应用。

说起大数据的应用可能很多朋友们脑子里边第一映像就是画像,我想从以下几个方面跟大家聊聊画像相关的事情:1、什么是画像;2、画像的用处;3、如何进行用户画像;4画像应用中的难点。

什么是画像呢?可能大家看到过一些外文资料或者演讲中出现过profile一词,其实和画像是一个概念,都是从不同的维度来表达一个人,这些维度可以是事实的,可以是抽象的;可以是自然属性,比如性别、年龄;可以是社会属性,比如职业、社交特征;可以是财富状况,比如是否高收入人群,是否有固定资产;可以是家庭情况,比如是否已经结婚,是否有孩子;可以是购物习惯,比如喜欢网购还是喜欢逛商场;可以是位置特征,比如在哪个城市生活;可以是其他行为习惯。总之,所有大家能想到的描述一个人的特征的都可以算作是画像的范畴,画像其实就是想方设法用数据来描述人的特征。

画像有什么用处呢?大家之所以要进行用户画像,就是为了解决业务问题,或者为了拓展一个新用户,或者为了获得一个新订单。想要获得新用户,首先必须知道自己产品定位的用户画像(也就是用户长什么样子,有什么行为特征),而很多产品设计的时候可能由于定位不清晰,对用户的了解不够,导致最后产品上线后效果与预期大相径庭。

这里举一个例子,A银行的电子支付团队计划与Uber公司合作,在春节后以短信推送优惠劵的方式进行营销,选择了多类人群进行投放,其中有“有打车需求且有车”和“有打车需求且无车”两类人群,本以为“有需求且无车”人群的广告触达的营销效果会更好,结果却完全相反,“有需求且有车”人群的广告触达的比例反而最高。这可能映射出无论是开车还是打车,习惯了车反而离不开车。用数据来画像正是帮助企业了解用户和定位产品的最直接的方法。

综上我们可以看到要向更好的解决业务问题,首先必须明确业务目标,而用户画像是帮助企业明确目标客群的重要手段之一。当企业了解了自己的用户都长什么样子以后,接下来的任务就是如何将有类似画像特征人群的潜在用户变成自己的用户,也就是在营销上获新客的过程。所以,从大的框架来看,用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。

如果仔细琢磨这两个目标,其实在根源上逻辑是有些相悖的。了解现有用户的画像,需要的是少量、画像特征覆盖度全面的无倾斜的精准样本,这样能更精确的定位产品的用户。而通过画像结果做广告营销获取新用户,在一定程度上需要的是大量的相似样本。量的大小和精准度的不同决定了后续画像模型在应用设计中的不同。

提到用户画像就不得不提到一个词“标签”。标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。

举个例子,如果一款卖男装的app想在近期做营销,只筛选“男性”和“网络购物”这两个标签进行投放,可能效果并不一定理想。因为“性别(男/女)”可能有多种维度,真实性别男女是一种维度,网络购物特征男女是一种维度,性取向男女可能又是另外一种维度。因为网络的发展,你甚至都不知道网络的另一端是不是一个人,更何况是男女呢。想要正确的设计标签模型和计算处理数据,必须了解画像标签应用的场景和目标。

接下来如何进行用户画像呢?这完全取决于业务目标(需要什么样的画像标签)和有什么样的原材料(有什么类型的数据源),基于这两样才能确定使用什么样的模型设计和数据计算处理方式。就像做菜一样,要做一顿美味的晚餐,必须知道客户是想吃中餐还是西餐,配菜都有哪些鱼蛋肉和蔬菜,然后才能确定牛肉是红烧还是煎炸。

仍然以性别(男/女)为例,尝试演绎一下刚才的三个场景。

如果业务是征信场景,想知道的是这个人的真实性别(男/女),在没有全量真实数据的前提下可以采取如下的方法来处理,可以选取少量真实样本,使用这些真实样本追加一些特征因子,使用lookalike算法进行样本扩展,将该少数样本特征扩展到大量或者全量数据。当然,这些数据的准确度取决于样本的均衡程度和算法的质量。

如果业务是网络购物的电商场景,我们先不尝试判断真实购买男装的是否是男性(很多已婚人士是妻子负责网购丈夫的装备),仅仅考虑将来该网络账户实体是否会购买男装的角度考虑,需要的是“男装购买倾向”的标签,可以直接基于所有账户实体以往购买记录来计算处理该标签。

如果是业务场景是blued(一款同志交友app)定义的男性又是另外一个特殊群体,基于客户想拓展新客,这里定义的特殊男性群体或许可以定义为“男性同志”标签,而实现该标签可以考虑通过安装了类似同志交友的app人群或者以同志人群经常出现的聚集地进行计算处理。

所以说针对不同的行业,不同的应用场景,需要使用不同的数据源进行不同的标签设计和计算。

说起标签,可能每个行业有每个行业的标签体系,各个公司基于自己的数据源和特征不同也设立了不同的标签体系。我认为这些标签都可以归纳为以下几个方面。

  1. 人口属性:包含性别、年龄等人的基本特征
  2. 资产情况:车辆、房产、收入等资产特征
  3. 兴趣特征:阅读资讯、运动健康等兴趣偏好
  4. 消费特征:网上/线下消费类别品牌等特征
  5. 位置特征:常驻城市、职住距离等
  6. 设备属性:所使用终端的特性等

要支持以上这些标签的设计和计算,需要多种维度的数据源,从产生维度来看:可以包含PC端的数据、移动终端的数据、线下的数据;从数据拥有者来看:可以包含一方客户自己的数据、外部官方渠道的数据、市场采集的数据;从数据类型来看:有社交数据、交易数据、位置数据、运营商数据等。

使用这些不同源的数据,我们如何计算处理业务需要的标签呢?一般都会经过如下几步:

  1. 数据抽取:从不同数据源抽取要计算标签的数据原材料。
  2. 数据标准化:针对抽取的数据将其清洗为标准格式,将其中的错误数据和无效数据剔除。
  3. 数据打通:不同来源的数据有不同的主键和属性,如何将这些数据关联起来是数据打通的关键,比如有设备的wifi信息,又有设备的poi信息,就可以通过wifi将设备终端和POI建立起关联。
  4. 模型设计:针对不同的数据内容和业务目标设计不同的规则和算法进行模型的构建,并使用小样本数据来验证模型的可靠性。
  5. 标签计算:在模型可靠性验证的基础上,部署生产运营环境来进行标签计算。

一般标签计算无外乎以上过程,以“大学生”标签为例,假如我们需要针对移动终端人群设计一个大学生标签,而我们并没有每个大学生的入学信息和证件信息,我们该如何操作呢。首先进行业务分析,发现大学生的行为特征,一般大学生都会在大学校园内活动比较多,我们可以将全国2000多所高校的位置找到,根据移动终端设备的位置信息来筛选“大学生”人群;另外大学生可能还会使用一些特殊的app比如考研类、四六级、超级课程表等这些特殊app,我们可以通过app进行“大学生”人群的筛选。

如果不用算法,就只用规则,我们想找精确的“大学生”人群,可以将位置和app行为两个特征叠加使用;如果我们想要扩展样本进行大规模广告投放,可以考虑含有位置、app行为任意一个特征的人群,同时还可以通过算法进行lookalike的扩展样本学习。

注:以上表达的都是数据和标签处理的逻辑过程,实际业务中的数据处理要视具体情况而定。

最后说一说用户画像和标签设计/计算中的一些难点。

1. 如何定义画像主体?也可以理解为如何唯一标识一个实体?

可以理解真实世界每个人都是一个实体,但是虚拟世界他可能就变身为多个,比如人可能有一个身份ID,但是可能有多个手机,就对应了多个手机号,多个设备终端ID,那就对应多个移动终端的使用行为;这多个终端ID分别代表了这个实体的不同特征,只有将这个实体拼接起来才能代表完整的画像。一个人可能有多个qq号,如果从qq行为的角度分析,同样的逻辑。这是终端实体多对一的体现。

反过来也会有一对多的情况,比如就一个家庭用的ipad,孩子用ipad来玩游戏,父亲用ipad来查收邮件,母亲用ipad来购物,这一个ipad代表了多个实体的行为特征,并且无法分拆。所以要想唯一完整的定义一个实体其实很难。所以在业务领域中追求标签的完整性有时候是一个很难达到的目标,反过来应该更多的关注标签的代表性,无论是一对多还是多对一,只要能通过标签筛选出来想寻找的受众群体就可以,即便是家庭公用的ipad,有游戏标签也表明了家庭中有成员有该方面的兴趣偏好。

2. 如何打通不同源的数据?

pc端的行为信息、移动终端的行为信息和TV端的行为信息,如何将这些信息关联起来?核心问题在于如何将这些终端的唯一标识ID打通。TalkingData的数据体系已经建立了以TDID为核心ID的关联图谱,TalkingData的IDmapping能力已经实现了跨设备ID的关联映射。所以要解决不同源ID的打通只要接入一家类似TalkingData的数据即可。

感谢大家能如此长时间的听我唠叨,希望这些信息对您的工作能有所帮助。

大家都刚刚跨入大数据的门槛,大数据在各个领域的应用任重而道远,希望同行多多切磋学习,一起前行。

答疑部分

Q1:画像的时候常用的算法有哪些,比如什么类型的标签适合什么类型的算法?怎么评估画像画的好坏?

王鹏:我们除了用常规的算法以外,还有自研的开源算法系统fregata,基于spark,支持10亿样本1亿维度的超大规模运算,无需调参,超高速度。

(点击放大图像)

评估画像的好坏:1、小样本的真实验证;2,在实际的case中迭代验证

Q2:画像的标签体系一般怎么设计,还有你们的标签体系如何存储?更便于不同画像标签之间的追溯?

王鹏:画像的体系一般参考你们公司的业务体系来设计。标签的存储也取决于你的服务应用场景:我们的存储有多种:hdfs、vertica、hbase。标签的追溯属于另外一个问题,取决于你的标签的生命周期,有的标签就是最新的,有的标签就是每周每月加工的,有的标签是有时间衰减迭代的。

Q3:标签的确定一般是怎样的?是人工打标签,想业务场景,还是通过自动的算法跑出来?TalkingData目前又是如何实现的呢?

王鹏:标签的确定,一般是先人工筛选小样本规则,进行验证,规则合理后,在通过算法扩展。

人工和自动是结合的,取决于该标签的具体场景、字典数据的使用、主数据的量等各种因素。

TD的标签也是结合这二者一起完成的。

Q4:计算标签的具体流程是怎样的 效果如何评估 谢谢 ?

王鹏:计算标签的具体流程我在刚才讲的过程中已经说过了,这里可以再贴一下:

  1. 数据抽取:从不同数据源抽取要计算标签的数据原材料。
  2. 数据标准化:针对抽取的数据将其清洗为标准格式,将其中的错误数据和无效数据剔除。
  3. 数据打通:不同来源的数据有不同的主键和属性,如何将这些数据关联起来是数据打通的关键,比如有设备的wifi信息,又有设备的poi信息,就可以通过wifi将设备终端和POI建立起关联。
  4. 模型设计:针对不同的数据内容和业务目标设计不同的规则和算法进行模型的构建,并使用小样本数据来验证模型的可靠性。
  5. 标签计算:在模型可靠性验证的基础上,部署生产运营环境来进行标签计算

效果评估除了刚才说的真实case验证以外,还可以考虑外部标签的交叉验证,自有标签的交叉验证,比如:有“已婚”标签的,不可能是“18岁以下”人群;“已婚”标签的“大学生”人群也应该极少;“大学生”标签的人群“有车”标签的也应该很少。

Q5:在做用户画像时如何解决数据准确性不足的问题,毕竟非BAT公司太多,很多数据都不完善,或者说没有准确数据。

王鹏:说到这个问题,谈谈我对大数据的看法:我理解大数据本身不存在所谓的正确性,大数据是用来验证人的先验知识/经验的一种工具,这个里边应该考虑的不止是准确性的问题,而是如何能更好的提高你认为的准确率的问题,大数据由于体量大,需要的是数量、时间等多维的迭代,维度的扩展。

转载于:https://www.cnblogs.com/davidwang456/articles/9815733.html

40亿移动设备的用户画像和标签架构实践相关推荐

  1. 大数据用户画像技术原理和实践

    在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要.本文介绍了用户画像的理论和实践,以及在实际中的应用.如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~ ...

  2. 数据分析基础篇16讲之07用户画像:标签化就是数据的抽象能力

    07 用户画像:标签化就是数据的抽象能力 用户画像建模的三个步骤有哪些?以及它每一步骤的目的是什么? 第一步:统一化 目的:用来统计用户的唯一辨识,从而保证该用户的唯一性 第二步:标签化 目的:给用户 ...

  3. 3种思路,打造用户画像的标签体系

    转自http://www.yixieshi.com/61689.html 什么是用户画像 用户画像,是大数据三百六十行居家旅行.装逼煽情必备的概念,它还有个类似的概念叫受众定向.个人觉得," ...

  4. 转转用户画像系统建设与实践

    1. 背景 转转作为二手电商交易领域的领军者,随着这几年的高速发展,用户数和业务量都急剧增长,为了更好的服务用户,并持续增长,产品运营的战略战术也会随之发生变化.在创业早期产品一般以粗放式运营为主,力 ...

  5. 转:架构师实践日|亿级短视频应用秒拍的架构实践

    转自: http://mp.weixin.qq.com/s?__biz=MjM5NzAwNDI4Mg==&mid=2652190131&idx=2&sn=6672422564e ...

  6. 用户画像:标签化就是数据的抽象能力

    王兴说过,我们已经进入到互联网的下半场.在上半场,也就是早期的互联网时代,你永远不知道在对面坐的是什么样的人.那个年代大部分人还是QQ的早期用户.在下半场,互联网公司已经不新鲜了,大部分公司已经互联网 ...

  7. 基于bitmap实现用户画像的标签圈人功能

    用户画像系统中有一个很重要的功能点: 基于标签圈人.这里有个很核心的概念,什么是标签? 标签是简化用户表示的一种思维方式. 刻画用户的标签越多,用户画像就越立体. 比如: 90后,码农,宅男 3个标签 ...

  8. 大数据【企业级360°全方位用户画像】标签系统介绍

    在前面几篇博客中,博主已经为大家带来了什么是用户画像,以及项目的一个基础介绍.用户画像的核心就是打标签,本篇博客,我们来聊聊关于这个项目的标签系统. 文章目录 1. 标签系统 1.1 基础标签 1.1 ...

  9. 用户画像第四章(企业级360°用户画像_标签开发_挖掘标签_用户购物性别模型-USG)

    用户购物性别模型-USG USG模型引入 USG(User Shopping Gender) 2.5.1.AI驱动的电商用户模型:性别属性是这样确定的 首先带领大家了解一下,如何通过大数据来确定用户的 ...

最新文章

  1. 掩耳盗铃之使用WebBrowser封装网页
  2. 关于电脑的几十个单词及其缩写
  3. 【推荐】最全的积分墙基础知识大全:积分墙渠道运营那些事儿
  4. java与MySQL做购物系统_java Swing mysql实现简单的购物系统项目源码附带指导视频教程...
  5. struts2和struts1认识
  6. Linux Bash Shell字符串截取
  7. 停滞数年后,ElasticJob 携首个 Apache 版本 3.0.0-alpha 回归!
  8. ftell函数使用注意事项
  9. EasyUI框架介绍
  10. 【AI应用】海康威视iVMS-4200软件安装
  11. 计算机单片机实训报告,单片机实训报告范文
  12. 获取iOS设备的型号(iPhone4,iphone5,iPhone5s......)
  13. matlab实现CAPM模型
  14. 互联网行业公司岗位与发展方向
  15. 中国互联网的沧海桑田
  16. 2018 dnc .NET Core、.NET开发的大型网站列表、各大公司.NET职位精选,C#王者归来
  17. android 原子文件,Android原子操作
  18. 西乔说要把「神秘的程序员们」当做一个文化产品来做
  19. stm32F767开发版基本介绍
  20. python3微信好友个性签名生成云图

热门文章

  1. 卡写入速度_看清商家买相机送SD卡的套路,一文教你掌握存储卡选购秘诀
  2. c语言1至1000能被7或11 个数208 数下来没有208个,数学高手看过来:10000以内不能被3,5,7,9,11中任何一? 爱问知识人...
  3. python 开运算_形态学去噪python(开运算,闭运算)
  4. 调用接口登录禅道_第三方应用配置免密登录禅道
  5. python的迭代器指向第一个字符_python(七)字符串格式化、生成器与迭代器
  6. java字符型转百分比_小数转换成百分比,转字符串
  7. socket函数介绍
  8. C#中的数据类型转换
  9. python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析
  10. mvc创建连接mysql_MVC+EF6-CodeFirst 连接MySQL并创建数据库和表_Demo