转载
百分点是一个推荐服务的提供商,但是已经转型为大数据解决方案的提供商。

首先看一下大数据与应用画像的关系,现在大数据是炙手可热的,大数据的4个V都比较了解,大数据应该说是信息技术的自然延伸,意味的无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT时代,it系统围绕这业务服务,在这个服务的过程中沉淀了许多的数据,在数据的基础上做一些分析。但是到了DT时代就不一样了。数据是现实世界的虚拟化展现,数据本身构建了一个虚拟世界,it系统构建在虚拟世界,变的更加智能,dt战略在很多公司慢慢开始应用,越来越多的公司管理层开始考虑这方面了。

大数据无处不在体现在,第一我们社会信息化的建设越来越发达了,第二是随着可穿戴设备的发展,人产生了越来越多的数据,接入网络中,同时人与人的沟通的方式也不仅仅是面对面,因此我们需要重比特流中去认识人类,因此构建用户画像这件事就变得更加重要而且现在机器也变得很智能了,所以我们还要教会机器来认识人类,这样才能在画像的基础上构建应用,比如个性化推荐,精准广告,金融政信等。
用户画像,标签,360度用户视图等等,这些概念理解上可能大多数人都似是而非。
用户画像感性认识

现实生活中的用户画像,如上描述的人,大家都会想到诸葛亮,图片中的会想起希特勒。身份证,想起奥巴马。这些都是生活中的画像,都是为了描述一个人,但是他们的描述方式和角度都步一样。

但是从我们这些描述中可以看到一些共性,主要体现在这几个方面:第一个是目标,目标都是描述人,理解人,这是用户画像最大的目标。第二个是我们描述的方式,可以分2种:第一种是非形式化的手段,语音,文本,都是非形式化的,另一种的形式化的,比如刚才的身份证,你可以把身份证放在读卡器上,就可以把对应的信息读出来。第三就是组织,就是结构化和非结构化,我们面前的球员是结构华的数据。第四个就是用户画像标准,这个很重要,这是我们一会要说的,为什么?比如说,我们在描述用户的过程中要有一些共识,举个列子,我说某个人特别2次元,这个词对方可能听不同,是因为双方对2次元这个次没有达到共识,所以必须有一套达成共识的知识体系,不然用户画像这件事是没有办法达成。最后一个是验证,我们做完画像后,一定要去验证。举个例子,我说这个人特别不靠谱,相当于是打了一个标签,你一定会反问我为什么步靠谱,你的依据是什么,就是我们给用户生产画像之后,我们一定要给出依据和推理的过程,告诉你这个结果是怎么得到的,不然就没有可信力。

前面说了那么多,到底什么是用户画像呢,用户是对现实世界中用户的数学建模,它包括两个方面:一方面是描述用户,没有说人,是说明它跟业务关系紧密,他是从业务中抽象出来的,因此来源现实,高于现实,第二个是用户画像它是一种模型,是通过分析挖掘用户近可能多的数据信息得到的,它是从数据中来的,但是对数据做了抽象,比数据高,后面所有用户画像的内容都是基于这个展开的。比如月光族,这个肯定是挖掘分析出来的,不是说原来的数据中包含月光族这个标签,所以说这是它的两层含义。

然后就是刚刚说的,用户画像是现实生活中的数据建模,但是我们如何描述这样一个模型,核心是要有一套标准的知识体系,描述用户画像。另外一个方面,就是要有一套数据化,符号化,形式化的方式去描述这套知识体系。而且机器要能够理解这套知识体系,如果只有人理解,这个东西是没办法使用的。

69,70年代已经存在了,做语义分析的朋友可能听过这个本体论,在90年代的时候,本体和语义非常流行,这个东西是比较复杂的,它帮组机器u理解知识体系,由于非常复杂,我就简单说一下,类似与UML这种语言,包括实体,联系,推理等等。就是说通过这套方法论,可以理解知识,甚至教会它怎么去推理。这就是说的本体论,非常复杂。

我这里有一套非常朴素的方法,大家可以看一下这张图,我们在实现世界,我们在现实世界中怎么表述知识。我们最开始学习语文的时候用的是什么,是新华字典不是,字典中大家看到的组织形式是什么,首先是词,词作为它的表现符号另外是什么,它的后面跟着比较长的解释文本,就对于一个概念,那么就是说,这里的符号与概念是相对应。用我们现实生活中的一个列子来说,你比如那够这个列子来说,狗这个词是一个符号,但是对应我们脑子中的概念是什么,‘四条腿’,‘一个能看家的,一个会汪汪叫的动物’。对于的实体就是我们现实生活中的各种品种的够,是么。我希望大家可以记住这张图。

上面这张图中的模型就对于前面途中的所指的概念,标签就对应这张图上的符号,要和大家强调的两点是标签它更业务密切相关,第二点,在这张图中,标签是一个符号要去表达模型对不对。举一个列子,比如我这个产品,想卖给白领这个群体,白领这个词就是一个符号,可以表示一个用户群,比如“收入高,做办公室”,所以标签就把它做了一个比较好的定义。

刚刚说了用户画像的定义,标签的定义,那么我们平时经常说的标签和画像。他们之间是一个什么样的关系呢?其实是一个整体和局部的关系,用户画像是整体,标签是局部,整体和局部的关系通过标签体系体现。整体和局部包含两个方面的关系:化整为零,整体如何反映在局部;化零为整,局部如何组成整体:对每个人都应该观察到一双眼睛和一个鼻子,化零为整:只有位置合适的一双眼睛和鼻子我们才能人为他是一个人。
这里还有标签体系,要重点说的是,我们在给实际企业客户构建用户画像的过程中,需要和他们业务部门,产品部门去构建标签体系,因为标签是和业务密切相关的,他们的标签体系是要搜集所有的业务方的需求,制定出来标签体系以后,给出每一个标签标准的定义,然后经行标签的开发。

最后说的是用户画像的验证,就是说我们在给客户提供方案的时候,他们经常会问一个问题,构建的用户画像的结果怎么去验证?在我们看来,用户画像作为用户在现实生活中的建模,对模型的验证可以分为两个方面:一个是准确率的验证,你的标签打得准不准,就是我们经常说的准确率,第二个是标签打的全不全,但是对于这两个方面来说,你是没办法同时满足。现实业务中无法追求完美因为你步可能做出一个100%玩呗的标签体系。

因此我们验证更多谈的是准确性,可以分为两种,一种是有事实标准的,比如生理性别,可以用标准的数据集验证模型的准确性,另一种是无事实标准的,比如用户的忠诚度,我们只能验证过程,具体的效果需要通过线上业务A/B Test进行验证。
前面介绍了用户画像的理论:用户画像是对现实用户的数学建模,标签是一个符号,标签与业务关联在一起才有意义,用户画像和标签是整体和局部的关系。接下来介绍用户画像的实践。

上面这张图是用户画像生产和应用的逻辑架构,包括5层:数据采集层是收集用户的各种数据,就拿一个公司来说,它得数据源分布在各地,有crm系统,有分散在各个部门的,构建DMP(数据管理平台)的一个难点就是把各个数据都搜集起来,甚至要老板去推动。数据管理层对这些数据进行清洗,拉通,整合以及分析建模,构建用户画像,数据接口层和应用层基于用户画像,提供各种分析,服务类以及营销类的应用,服务与金融,制造,航空等各个行业。

要紧准的构建用户画像,面临这许多技术难题,接下来重点介绍用户多渠道信息打通,多渠道产品信息打通以及用户数据挖掘机建模,3方面来展开。

首先接扫用户多渠道信息打通,用户与企业的出点非常多,比如手机,邮箱,cookie等等,我们要将同一个用户的这些多个出点进行打通,需要站在上帝的视角,我们可以把用户id视为图中的定点,如果用户的两个触点在同一个场景,比如邮箱登陆,那么我们会在用的邮箱和cookie用一条边经行连接,从而构建一张图。


图中连通的id可以视为同一个用户,从而实现用户拉通,而且连通的可信度由业务的密度决定,密度越高,对可信度的要求越高,比如推荐是低密度业务,即使识别错误,影响比较小,但是对于电商的短信通知服务,如果识别错误,体验就会非常差。

刚刚讲到的是用户打通,现在来要讲的是如何将不同渠道的产品拉通,比如我们的电商客户第一方的标签体系都是有差别的,所以标签体系拉通就是建立一套标准的分类标签体系,一般都是一个分类树,任何一个商品都能划分到这个分类树的叶子节点。根据我们的时间经验,手工映射成本高,难以大规模开诊,我们实际是采用机器学习模型+少量的人工规则来实现。

具体的模型实现见上面这张图,要实现自动分类,其中的难点步在于模型,而在于获得训练数据,featrure,engineering以及分类树层级节点之间的依赖问问题,在这里就步具体展开了(就需要你展开的,我晕),目前对于我们电商渠道的商品的分类准确率在95%以上。

在用户画像建模方面,我们把标签建模分为4层:第一层是事实类标签,比如用户购买了什么类品,第二层是机器学习模型的预测标签,比如当下需求,潜在需求等,第三次是营销模型类标签,比如用户价值,活跃度,忠诚度等等,第四层是业务类的标签,比如高奢侈一组,有房一组等他是有底层标签组合生产的,通常有业务人员定义,前面介绍了用户画像的理论和时间,接下来介绍基于用户 画像的应用。
先到这里,下篇在学习。有点多了内容都……

百分点苏海波-用户画像的构建与使用1相关推荐

  1. 百分点苏海波-用户画像的构建与使用2应用

    转载自百分点苏海波 上篇写了画像的理论性的知识,这篇学习下应用. 用户画像的具体应用包括售前的精准营销,售中的个性化推荐以及售后的增值服务等.用户的标签纬度和应用是相互相城的关系,一面可以根据现有的标 ...

  2. 一文搞定ClickHouse在苏宁用户画像场景的实践(建议收藏)

    关注公众号,获取更多一线大厂最新资讯! 摘要:今天分享的主要内容是ClickHouse在苏宁用户画像场景的实践 分享时间:2021年5月26日 内容分享:杨兆辉 摘要整理:皮卡丘 主要内容: 苏宁如何 ...

  3. 从0到100 | 用户画像的构建思路

    来源:DataFunTalk 本文约6700字,建议阅读9分钟 跟自然界的树木一样,要想长得茁壮参天,必须有一个稳定的根基和合理的结构. 标签:用户画像 [ 导读 ]用户画像作为当下描述分析用户.运营 ...

  4. 深度学习核心技术精讲100篇(五十二)-用户画像系统构建全思路解析

    前言 用户画像作为当下描述分析用户.运营营销的重要工具,被全部互联网人熟知,用户画像的定义并不复杂,是系统通过用户自行上传或埋点上报收集记录了用户大量信息,为便于各业务应用,将这些信息进行沉淀.加工和 ...

  5. 用户画像的构建与使用1

    百分点是一个推荐服务的提供商,但是已经转型为大数据解决方案的提供商.    首先看一下大数据与应用画像的关系,现在大数据是炙手可热的,大数据的4个V都比较了解,大数据应该说是信息技术的自然延伸,意味的 ...

  6. 关于用户画像产品构建和应用的几点经验

    https://zhuanlan.zhihu.com/p/27329292 贝聊是一款提供给幼儿园使用的APP,兼具"工具属性"."社交属性"和"资源 ...

  7. 用户画像——如何构建用户画像系统

    为什么需要用户画像 如果你是用户,当你使用抖音.今日头条的时候,如果平台推荐给你的内容都是你感兴趣的,能够为你节省大量搜索内容的时间. 如果你是商家,当你投放广告的时候,如果平台推送的用户都是你的潜在 ...

  8. ClickHouse在苏宁用户画像场景的最佳实践

    关注 「Cli肉眼品世界 」 , 后台回复 cksn可获取PDF                                        后台回复 cksn 可获取此PDF~ 推荐阅读: 世界的 ...

  9. 如何用大数据构建精准用户画像?

    什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础,奠定了大数据 ...

最新文章

  1. 九度oj题目1385:重建二叉树
  2. 彻彻底底了解回调函数
  3. java 注解 静态变量_Spring中静态方法中使用@Resource注解的变量
  4. 2018蓝桥杯省赛---java---B---4(测试次数)
  5. c# contains_清单 .Contains()方法,以C#为例
  6. python3 文件相关操作
  7. process 类 java_编写可执行jar——java的Process类的使用(二)
  8. AI 会替代程序员?超好用的自动补全代码工具 Deep TabNine!
  9. 翻译: 图解卡尔曼滤波器的工作原理
  10. Android Studio GPX文件解析显示地图轨迹和海拔示意(模拟沿轨迹前进)
  11. 中国塔吊行业投资规划分析及前景预测报告2022-2028年版
  12. 由公式抽样检查所想到的...
  13. yolov5 win10 数据集制作 各种踩坑
  14. Linux下的搜狗拼音输入法-fcitx sougopinyin
  15. 互动作业组的计算机在哪,互动作业和作业互动组区别介绍 看起来有很相似
  16. Genymotion ova官方下载地址
  17. 图解Java核心架构体系
  18. 第三章 part3 几个小知识点
  19. JAVA项目经历的职责
  20. 用一个比喻来解释对 同步 异步 阻塞 非阻塞 轮询 回调 的理解

热门文章

  1. 【002】基于51单片机的电子万年历proteus仿真设计
  2. 基于51单片机的简易抢答器设计
  3. 【木头Cocos2d-x 021】一个堆和栈引起的分手事件
  4. 关于考试管理系统的实现
  5. 排名第四!京东云IaaS稳居中国云计算第一梯队
  6. 图片轻松转文字-天若OCR
  7. divi模板下载_优雅主题的Divi 3.0是力量与简约的结合
  8. PS新手教程!手把手教你创建未来科技感的扫描字体效果
  9. “我只想选个座,你却要我社交?”航旅纵横用户遭骚扰,强行按头社交?
  10. 兔子数列递归算法实现的一些补充