如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战。通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案。

但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值?

这些都是产品设计层面需要解决的问题。

掌上医讯一直以来都致力于打造医生的今日头条和智能化的学习平台,通过大数据技术实现医生学习的智能化和个性化,而要构建这样一个学习平台,最基础的就是要建立用户的标签体系。

经过长时间的学习、思考、借鉴和实践,现在已经有了自己的标签构建思路,并且也已经提取出了符合自身业务的标签。我们十分重视用户行为日志的收集,现在已经有了亿万级别的日志数据,正在搭建数据处理和标签计算平台,以下是我们整理的建设思想。

1.标签系统的结构

标签系统可以分为三个部分:数据加工层、数据服务层和数据应用层。

每个层面向的用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务关联性就越强。

2.数据加工层

数据加工层收集、清洗和提取数据。掌上医讯有诸多的学习模块,同时又有网站、APP、小程序等多个产品形式,每个产品模块和产品端都会产生大量的业务数据和行为数据,这些数据极为相似又各不相同,为了搭建完善的用户标签体系,需要尽可能汇总最大范围的数据。收集了所有数据之后,需要经过清洗、去重、去无效、去异常等等。

3.数据业务层

数据加工层为业务层提供最基础的数据能力,提供数据原材料。业务层属于公共资源层,并不归属某个产品或业务线。它主要用来维护整个标签体系,集中在一个地方来进行管理。

在这一层,运营人员和产品能够参与进来,提出业务要求:将原材料进行切割。

主要完成以下核心任务:

定义业务方需要的标签。

创建标签实例。

执行业务标签实例,提供相应数据。

4.数据应用层

应用层的任务是赋予产品和运营人员标签的工具能力,聚合业务数据,构建具体的数据应用场景。

(1)标签的类型

从数据提取维度来看,标签可分为:事实标签、模型标签和预测标签。

(2)事实标签

从生产系统获取数据,定性或定量描述用户的自然属性、产品属性、消费属性、资源属性等,以及根据工作人员经验积累的业务规则进行筛选、分析生产的标签,如是否活跃用户、是否是考生等。

(3)模型标签

对用户属性及行为等属性的抽象和聚类,通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数,标签代表用户的兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。

(4)预测标签

基于用户的属性、行为、信令、位置和特征,挖掘用户潜在需求,针对这些潜在需求配合营销策略、规则进行打标,实现营销适时、适机、适景推送给用户。

从数据的时效性来看,标签可分为:静态属性标签和动态属性标签。

(5)静态属性标签

长期甚至永远都不会发生改变。比如性别,出生日期,这些数据都是既定的事实,几乎不会改变。

(6)动态属性标签

存在有效期,需要定期地更新,保证标签的有效性。比如:用户的购买力,用户的活跃情况。

5.标签的定义

给用户打标签,建立用户画像,最终都是为了去应用,所以我们要站在应用场景上去定义用户的标签体系,每个标签都有最终的用途。比如:我们做考试培训服务,我们需要建立“是否考生”的标签。

另外,不同的行业他们的用户特征也是有显著区别的,比如:医生用户相比普通用户来说,就多了像“科室”、“职称”、“所在医院等级”等特殊含义的标签。

而标签是有层级关系的,既是为了管理,更好的理解,又是为了控制粗细力度,方便最终的应用。标签深度一般控制在四级比较合适,到了第四级就是具体的标签实例。

我们根据公司的业务首先划分了人口属性、行为属性、用户分类和商业属性四个大的分类,下面又分了上网习惯、学习惯、人群属性、消费能力、消费习惯等分类,最末级精确到用户的活跃等级、阅读来源、考试偏好等具体的标签。

6.标签的维护

每个标签都不会凭空产生的,也不会一成不变,更不会凭空消失。标签的维护需要生成规则,需要定义权重,需要更新策略。

7.生成规则

如第一部分所说,标签分为事实标签,模型标签和预测标签三大类。对于这三类的标签,生成规则的难度和复杂性也是逐级递增的。事实标签只需要考虑从什么地方提取即可,它即包含明确的标签定义,又包含无法穷举的标签集,比如:关注的病种。

而模型标签需要进行数据的关联和逻辑关系的设计,通过一定的模型对数据进行计算得来。而预测标签相对就非常的复杂,无法从原始数据提取标签,标签的生成准确度就太依赖我们大数据分析和人工智能技术的应用。

8.定义权重

一个标签会在多个场景下出现,比如:一个疾病标签,它极可能在浏览过程中生成,也有可能在搜索场景下产生,但是对于这两个场景所对应的同一个标签,他们的权重是不同的。浏览相比搜索,权重要小得多,因为搜索的主动需求更大。

9.更新策略

上文我们从数据的时效性上对标签分为静态属性标签和动态属性标签,对于静态属性标签的处理相对比较简单,就不停的累加即可。但是对于动态属性标签,需要对过期标签进行降权甚至删除处理,比如:医生考试前和考试后,会影响“是否考生”这个标签的,这就需要制定更新策略。

10.标签建设的技术架构

标签体系的建设涉及很多环节,数据量也十分巨大,需要有一个健壮且高效的技术架构来支持数据的存储及计算,掌上医讯采用了sql数据库和no-sql数据库来满足结构化数据和非结构化数据的存储。

使用hadoop的分布式存储技术及hive和hbase组件作为数据仓库,使用MapReduce和spark分布式计算来提高计算速度,使用kylin进行多维分析,通过BI工具和接口对外提供应用,使用sqoop和kettle进行数据的抽取及流程的调用。

11.更多的应用场景

用户标签建立已经基本应用在掌上医讯的内容智能推荐的学习场景中,但随着标签的完善以及智能化处理的提升,这套标签体系将有更广阔的应用场景。

(1)智能化学习场景的构建

通过用户学习需求的标签的分析进行用户分群,针对不同的用户群在APP的功能和内容上进行个性化展示,满足不同学习需求的用户个性化的学习服务。

(2)精准营销推广的建立

更细粒度的对用户进行筛选,同时能够精准预测可能存在的目标用户进行推广,从而扩大医生覆盖,提升推广的转化率。

(3)KOL用户画像的描绘

基于该标签模型,增加对外部数据的采集分析,更加完整的生成医生360度的用户画像,帮助企业寻找潜在的KOL用户,实现用户洞察,辅助市场决策。

标签的建设是一个看似高大上,其实很繁琐、纠结的过程,需要对业务抽丝剥茧,还要应对运营需求的各种变化,不过对公司发展的影响也是深远的。

End.

作者:小牛学堂

来源:简书

本文均已和作者授权,如转载请与作者联系。

大数据 客户标签体系_基于大数据的用户标签体系建设思路相关推荐

  1. 大数据 客户标签体系_基于大数据的用户标签体系建设思路和应用

    如何设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值? 在大数据时代,数据在呈现出海量化.多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境.营销策略 ...

  2. 大数据 智能交通调度_基于大数据技术的智能交通管理模式探析

    龙源期刊网 http://www.qikan.com.cn 基于大数据技术的智能交通管理模式探析 作者:熊姗姗 张昆 来源:<科学与信息化> 2020 年第 20 期 摘 要 随着社会的不 ...

  3. 大数据精准投放平台_基于大数据的广告精准投放方法与流程

    本发明涉及大数据及广告投放技术领域,尤其涉及一种基于大数据的广告精准投放方法. 背景技术: 随着市场经济的迅猛发展,广告成为经济行为中必不可少的重要工具,而由于用户群组成复杂,广告数量多,投放广告的终 ...

  4. 什么样的用户标签系统,可以深入业务构建用户价值体系?

    用户画像的精准勾勒,能够帮助企业与消费者产生共情,设身处地地思考用户需求.一套科学的标签体系,能够赋予用户画像以生气,并在用户获取成本飙涨的市场环境下,以最低的成本最大限度地挖掘客户生命周期的价值.随 ...

  5. python气象数据可视化学习记录1——基于ERA5数据画风场和海平面气压填色叠加图

    python气象数据可视化学习记录1--基于ERA5数据画风场和海平面气压填色叠加图 1. 写在前面 2. 图片效果 3. 逐步代码解析 3.1导入库 3.2 读取NC格式数据 3.3 对数据进行加工 ...

  6. video 微信 标签层级过高_基于大数据的用户标签体系建设思路和应用

    在大数据时代,数据在呈现出海量化.多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境.营销策略和服务模式.如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战,通过构建客户 ...

  7. 大数据标签获取处理步骤_基于大数据的用户深层标签挖掘方法与流程

    本发明涉及大数据应用技术领域,尤其涉及一种基于大数据的用户深层标签挖掘方法. 背景技术: 用户画像建立的过程就是添加相应的标签,在数据挖掘领域称为标签化.标签是通过对用户信息分析而得到的高度精炼的特征 ...

  8. 大数据文字游戏_基于大数据的游戏化教学系统研究.docx

    基于大数据的游戏化教学系统研究 ―.引言 目前,我国高校在线开放课程的建设已经取得了较大的发展,在线课程的使用已经使高 校教学发生了巨大的变化.课程的网络资源可以作为延伸课堂教学的工具,有效减轻了课堂 ...

  9. 数据查询和业务流分开_基于大数据的舆情分析系统架构 - 架构篇

    前言 互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所想,使得"人人都有了麦克风".不 ...

最新文章

  1. java类加载器_类加载器
  2. 传说中的window8 的种子
  3. 使用BFC块级上下文
  4. 分享一个SQL文件的合并的小程序
  5. glShadeModel
  6. 四二拍用音符怎么表示_2020圣诞平安夜怎么发朋友圈?朋友圈关于平安夜经典语录精选...
  7. mysql 正则表达式 regExp
  8. ipa逆向分析class-dump的安装和使用
  9. 猿人学web端爬虫攻防大赛赛题解析_第七题:动态字体,随风漂移
  10. Github黑暗模式正式发布,Reddit直接飙至4k高赞
  11. 哈希表解决冲突的方式
  12. 有限状态自动机(FSM)的一些逻辑
  13. 一图全解芯片制造的全过程
  14. Schnorr签名算法(初始化和签名)C语言实现
  15. 计算机毕业设计之android平台的出租打车软件app(源码+系统+mysql数据库+Lw文档)
  16. 公众号开发——自动回复功能
  17. 计算机应用基础试题及答案电大百度云,电大《计算机应用基础》试题及参考答案...
  18. 第03周:吴恩达机器学习课后编程题ex3神经网络——Python
  19. 恶搞英语大厅的原理(准确来说应该是恶搞IE)
  20. 小米手机2代确认使用4核CPU 售价或涨至2699

热门文章

  1. 联发科mt6165芯片原理图mt6165芯片资料
  2. wpsppt加载项在哪里_wpsppt加载项在哪里_《wps表格加载项在哪里》 WPS版的EXCEL中 加载宏和数据分析在哪?......
  3. Stream流常用方法
  4. nsa组网语音部署策略_部署策略
  5. (四)基于Multisim的电台发射系统:低频功率放大器的设计
  6. AutoCAD 定义 AutoLISP 函数
  7. 传奇服务器怎么修改升级武器成功,如何控制传奇服务器中宝石升级装备成功率和点数...
  8. 惠普打印机墨盒更换教程_惠普彩色打印机怎么换墨盒 惠普彩色打印机换墨盒方法【详解】...
  9. 500G机械硬盘换成120固态硬盘+500G机械硬盘
  10. G-TechnologyG-Drive移动SSD500GB评测