在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统 IT 行业的市场竞争环境、营销策略和服务模式。如何在 ZB 级的海量数据中获取并筛选有价值的信息,是对 IT 企业的一大挑战,通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案,但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值?这些都是产品设计层面需要解决的问题。

在本场 Chat 中,会讲到如下内容:

  • 标签系统的结构
  • 标签的类型
  • 标签的定义
  • 标签建设的技术架构
  • 应用场景

在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统 IT 行业的市场竞争环境、营销策略和服务模式。如何在 ZB 级的海量数据中获取并筛选有价值的信息,是对 IT 企业的一大挑战,通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案,但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值?这些都是产品设计层面需要解决的问题。

掌上医讯一直以来都致力于打造医生的今日头条和智能化的学习平台,通过大数据技术实现医生学习的智能化和个性化,而要构建这样一个学习平台,最基础的就是要建立用户的标签体系,经过长时间的学习、思考、借鉴和实践,现在已经有了自己的标签构建思路,并且也已经提取出了符合自身业务的标签。我们十分重视用户行为日志的收集,现在已经有了亿万级别的日志数据,正在搭建数据处理和标签计算平台,以下是我们整理的建设思想。

标签系统的结构

标签系统可以分为三个部分:数据加工层,数据服务层和数据应用层。每个层面向的用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务关联性就越强。

数据加工层数据加工层收集、清洗和提取数据。掌上医讯有诸多的学习模块,同时又有网站,APP,小程序等多个产品形式,每个产品模块和产品端都会产生大量的业务数据和行为数据,这些数据极为相似又各不相同,为了搭建完善的用户标签体系,需要尽可能汇总最大范围的数据。收集了所有数据之后,需要经过清洗、去重、去无效、去异常等等。

数据业务层数据加工层为业务层提供最基础的数据能力,提供数据原材料。业务层属于公共资源层,并不归属某个产品或业务线。它主要用来维护整个标签体系,集中在一个地方来进行管理。在这一层,运营人员和产品能够参与进来,提出业务要求:将原材料进行切割。主要完成以下核心任务:

1、定义业务方需要的标签。2、创建标签实例。3、执行业务标签实例,提供相应数据。

数据应用层应用层的任务是赋予产品和运营人员标签的工具能力,聚合业务数据,构建具体的数据应用场景。

标签的类型

从数据提取维度来看,标签可分为:事实标签、模型标签和预测标签。

事实标签从生产系统获取数据,定性或定量描述用户的自然属性、产品属性、消费属性、资源属性等,以及根据工作人员经验积累的业务规则进行筛选、分析生产的标签,如是否活跃用户、是否是考生等。

模型标签对用户属性及行为等属性的抽象和聚类,通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数,标签代表用户的兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。

预测标签基于用户的属性、行为、信令、位置和特征,挖掘用户潜在需求,针对这些潜在需求配合营销策略、规则进行打标,实现营销适时、适机、适景推送给用户。

从数据的时效性来看,标签可分为:静态属性标签和动态属性标签。

静态属性标签长期甚至永远都不会发生改变。比如性别,出生日期,这些数据都是既定的事实,几乎不会改变。

动态属性标签存在有效期,需要定期地更新,保证标签的有效性。比如用户的购买力,用户的活跃情况。

标签的定义

给用户打标签,建立用户画像,最终都是为了去应用,所以我们要站在应用场景上去定义用户的标签体系,每个标签都有最终的用途。比如我们做考试培训服务,我们需要建立“是否考生”的标签。另外,不同的行业他们的用户特征也是有显著区别的,比如医生用户相比普通用户来说,就多了像“科室”,“职称”,“所在医院等级”等特殊含义的标签。

而标签是有层级关系的,既是为了管理,更好的理解,又是为了控制粗细力度,方便最终的应用。标签深度一般控制在四级比较合适,到了第四级就是具体的标签实例。我们根据公司的业务首先划分了人口属性、行为属性、用户分类和商业属性四个大的分类,下面又分了上网习惯、学习惯、人群属性、消费能力、消费习惯等分类,最末级精确到用户的活跃等级、阅读来源、考试偏好等具体的标签。

标签的维护

每个标签都不会凭空产生的,也不会一成不变,更不会凭空消失。标签的维护需要生成规则,需要定义权重,需要更新策略。

生成规则如第一部分所说,标签分为事实标签,模型标签和预测标签三大类,对于这三类的标签,生成规则的难度和复杂性也是逐级递增的。事实标签只需要考虑从什么地方提取即可,它即包含明确的标签定义,又包含无法穷举的标签集,比如关注的病种;而模型标签需要进行数据的关联和逻辑关系的设计,通过一定的模型对数据进行计算得来;而预测标签相对就非常的复杂,无法从原始数据提取标签,标签的生成准确度就太依赖我们大数据分析和人工智能技术的应用。

定义权重一个标签会在多个场景下出现,比如一个疾病标签,它极可能在浏览过程中生成,也有可能在搜索场景下产生,但是对于这两个场景所对应的同一个标签,他们的权重是不同的。浏览相比搜索,权重要小得多,因为搜索的主动需求更大。

更新策略上文我们从数据的时效性上对标签分为静态属性标签和动态属性标签。对于静态属性标签的处理相对比较简单,就不停的累加即可。但是对于动态属性标签,需要对过期标签进行降权甚至删除处理,比如医生考试前和考试后,会影响“是否考生”这个标签的,这就需要制定更新策略。

标签建设的技术架构

标签体系的建设涉及很多环节,数据量也十分巨大,需要有一个健壮且高效的技术架构来支持数据的存储及计算,掌上医讯采用了 sql 数据库和 no-sql 数据库来满足结构化数据和非结构化数据的存储,使用 hadoop 的分布式存储技术及 hive 和 hbase 组件作为数据仓库,使用 MapReduce 和 spark 分布式计算来提高计算速度,使用 kylin 进行多维分析,通过 BI 工具和接口对外提供应用,使用 sqoop 和 kettle 进行数据的抽取及流程的调用。

更多的应用场景

用户标签建立已经基本应用在掌上医讯的内容智能推荐的学习场景中,但随着标签的完善以及智能化处理的提升,这套标签体系将有更广阔的应用场景。

1、 智能化学习场景的构建通过用户学习需求的标签的分析进行用户分群,针对不同的用户群在 APP 的功能和内容上进行个性化展示,满足不同学习需求的用户个性化的学习服务。

2、 精准营销推广的建立更细粒度的对用户进行筛选,同时能够精准预测可能存在的目标用户进行推广,从而扩大医生覆盖,提升推广的转化率。

3、 KOL 用户画像的描绘基于该标签模型,增加对外部数据的采集分析,更加完整的生成医生 360 度的用户画像,帮助企业寻找潜在的 KOL 用户,实现用户洞察,辅助市场决策。

标签的建设是一个看似高大上,其实很繁琐、纠结的过程,需要对业务抽丝剥茧,还要应对运营需求的各种变化,不过对公司发展的影响也是深远的。

阅读全文: http://gitbook.cn/gitchat/activity/5dfc73c872bc415d27bbf139

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App , GitChat 专享技术内容哦。

基于大数据的用户标签体系建设思路和实践相关推荐

  1. video 微信 标签层级过高_基于大数据的用户标签体系建设思路和应用

    在大数据时代,数据在呈现出海量化.多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境.营销策略和服务模式.如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战,通过构建客户 ...

  2. 大数据 客户标签体系_基于大数据的用户标签体系建设思路和应用

    如何设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值? 在大数据时代,数据在呈现出海量化.多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境.营销策略 ...

  3. 大数据 客户标签体系_基于大数据的用户标签体系建设思路

    如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战.通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案. 但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签? ...

  4. 大数据标签获取处理步骤_基于大数据的用户深层标签挖掘方法与流程

    本发明涉及大数据应用技术领域,尤其涉及一种基于大数据的用户深层标签挖掘方法. 背景技术: 用户画像建立的过程就是添加相应的标签,在数据挖掘领域称为标签化.标签是通过对用户信息分析而得到的高度精炼的特征 ...

  5. 基于大数据的用户画像构建小百科全书

    来源:http://suo.im/6aVjHQ 一. 什么是用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用 ...

  6. 基于大数据的用户行为预测

    2019独角兽企业重金招聘Python工程师标准>>> 随着智能手机的普及和APP形态的愈发丰富,移动设备的应用安装量急剧上升.用户在每天使用这些APP的过程中,也会产生大量的线上和 ...

  7. 袋鼠云数据中台专栏(七):用户标签体系建设的四字箴言

    本文作者:子玺 袋鼠云数据中台解决方案专家.拥有近10年大数据从业经验,拥有PMP项目管理资格认证,精通数据类项目的开发实施和管理.曾服务过国家工商总局.北京市工商局.北京市财政局.广州开发区大数据局 ...

  8. 大数据下的质量体系建设

    一.背景 大数据.人工智能是当前也是未来几年IT部门的重点建设方向,新的技术可以为业务突破盈利瓶颈,带来新的增长点,同时我们也发现数据中台也频频在最近的企业财报予以体现,相关的技术岗位需求也是供不应求 ...

  9. 毕业设计 - 题目:基于大数据的用户画像分析系统 数据分析 开题

    文章目录 1 前言 2 用户画像分析概述 2.1 用户画像构建的相关技术 2.2 标签体系 2.3 标签优先级 3 实站 - 百货商场用户画像描述与价值分析 3.1 数据格式 3.2 数据预处理 3. ...

最新文章

  1. php写网页6,基于ThinkPHP6+AdminLTE框架开发的响应式企业网站CMS系统PHP源码,ThinkPHP6开发的后台权限管理系统...
  2. 3.1线性判别函数【模式识别】
  3. FileReader类型之文字读取
  4. 以Settings.APPLICATION_DEVELOPMENT_SETTINGS打开开发者面板出错总结
  5. mysql表级别的操作_MySql 库/表级操作 及 数据类型 - 纪宇
  6. 大数据平台不是救世主!做好数字化转型,得先解决这一问题
  7. Star Schema完全参考手册学习笔记六
  8. RHEL6.3 NFS服务搭建过程详解
  9. 结构体可以整体交换吗_结构胶能够耐高温吗?可以在高温环境中工作吗?好用吗?...
  10. CSDN写博客图片的放大、缩小、去水印、居中
  11. 【转】C++实用技巧(三)
  12. 数字化转型的本质(10个关键词)
  13. 移动端APP测试总结
  14. DOSBox使用总结——调整DOSBox窗口并自动挂载指定目录
  15. Photoshop如何使用图像调色之实例演示?
  16. 绝对神器,今天教你如何识别图片上竖排的日语文字
  17. Tensorflow 神经网络模型架构
  18. python爬取网易云音乐歌单_【python】爬取并批量下载网易云歌单,嗨翻暑假!
  19. H3C-stp-链路聚合-端口安全
  20. tg测试软件,TG Pro——硬件温度检测工具

热门文章

  1. excel 导入到access 提示索引或主关键字不能为空 但是表中的主关键字列并不是空的
  2. ThinkPad 嘀嘀响 报警
  3. 幼儿园固定资产管理方案(幼儿园固定资产工作方案)
  4. 7-5 神奇的数学公式
  5. 入了丰元的今天吃肉吧
  6. 锂电充电芯片_两节锂电充电IC_防反接充电芯片
  7. 小家电快充芯片,小家电type-C快充方案芯片 LDR6328S PD取电芯片
  8. 微信朋友圈推广广告怎么投放
  9. 透过四款商用的 IoT 产品解析 UX 设计本质
  10. Akka 指南 之「调度器」