大数据时代下:标签体系的应用

【1】必要性

项目普遍都用到大数据分析平台和用户标签/用户画像,从数据查询的角度来讲从传统的关联关键字段查询到元数据自定义查询,在到标签化查询,是逐步深化的,标签是对数据提前进行最细颗粒度的划分,在复杂的多表关联和联查时的逻辑处理不会影响业务数据的逻辑判断,消除复杂的逻辑处理带来的性能影响。

【2】典型的2种标签管理方式

原始标签:针对数据库,通过数据库中的表进行   (业务小)

产品化后的标签:面向终端:业务影响小,响应快,界面体验好。(业务大)

【3】标签分类方式

  1. 按照来源
  2. 按业务场景(按业务场景和复杂度分层级)
  3. 按数据类型(数值型/单值类型/多值类型/文本类型)

数据标签的分类:

(1)属性标签

(2)统计标签

(3)算法标签

华为数据标签的分类:

  1. 事实标签
  2. 规则标签
  3. 模型标签

【4】标签的内容信息

主要包括:

【标签基本信息】、

【标签的数据表信息】、

【标签加工信息】、

【标签的质量信息】、

【标签的应用信息】

【5】标签建设的整体架构

标签建设项目包括标签加工、标签装载、标签管理、标签服务四个环节

标签加工:很多客户问我标签加工是放在大数据平台,还是传统数据平台中?其实放在哪里都可以,如果你的基础数据已经落地在HDFS了,那建议你在大数据平台中做,毕竟分布式架构的加工跑批速度会有优势,另外对于算法挖掘和文本挖掘类的标签传统数据仓库技术也无法支撑。

标签装载:标签装载层是标签对外提供服务的物理存储层,这里面数据库选型尤为重要,后面有专门的章节分析。数据建模方面,宽表是标签数据模型的金标准。有很多客户问我,宽表中的字段数有没有限制?一张宽表字段数如果太多可不可以按主题拆表做join?标签所有场景的性能响应要求都是秒级的,任何数据库表关联都会大大降低查询效率,所以数据库选型要充分考虑这些因素。

标签管理:标签管理是指平台应用的管理端,管理端是面向内部用户使用的,服务端是面向客户服务的。管理端包括数据代理、标签库管理、标签元数据管理、标签审批、标签上下架、标签应用效果评估、衍生标签配置、客群提取、客群洞察等标签全生命周期管理功能。

标签服务:标签服务是指平台应用的服务端,管理端和服务端要做微服务切割,目的是解耦并建议分开部署,隔离不同渠道调用所占用的资源,例如内部筛选客群负载过大时,不能影响手机银行标签API调用服务,服务之间要做隔离。服务端设计要在网关层面充分考虑负载并发的压力,做分布式部署,保证并发性能的瓶颈不出现java进程这一端。

【6】标签的分类/设计及实现方法

在“数据中台”的规划系统中,数据标签介于数据仓库和数据集市之间。为数据集市做准备。

【7】数据标签的设计

设计步骤:

1.确定标签对象

2.打通对象关系

3.标签类目设计

4.数据标签实现(标签融合表)

标签融合表的二种形式(纵向融合表/横向融合表)

大数据时代下:标签体系的应用相关推荐

  1. 大数据时代下的新生态、新洞察、新趋势 | 神策 2019 数据驱动大会

    10 月 22 日,以"矩•变"为主题的神策 2019 数据驱动大会在北京维景国际大酒店顺利举行,来自全球大数据各大行业的领袖人物聚首北京,融合国际前沿技术与行业实践,深入探讨大数 ...

  2. 在目前大数据时代下,怎么能成为一名合格的数据分析师

    "21世纪什么最贵,人才",在目前大数据时代下,什么最难找,什么最贵,实现数据价值的人,数据分析师. 但是对于数据分析师的认识,比较极端,但对数据分析师价值的认识正在回归理性.很多 ...

  3. 独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)

    金秋九月,2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议盛大开幕,大数据系统软件国家工程实验室作为大数据系统软件技术研发与工程化的国家级创新平台,将通过大数据系统软件技 ...

  4. 在大数据时代下金融风控的分类

    @Date:2018-05-24 @Author:等等 依托城市数据湖海量数据资源,尤其是在信贷领域对企业或者个人的个人信贷画像描述评判准则已经是第三方房贷企业或者银行对借贷人的评分标准.风控建模以数 ...

  5. 隐私保护与隐私计算研讨会 | 余维仁:大数据时代下需要各界更新对个人隐私保护的固有认识

    8月13日下午,由深圳市信息服务业区块链协会.陀螺研究院.矩阵元主办,中国生物识别与计算机视觉科技创新产业联盟.金砖国家未来网络研究院中国分院.中国船舶综合技术经济研究院.深圳市人工智能产业协会.深圳 ...

  6. 大数据时代下房地产市场变革,微构房产大数据信息化应用简析

    导读 大数据是看待市场的全新角度,将极大的改变土地.工程.营销.售后.物业等房地产企业经营运作的所有流程.本文从房企市场.数据类型.数据价值.应用场景等方面简要分析大数据时代下的房企应用. 随着房地产 ...

  7. 聚焦大数据时代下的房地产创新

    2月7日,由中欧国际工商学院与好屋中国联合主办的"大数据时代下的房地产创新峰会暨好屋中国新品发布会"在上海举行.2月9日电 2月7日,由中欧国际工商学院与好屋中国联合主办的&quo ...

  8. 柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)...

    二.Work Queues(using the Java Client) 走起 在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工作者 ...

  9. 柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)...

    柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航) 二.起航 本章节,柯南君将从几个层面,用官网例子讲解一下RabbitMQ的实操经典程序案例,让大家重 ...

最新文章

  1. 异步加载js文件的方法总结
  2. folderutils.java_值得分享的超全文件工具类FileUtil
  3. php屏蔽审查元素,HTML网站右键禁用F12代码 屏蔽审查元素 防止修改页面代码
  4. MS-SQL CLR 扩展函数包 CLR_FunctionS!
  5. C# DataGridView 动态添加列和调整列顺序
  6. window下批处理:打开命令窗口且执行后不关闭
  7. C++中如何判断文件是否存在
  8. 力扣题目——143. 重排链表
  9. android widget ViewFlipper
  10. 常用词句或缩略语汇总
  11. 应届毕业生,只会抄代码,该怎么办?
  12. 如何让千牛工作台/阿里旺旺不要自动升级
  13. 经典日内策略分析(收藏版)Dual Thrust、ATR、R-Breaker、菲阿里四价
  14. 宿主机支持avx2指令集,为什么虚拟机cpu就不支持avx2指令集了
  15. python写一个ssh工具_用Python和JS实现的Web SSH工具,真香!
  16. 数据的预处理——平滑处理
  17. 抖音怎么去除水印方法及小工具
  18. 机器人论文(1)-下肢外骨骼的平衡与稳定性问题:系统综述
  19. js垃圾回收机制(Gc)
  20. 记一次usb3.0千兆网卡的选购经历;

热门文章

  1. authorizationPolicy详解
  2. C++实现多态的条件
  3. VMware虚拟化技术简介
  4. osg for android 学习之五:场景漫游
  5. lower_bound()/upper_bound()函数(C++)
  6. 【预言】鲁迅名言一百年
  7. 数显之家快讯:【SHIO世硕心语】2021年,给实体经济企业家的二十条建议!
  8. EMS是中国邮政提供的一种快递服务。
  9. 什么是Perl语言?
  10. dB、dBm、dBc等概念的解释