用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是children、juvenile、youth、middle age、old age,这类标签称为枚举标签。另一类用户标签的值只有两个,比如用户是否注册、是否活跃、是否白领、是否某种促销的目标用户等等,这类标签称为二值标签。

在用户画像分析场景中,往往要对这两类标签的组合条件做过滤计算,例如:查询出中年、大学学历、注册、活跃用户,并且是去年黑五大促的目标用户。

总数据量很巨大时,运算性能的瓶颈常常集中在这个条件过滤上。这些条件非常随意,无法预先计算或指望索引,必须要有高效的硬遍历能力。这时候,对枚举标签和二值标签采用的存储和计算方法就非常关键了。

在关系数据库、数据仓库中,枚举标签也就是个普通字段,相应的过滤计算是在WHERE子句中用IN来完成,一般是d IN (d1,…,dn)的形式,即字段 d 取值包含于值集合 {di,…} 时为真。IN计算的性能较差,主要由于其中有太多的比较运算。要判断字段d是否包含在值集合中,如果采用顺序查找,需用d与值集合中的成员做1到n次的比较计算。即使在值集合有序的情况下用二分法查找,也要比较数次。数据量较大时比较次数会非常多,判断IN 的速度就会很慢,而且值集合越大速度越慢。

枚举标签过滤性能优化的关键是消除其中的比较运算。首先,确定 IN 字段(即写成IN条件前面的字段)可能取值的列表。可能值通常不会太多,这个列表也不会太长。然后转换原数据,把 IN 字段值替换为列表中对应记录的序号(位置),另存成一份新数据。

对替换后的新数据做 IN 判断时,先要生成一个与列表等长的布尔值集合,其第 i 个值由列表的第 i 个成员是否在 IN 字段的值集合中决定,在其中就是true,不在就是false。遍历时,用 IN 字段值(列表的序号)去取布尔值集合中的成员,是true就符合过滤条件,否则就不符合。

这种方法本质上是将“集合值比较”转换为“序号引用”,省去了比较计算,性能会大幅提升。而且计算时间和值集合大小无关,不会随着 IN条件中枚举值的增多而增加。

SQL中一般不支持通过序号(位置)直接取集合成员的方法,要用关联表过渡,会导致更复杂的JOIN运算,不能直接实现这种优化方法。

二值标签在数据库中一般用布尔型字段来存储。如果只有几个或几十个,那就简单地把过滤条件写在 WHERE 中就可以了。但标签总数有可能达到成百上千个。很多数据库表不支持这么多字段,还要分成多个表再做 JOIN。在数据量很大时,大表连接的性能非常差。

为了避免大表连接,还可以把几千个布尔字段转列为行,用一个“标签号”字段存储,计算时先分组再过滤、统计。但这个分组结果集很大,需要外存缓存,性能还是很差。

如果用整数的二进制位来存储二值标签(0,1 各代表一个取值),那么 16 位短整数就能存 16 个标签,100 个整型字段就能存 1600 个标签,可以有效减少字段数量,避免大表连接。

但是,很多数据库还不支持这种位相关的计算,也就不能实现这种性能优化方法。

开源数据计算引擎 SPL支持序号引用位式运算,可以很方便地实现上述优化方法。相应的SPL代码也很简单,例如原数据表T_ordinary中的字段包括:用户id、枚举标签字段dName(比如年龄段:children、juvenile、youth、middle age、old age)、16个布尔标签字段flag1到flag16,以及金额字段amt。其中,dName的取值范围在选项表dim中。下面的代码可以完成序号引用和位式存储的转换:

A
1 =file("T_ordinary.ctx").open().cursor(id,dName,flag1,flag2,…,flag16,amt)
2 =T("dim.btx")
3 =A1.new(id,dim.pos@b(dName):d,bits(flag1,flag2,…,flag16):b,amt)
4 =file("T.ctx").create(id,d,b,amt)
5 =A4.append(A3)

A3用pos函数将dName的值替换为dim中的序号,存成新字段d。dim预先按照 dName有序,这里用二分法查找速度更快。同时使用 bits 函数把 16 个标签字段转换成一个16位整数字段b。

转换好的表T就可以做高性能的标签过滤和统计了。例如,过滤条件是dName取值在前端传入的集合[“middle age”,“old age”]中,且标签 flag4、flag8 为 1。 完成过滤之后,按照d分组汇总金额和记录数,代码大致是这样的:

A
1 =bits(0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0)
2 =T("dim.btx").(["middle age","old age"].contain@b(~))
3 =file("T.ctx").open().cursor(amt;A2(d) && and(b,A1)==A1)
4 =A3.groups(d;sum(amt),count(~))

A1用bits函数生成16位小整数,第4、8位值是1,对应标签 flag4、flag8。A2生成布尔值集合。A3利用布尔值集合和小整数做过滤计算。

在使用SPL的虚表后,还可以把这些变换过的字段透明化,直接像普通字段一样使用。比如:基于表T定义虚表T_pseudo后,上述代码大致会变成这样:

A
1 =T_pseudo.select(flag4 && flag8 && ["middle age","old age"].contain@b(dName))
2 =A3.groups(dName;sum(amt),count(~))

flag4、flag8是虚表中定义的位维度字段,对应T表中b字段的第4、8位。dName则是虚表中的枚举维度字段,其值是T表中的d字段序号对应的名称。

有了虚表后,实际的存储和计算方法不变,SPL会自动完成上述算法。而且,过滤条件中可以使用普通的布尔值,结果集中分组值也会变成容易阅读的字符串,不必再做序号和名称的转换。虚表的具体使用方法参见SPL 虚表的数据类型优化。

SPL资料

  • SPL下载
  • SPL源代码

多标签用户画像分析跑得快的关键在哪里?相关推荐

  1. 【数据分析】京东平台用户画像分析

    1.用户信息标签 用户信息的收集包括用户基础要素.用户场景.行为偏好.心理个性.交际等多方面. 可以用静态标签.动态标签两大类来划分. 静态数据:用户相对稳定的信息,主要包括人口属性.商业属性等方面数 ...

  2. 如何进行用户画像分析

    引领下半场发展的大数据 ,将赋能政府智慧管理交通.城市规划:通过消费者数据,告诉企业该生产什么样的数据,最大化满足消费者,生活大数据告诉餐饮.房地产企业选址等:互联网下半场考虑精细化运营 ,通过数据分 ...

  3. 基于多模型融合的用户画像分析统计方法研究

    摘  要 随着信息技术的快速发展和大数据技术的广泛应用,企业的营销和产品的设计,对精细化.精准化的要求越来越高.主流的电商平台.搜索引擎以及短视频平台均推出了基于用户画像的个性化推荐服务,这其中相当一 ...

  4. 小红书用户画像分析_用户画像,该怎么分析?

    有同学问:陈老师,我领导让我做用户画像分析,可是我做了一大堆数据,却被批:也没分析什么东西啊?该咋办?今天系统解答一下. 用户画像分析的错误姿势1.限于数据,动不敢动.一提用户画像,很多人脑海里立刻蹦 ...

  5. 数据分析方法之用户画像分析!

    01 写在前面 我们经常在淘宝上购物, 作为淘宝方, 他们肯定想知道他的使用用户是什么样的, 是什么样的年龄性别, 城市, 收入, 他的购物品牌偏好, 购物类型, 平时的活跃程度是什么样的, 这样的一 ...

  6. 社群运营的用户画像分析有哪些方法?

    社群运营中有个很关键的因素就是用户画像分析,为什么会有这个喃?那是因为只有通过对用户进行画像分析,商家才可以有效的掌握用户的准确信息,并通过画像分析出来的结果对用户进行分群.分层,最后有针对性的进行用 ...

  7. 推荐 :数据分析思维和方法—用户画像分析

    01 写在前面 我们经常在淘宝上购物, 作为淘宝方, 他们肯定想知道他的使用用户是什么样的, 是什么样的年龄性别, 城市, 收入, 他的购物品牌偏好, 购物类型, 平时的活跃程度是什么样的, 这样的一 ...

  8. 用户画像分析与场景应用

    一.用户画像 1.概念描述 用户画像,作为一种勾画目标用户.联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用.用户画像最初是在电商领域得到应用的,尤其在数字化营销范畴之内,核心的依赖 ...

  9. 如何做用户画像分析?

    我们经常在淘宝网购物,作为淘宝方,他们想知道用户是什么样的,年龄.性别.城市.收入.购物品牌偏好.购物类型.平时的活跃程度等,这样的一个用户描述就是用户画像分析. 在实际工作中,用户画像分析是一个重要 ...

最新文章

  1. 将选定的文本对象左对齐、右对齐或对中
  2. 网络编程(part12)--HTTP传输
  3. CRM order lock will trigger product read API
  4. getset原子性 redis_一文看透 Redis 分布式锁进化史(解读 + 缺陷分析)
  5. JAVA常见命名规范
  6. Mysql中autocommit的用法
  7. Python与数据结构[4] - 散列表[1] - 分离链接法的 Python 实现
  8. python中、函数定义可以不包括以下_python函数定义精讲
  9. Rails + Bootstrap个人博客搭建的完整过程(4)
  10. git The requested URL returned error: 403
  11. 2010年篮球规则(FIBA)
  12. 计算机学会a类论文是sci吗,sci分区和ccf分区的区别
  13. 华表 java_华表基础(转)
  14. linux遇到hint:num lock on
  15. 200页!这可能是最牛逼的Python自学手册啦!
  16. PCB布局布线中地的设计
  17. easyui-filebox再苹果手机上只能打开摄像头不能选择文件
  18. 黑马程序员--Java学习日记之网络编程
  19. 关于Facebook Messenger CRM,这里有你想要知道的一切
  20. Unity Render Streaming 云渲染企业项目解决方案

热门文章

  1. TypeScript入门案例
  2. 计算机网络波动大,电脑网络总是不稳定的解决方法
  3. 英雄的黎明-纯音乐-横山菁儿
  4. 【16.8】苹果四代蓝牙耳机+吉萌兔保温杯+小红杯拿铁黑咖啡+公务员教材真题
  5. Arduino基础2
  6. synctoy 远程同步_使用SyncToy 2.1同步计算机和驱动器之间的文件夹
  7. 创建MySQL数据库·数据库笔记(三)
  8. python喜马拉雅_Python爬虫实战案例:取喜马拉雅音频数据详解!
  9. mysql同城双活以及主从库方案
  10. 使用Excel连接WINCC生成报表的实现方法