目录

一章 概述

数据来源

画像特性

应用领域

二章 画像建模

用户画像两个部分

三章 群体用户画像分析

主要流程

用户画像相似度

用户画像聚类

四章 用户画像管理

存储机制

查询机制

定时更新机制


一章 概述

用户画像:同类用户进行不同维度的刻画

用户角色:业务系统中不同用户的角色区分

用户属性:对属性的刻画和描述,如性别,年龄……

数据来源

用户属性——静态画像

用户行为——动态画像

画像特性

时空局限性:时间上,目标是通过精准的刻画,提供个性化服务;空间上:不同领域有不同的侧重点,因此要针对各自的特点设计对应的用户画像。

应用领域

搜索引擎

推荐系统

业务定制

二章 画像建模

画像建模就是用户信息的标签化

用户画像建模的核心是对用户潜在的意图和兴趣进行表示和存储,根据用户的基础信、视频信息、访问信息、行为偏好、隐式兴趣等归纳出可以读取和计算的用户模型。

用户画像两个部分

定性画像:用户基本特征。行为刻画、兴趣模型、视频表征等

标签是用户定性画像的核心

年龄标签,地域标签……语义化和短文本是标签呈现的两个重要特征。语义化使人能理解这些标签,短文本可以减少预处理,方便计算机对标签提取和聚合分析。

定量画像:用户基础变量、兴趣偏好等可量化数据特征

重点考虑用户画像的颗粒度,越细越具体,越细则建模成本越高

颗粒度要适度,再通过表单捕捉用户行为,存储和分析数据。表单是最直接的一种显示收集方式

推荐系统中的两类元素:用户(user)和项(item)

用户定性画像的构建

利用本体对用户画像领域中的标签进行表示、验证、推理和解释。

本体包括类、属性、实例、公理、推理规则

本体构建的关键步骤

  • 构建领域词汇表:即各类标签

  • 确定类与类之间的结构:确定类属关系,如视频分为电视剧、电影、综艺……,层次细分

  • 定义属性:对象属性和数据属性

  • 定义实例:即实体,类和属性是本体的“骨骼”,实例是本体的“血肉”。

  • 定义约束公理和推理规则:类概念之间的约束条件

三章 群体用户画像分析

推荐系统设计时,因为用户众多,不可能对每一用户都有特定的画像。用户画像应不仅仅能分析目标用户,还应包括用户间的关联分析,即群体用户画像分析。刻画了一群真实的用户,能够方便设计者从群体中发现存在的差异化特征,根据差异化提供针对性的服务。

主要流程

  • 用户画像获取

  • 用户画像相似度计算、根据不同用户画像计算相似度,区分用户群体的重要指标,开展用户画像聚类的前提

  • 用户画像聚类。根据相似度聚类

  • 群体用户画像生成。针对不同类别用户建立有代表性的典型用户画像

用户画像相似度

定量相似度计算

往往是数值,如年龄、地域等数据,相似度计算为:

定性相似度计算

通过标签来表示,没有确切的数值。所以其计算方法如下:

  • 方法1:标签定量化,将标签概念转为定量数值

  • 方法2:直接基于概念的相似度计算

    • 基于概念信息容量法:通过两个概念的共同父概念的信息容量大小来确定概念的相似度。

    • 基于概念距离法

      • 利用大规模语料库进行统计

      • 利用本体计算【不好理解】

        • 概念语义初始相似度层:概念相似度的预定值,同时也是通过概念上下位关系体现出的相似度
        • 概念非上下位关系相似度层:在初始相似度基础上计算非上下位关系体现的相似度

      相似度最后通过加权求和:

用户画像聚类

不同元素到簇中心的距离运算是可以并行执行的,所以k-means可以MapReduce化,实现高性能。

四章 用户画像管理

用户画像表项形式

  • 关键词法

  • 评分矩阵法

  • 向量空间表示法

  • 本体表示法

存储机制

关系型数据库

  • 二维表,行存储

非关系型数据库

  • 键值对存储数据库:基于哈希计算,松耦合,查询快。Redis

  • 列存数数据库。应对分布式存储关系的海量数据,以关系型数据库中的列为单位进行存储。HBase、Druid

    • https://zhuanlan.zhihu.com/p/127823207

    • 大数据关注数据的过滤和统计

    • 按行存储如果需要统计某一列的总合,需要全表扫描,将所有行读入。若用列存储,某一列的数据将被组织在一起,即相同属性的数据连续存储;减少磁盘IO,提高处理速度。当出现重复时,可以进行数据压缩,节省存储。

  • 文档型数据库:类似键值对存储,能利用文档中不同域进行复杂关联操作,MongoDB

  • 图形数据库

用户画像的存储主要基于列数据可和key-value数据库

数据仓库

是一个面向主题的,集成的,随时间变化的数据集合

查询机制

最常用最基本的操作,查询出来id效率很大程度上决定了推荐系统的性能。

并发查询

缓存机制

定时更新机制

  • 如何获取实时变化的用户画像数据

  • 如何设置合适的用户画像更新出发条件

  • 高效的更新算法

获取用户信息

静态信息:相对稳定

动态信息

更新触发条件

  • 设置阈值,根据获取的实时画像数据量与阈值的关系

  • 设置时间周期

  • 先从增加的数据中挖掘用户画像,将其与原画像比较后再决定是否更新

更新机制

完全更新:计算量大,耗时

增量更新:计算量少,时间滑动窗口过滤算法。广泛应用

继续更新中……

《用户行为画像》学习(1-4章)相关推荐

  1. 《Pygame游戏编程入门》学习——第4章 用户输入:Bomb Catcher游戏

    <Pygame游戏编程入门>学习--第4章 用户输入:Bomb Catcher游戏 第4章 挑战[^1] 问题1. Bomb Catching游戏太小了,玩起来不是很过瘾.毕竟,它只是一个 ...

  2. c语言口令验证模块加强版,[C语言学习第3章口令验证模块的开发.ppt

    [C语言学习第3章口令验证模块的开发 C语言程序 设计项目教程 第3章 口令验证模块的开发 Evaluation only. Created with Aspose.Slides for .NET 3 ...

  3. 《Go语言圣经》学习笔记 第九章 基于共享变量的并发

    <Go语言圣经>学习笔记 第九章 基于共享变量的并发 目录 竞争条件 sync.Mutex互斥锁 syn.RWMutex读写锁 内存同步 syn.Once初始化 竞争条件检测 示例:并发的 ...

  4. 《Go语言圣经》学习笔记 第二章 程序结构

    Go语言圣经学习笔记 第二章 程序结构 目录 命名 声明 变量 赋值 类型 包和文件 作用域 注:学习<Go语言圣经>笔记,PDF点击下载,建议看书. Go语言小白学习笔记,几乎是书上的内 ...

  5. 《Go语言圣经》学习笔记 第一章 Go语言入门

    Go语言圣经学习笔记 第一章 Go语言入门 目录 Hello, World 命令行参数 查找重复的行 GIF动画 获取URL 并发获取多个URL Web服务 本章要点 注:学习<Go语言圣经&g ...

  6. 王道考研计算机网络学习心得——第一章-计算机网络体系结构

    ​ 前言   本文主要是我学习计网的心得,用王道考研的原因主要是因为,又有老师教又有直接的资料书,个人觉得方便一点,不用到处找网课,也不用想到底看哪本书好,等这一轮学完了再看别的书,想必也能得心应手一 ...

  7. STM32固件库(标准外设库)入门学习 第四章OLED屏幕使用

    STM32固件库(标准外设库)入门学习 第四章OLED屏幕使用 本学习教程,参考B站江科大自化协STM32视频,型号为STM32F103C8T6. 文章目录 STM32固件库(标准外设库)入门学习 第 ...

  8. 乐行学院RabbitMQ学习教程 第一章 RabbitMQ介绍(可供技术选型时使用)

    乐行学院RabbitMQ学习教程 第一章 RabbitMQ介绍 RabbitMQ介绍 1.RabbitMQ技术简介 2.RabbitMQ其他扩展插件 2.1监控工具rabbitmq-managemen ...

  9. 编译原理(龙书)学习笔记 第一章

    编译原理(龙书)学习笔记 第一章 1.1语言处理器 解释器(interpreter) : 编译器(compiler): 一个语言处理系统 练习 1.1.1:编译器和解释器之间的区别 1.1.2:相对优 ...

最新文章

  1. python 改变图片尺寸
  2. SolrJ搜索功能切换到集群
  3. python模拟购物车购物过程_python实现购物车+ATM机 第五天
  4. 软件:推荐5款职场人必备的效率神器APP
  5. bzoj 2850 巧克力王国 —— K-D树
  6. 查看主机DNSserver
  7. TX2Ubuntu16.04远程登录
  8. php抓取神马搜索结果,php判断神马搜索引擎蜘蛛蜘蛛的方法
  9. android hidl简单实例1
  10. PPT文件带有打开密码怎么解决
  11. ”一个馒头引发的血案“|记Mybatis之BindingException异常的产生及解决过程
  12. Java2.28~2.29学习笔记
  13. ES6 --promise了解
  14. MySQL下载、安装(这里是免装版)、配置与删除
  15. html之设置页面ico图标ie浏览器,如何修改网页小图标,浏览器页面上的图标(favicon.ico)...
  16. js面向对象模拟京东商城图片放大效果
  17. 上手基金,看这一篇就够了
  18. AUTOCAD学习笔记5:单相半波整流电路的绘制
  19. HT32基本外设使用
  20. 加密货币再现震荡,总市值持续减少188亿—区块链周报第十一期 原创: 陀螺财经研究院 陀螺财经 昨天

热门文章

  1. ASCII 编码对照表 一览表
  2. Windows9x系统下汉字输入法的基本原理
  3. win10关闭了微软服务器,win10自带安全软件怎么关闭|win10关闭自带杀毒软件的两种方法...
  4. 5个增加数据科学学习的技巧
  5. 分支语句与循环语句(二)
  6. android 手机资料互传,不同系统手机资料互传so easy
  7. 用PayPal在eBay上撸货加哪种卡可以长期用?
  8. 对象实例数据和对象类型数据
  9. 雷达感应智能窗帘,雷达感应模组方案,家居智能化交互体验
  10. TVS相关参数与选型