《用户行为画像》学习(1-4章)
目录
一章 概述
数据来源
画像特性
应用领域
二章 画像建模
用户画像两个部分
三章 群体用户画像分析
主要流程
用户画像相似度
用户画像聚类
四章 用户画像管理
存储机制
查询机制
定时更新机制
一章 概述
用户画像:同类用户进行不同维度的刻画
用户角色:业务系统中不同用户的角色区分
用户属性:对属性的刻画和描述,如性别,年龄……
数据来源
用户属性——静态画像
用户行为——动态画像
画像特性
时空局限性:时间上,目标是通过精准的刻画,提供个性化服务;空间上:不同领域有不同的侧重点,因此要针对各自的特点设计对应的用户画像。
应用领域
搜索引擎
推荐系统
业务定制
二章 画像建模
画像建模就是用户信息的标签化
用户画像建模的核心是对用户潜在的意图和兴趣进行表示和存储,根据用户的基础信、视频信息、访问信息、行为偏好、隐式兴趣等归纳出可以读取和计算的用户模型。
用户画像两个部分
定性画像:用户基本特征。行为刻画、兴趣模型、视频表征等
标签是用户定性画像的核心
年龄标签,地域标签……语义化和短文本是标签呈现的两个重要特征。语义化使人能理解这些标签,短文本可以减少预处理,方便计算机对标签提取和聚合分析。
定量画像:用户基础变量、兴趣偏好等可量化数据特征
重点考虑用户画像的颗粒度,越细越具体,越细则建模成本越高
颗粒度要适度,再通过表单捕捉用户行为,存储和分析数据。表单是最直接的一种显示收集方式
推荐系统中的两类元素:用户(user)和项(item)
用户定性画像的构建
利用本体对用户画像领域中的标签进行表示、验证、推理和解释。
本体包括类、属性、实例、公理、推理规则
本体构建的关键步骤
构建领域词汇表:即各类标签
确定类与类之间的结构:确定类属关系,如视频分为电视剧、电影、综艺……,层次细分
定义属性:对象属性和数据属性
定义实例:即实体,类和属性是本体的“骨骼”,实例是本体的“血肉”。
定义约束公理和推理规则:类概念之间的约束条件
三章 群体用户画像分析
推荐系统设计时,因为用户众多,不可能对每一用户都有特定的画像。用户画像应不仅仅能分析目标用户,还应包括用户间的关联分析,即群体用户画像分析。刻画了一群真实的用户,能够方便设计者从群体中发现存在的差异化特征,根据差异化提供针对性的服务。
主要流程
用户画像获取
用户画像相似度计算、根据不同用户画像计算相似度,区分用户群体的重要指标,开展用户画像聚类的前提
用户画像聚类。根据相似度聚类
群体用户画像生成。针对不同类别用户建立有代表性的典型用户画像
用户画像相似度
定量相似度计算
往往是数值,如年龄、地域等数据,相似度计算为:
定性相似度计算
通过标签来表示,没有确切的数值。所以其计算方法如下:
方法1:标签定量化,将标签概念转为定量数值
方法2:直接基于概念的相似度计算
基于概念信息容量法:通过两个概念的共同父概念的信息容量大小来确定概念的相似度。
基于概念距离法
利用大规模语料库进行统计
利用本体计算【不好理解】
- 概念语义初始相似度层:概念相似度的预定值,同时也是通过概念上下位关系体现出的相似度
- 概念非上下位关系相似度层:在初始相似度基础上计算非上下位关系体现的相似度
相似度最后通过加权求和:
用户画像聚类
不同元素到簇中心的距离运算是可以并行执行的,所以k-means可以MapReduce化,实现高性能。
四章 用户画像管理
用户画像表项形式
关键词法
评分矩阵法
向量空间表示法
本体表示法
存储机制
关系型数据库
二维表,行存储
非关系型数据库
键值对存储数据库:基于哈希计算,松耦合,查询快。Redis
列存数数据库。应对分布式存储关系的海量数据,以关系型数据库中的列为单位进行存储。HBase、Druid
https://zhuanlan.zhihu.com/p/127823207
大数据关注数据的过滤和统计
按行存储如果需要统计某一列的总合,需要全表扫描,将所有行读入。若用列存储,某一列的数据将被组织在一起,即相同属性的数据连续存储;减少磁盘IO,提高处理速度。当出现重复时,可以进行数据压缩,节省存储。
文档型数据库:类似键值对存储,能利用文档中不同域进行复杂关联操作,MongoDB
图形数据库
用户画像的存储主要基于列数据可和key-value数据库
数据仓库
是一个面向主题的,集成的,随时间变化的数据集合
查询机制
最常用最基本的操作,查询出来id效率很大程度上决定了推荐系统的性能。
并发查询
缓存机制
定时更新机制
如何获取实时变化的用户画像数据
如何设置合适的用户画像更新出发条件
高效的更新算法
获取用户信息
静态信息:相对稳定
动态信息
更新触发条件
设置阈值,根据获取的实时画像数据量与阈值的关系
设置时间周期
先从增加的数据中挖掘用户画像,将其与原画像比较后再决定是否更新
更新机制
完全更新:计算量大,耗时
增量更新:计算量少,时间滑动窗口过滤算法。广泛应用
继续更新中……
《用户行为画像》学习(1-4章)相关推荐
- 《Pygame游戏编程入门》学习——第4章 用户输入:Bomb Catcher游戏
<Pygame游戏编程入门>学习--第4章 用户输入:Bomb Catcher游戏 第4章 挑战[^1] 问题1. Bomb Catching游戏太小了,玩起来不是很过瘾.毕竟,它只是一个 ...
- c语言口令验证模块加强版,[C语言学习第3章口令验证模块的开发.ppt
[C语言学习第3章口令验证模块的开发 C语言程序 设计项目教程 第3章 口令验证模块的开发 Evaluation only. Created with Aspose.Slides for .NET 3 ...
- 《Go语言圣经》学习笔记 第九章 基于共享变量的并发
<Go语言圣经>学习笔记 第九章 基于共享变量的并发 目录 竞争条件 sync.Mutex互斥锁 syn.RWMutex读写锁 内存同步 syn.Once初始化 竞争条件检测 示例:并发的 ...
- 《Go语言圣经》学习笔记 第二章 程序结构
Go语言圣经学习笔记 第二章 程序结构 目录 命名 声明 变量 赋值 类型 包和文件 作用域 注:学习<Go语言圣经>笔记,PDF点击下载,建议看书. Go语言小白学习笔记,几乎是书上的内 ...
- 《Go语言圣经》学习笔记 第一章 Go语言入门
Go语言圣经学习笔记 第一章 Go语言入门 目录 Hello, World 命令行参数 查找重复的行 GIF动画 获取URL 并发获取多个URL Web服务 本章要点 注:学习<Go语言圣经&g ...
- 王道考研计算机网络学习心得——第一章-计算机网络体系结构
前言 本文主要是我学习计网的心得,用王道考研的原因主要是因为,又有老师教又有直接的资料书,个人觉得方便一点,不用到处找网课,也不用想到底看哪本书好,等这一轮学完了再看别的书,想必也能得心应手一 ...
- STM32固件库(标准外设库)入门学习 第四章OLED屏幕使用
STM32固件库(标准外设库)入门学习 第四章OLED屏幕使用 本学习教程,参考B站江科大自化协STM32视频,型号为STM32F103C8T6. 文章目录 STM32固件库(标准外设库)入门学习 第 ...
- 乐行学院RabbitMQ学习教程 第一章 RabbitMQ介绍(可供技术选型时使用)
乐行学院RabbitMQ学习教程 第一章 RabbitMQ介绍 RabbitMQ介绍 1.RabbitMQ技术简介 2.RabbitMQ其他扩展插件 2.1监控工具rabbitmq-managemen ...
- 编译原理(龙书)学习笔记 第一章
编译原理(龙书)学习笔记 第一章 1.1语言处理器 解释器(interpreter) : 编译器(compiler): 一个语言处理系统 练习 1.1.1:编译器和解释器之间的区别 1.1.2:相对优 ...
最新文章
- python 改变图片尺寸
- SolrJ搜索功能切换到集群
- python模拟购物车购物过程_python实现购物车+ATM机 第五天
- 软件:推荐5款职场人必备的效率神器APP
- bzoj 2850 巧克力王国 —— K-D树
- 查看主机DNSserver
- TX2Ubuntu16.04远程登录
- php抓取神马搜索结果,php判断神马搜索引擎蜘蛛蜘蛛的方法
- android hidl简单实例1
- PPT文件带有打开密码怎么解决
- ”一个馒头引发的血案“|记Mybatis之BindingException异常的产生及解决过程
- Java2.28~2.29学习笔记
- ES6 --promise了解
- MySQL下载、安装(这里是免装版)、配置与删除
- html之设置页面ico图标ie浏览器,如何修改网页小图标,浏览器页面上的图标(favicon.ico)...
- js面向对象模拟京东商城图片放大效果
- 上手基金,看这一篇就够了
- AUTOCAD学习笔记5:单相半波整流电路的绘制
- HT32基本外设使用
- 加密货币再现震荡,总市值持续减少188亿—区块链周报第十一期 原创: 陀螺财经研究院 陀螺财经 昨天