用户画像(User Profile)概述
推荐之用户画像【1】–概述
本文主要对构建用户画像(处理海量用户非结构化文本)的方法做大致汇总,整体结构参考刑无刀大佬,详细原理及代码持续更新ing
知乎链接:推荐之用户画像【1】–概述 - LynneS的文章 - 知乎
- 第一类 使用原始数据。
如注册资料等人口统计学信息,或者购买历史,阅读历史等,除了数据清洗等工作,数据本身并没有做任何抽象和归纳。跟查户口一样,没什么技术含量,但通常对于用户冷启动等场景非常有用。
- 第二类就是堆历史数据。
做统计工作,这是最常见的用户画像数据,常见的兴趣标签,就是这一类,就是从历史行为数据中去挖掘出标签,然后在标签维度上做数据统计,用统计结果作为量化结果。这一类数据贡献了常见的酷炫用户画像。
- 第三类用机器学习方法
学习出人类无法直观理解的稠密向量,也最不被非技术人员重视,但实际上在推荐系统中承担的作用非常大。比如使用潜语义模型构建用户阅读兴趣,或者使用矩阵分解得到的隐因子,或者使用深度学习模型学习用户的 Embedding 向量。这一类用户画像数据因为通常是不可解释,不能直接被人看懂。
1、非结构文本结构化,去粗取精,保留关键信息
1.1 词提取
最基础的标签来源,也为其他文本分析提供基础数据。
- TF-IDF
- 在一篇文字中反复出现的词会更重要,在所有文本中都出现的词更不重要。
- TF ( Term Frequency词频)
- 在要提取关键词的文本中出现的次数
- IDF (Inverse Document Frequency 逆文档频率)
- 是提前统计好的,在已有的所有文本中,统计每一个词出现在了多少文本中,记为 n,也就是文档频率,一共有多少文本,记为 N。
- 计算出 TF 和 IDF 后,将两个值相乘,就得到每一个词的权重。
- TextRank
- 算法思想
- 1、文本中,设定一个窗口宽度,比如 K 个词,统计窗口内的词和词的共现关系,将其看成无向图。
- 2、所有词初始化的重要性都是 1;
- 3、每个节点把自己的权重平均分配给“和自己有连接“的其他节点;
- 4、每个节点将所有其他节点分给自己的权重求和,作为自己的新权重;
- 5、如此反复迭代第 3、4 两步,直到所有的节点权重收敛为止。
- 算法思想
1.2 内容分类:
- 将文本按照分类体系分类,用分类来表达较粗粒度的结构化信息。
- 短文本(UGC时代)分类常用算法:SVM,开源工具:FastText
1.3 实体识别
- 命名实体识别 NER,Named-Entity Recognition)
- 在 NLP 技术中常常被认为是序列标注问题,和分词、词性标注属于同一类问题。序列标注问题,就是给你一个字符序列,从左往右遍历每个字符,一边遍历一边对每一个字符分类,
- 分词问题:对每一个字符分类为“词开始”“词中间”“词结束”三类之一;
- 词性标注:对每一个分好的词,分类为定义的词性集合的之一;
- 实体识别:对每一个分好的词,识别为定义的命名实体集合之一。
- 在 NLP 技术中常常被认为是序列标注问题,和分词、词性标注属于同一类问题。序列标注问题,就是给你一个字符序列,从左往右遍历每个字符,一边遍历一边对每一个字符分类,
- 常用算法
- 隐马尔科夫模型(HMM)
- 条件随机场CRF
1.4 主题模型
- 从大量已有文本中学习主题向量,然后再预测新的文本在各个主题上的概率分布情况
- 聚类思想,主题向量非标签形式
- 常用算法:LDA
- 开源的 LDA 训练工具
- Gensim
- PLDA
- 开源的 LDA 训练工具
1.5 嵌入
- Embedding
- 嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来。
- 除了 LDA,其他都是得到一些标签,而这些标签无一例外都是稀疏的,而词嵌入则能够为每一个词学习得到一个稠密的向量。
- 向量可用于:
- 计算词和词之间的相似度,扩充结构化标签;
- 累加得到一个文本的稠密向量;
- 用于聚类,会得到比使用词向量聚类更好的语义聚类效果。
- 常用算法:
- Word2Vec、Doc2Vec
2、根据用户行为数据把物品的结构化结果传递给用户,与用户自己的结构化信息合并
- 用户用实际行动帮我们标注了若干数据,那么挑选出他实际感兴趣的特性就变成了特征选择问题。
- 基本思想:把物品的结构化内容看成文档;把用户对物品的行为看成是类别;每个用户看见过的物品就是一个文本集合;在这个文本集合上使用特征选择算法选出每个用户关心的东西。
两种方法
- 不同:
- 卡方检验和信息增益不同之处在于:前者是针对每一个行为单独筛选一套标签出来,后者是全局统一筛选。
- 卡方检验(CHI)
- 假设 某个词Wi 和 类别 Cj是否相互独立,该假设越不成立,说明Wj就越接近关键词。
- 信息增益(IG)
- 信息熵
- 各个类别的文本数量差不多时,信息熵就比较大。
- 其中少数类别的文本数量明显较多时,信息熵就较小。
- 信息增益计算方法
- 统计全局文本的信息熵;
- 统计每个词的条件熵,就是知道了一个词后再统计文本的信息熵,只不过这里要分别计算包含词和不包含词两部分的信息熵,再按照各自文本比例加权平均;
- 两者相减就是每个词的信息增益。
- 经典算法
- 决策树分类算法
- 信息熵
用户画像(User Profile)概述相关推荐
- 用户画像-User Profile
@ 2018-05-27 1. 用户画像 1.1 什么是用户画像? 1.2 用户画像与推荐系统的关系 2. 用户画像的关键因素 3. 用户画像的构建方法 1. 用户画像 1.1 什么是用户画像? 用户 ...
- 用户画像(profile v.s. persona)
用户画像 分类: 1.user profile 2.user persona user profile user profile 类似于用户档案.偏向于标签类的画像:定义: user profile ...
- 看完秒懂大数据用户画像!
来自:网络 什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础, ...
- 如何用大数据构建精准用户画像?
什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础,奠定了大数据 ...
- 大数据分析-用户画像详解
转自: 百丽百灵(ID:BL100BL) 转自数据分析公号,来源:数据客 什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速 ...
- 简单人物画像_你真的理解用户画像吗?| 船说
" 「设计师沙龙」是ARK下半年开始逐渐形成的传统,由ARKers自发组织,分为视觉和交互两类,每月各举办一次.大家围绕一个话题展开,聊聊行业最新案例和工作上的心得,帮助大家共同进步. AR ...
- 用户画像标签维度_用户画像详解:关于用户画像的What、Why、How
今天谈谈大家经常听到却又一肚子懵逼的"用户画像". What 基础概念扫盲 用户画像(User Profile):也称人物角色,是根据用户社会属性.生活习惯和消费行为等信息而抽象出 ...
- 用户画像系列——认识每一个“你”:微博中的用户模型
社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率.身处社交媒体中的每个人或组织同时扮演着信息生产者.传播者与接受者的角色. ...
- 干货|一文从0到1掌握用户画像知识体系
作者介绍 上海@王松 客户数据平台产品经理 欢迎交流学习 00 引言 前段时间上了一个用户画像的课程,授课老师是<用户画像:方法论与工程化解决方案>的作者赵宏田老师:另外也研读了一些讲述用 ...
- 推荐 :一文从0到1掌握用户画像知识体系
00 引言 前段时间上了一个用户画像的课程,授课老师是<用户画像:方法论与工程化解决方案>的作者赵宏田老师:另外也研读了一些讲述用户画像的文章. 基于对上述学习内容的理解,同时结合工作实践 ...
最新文章
- ubuntu13.04下安装jdk7
- oracle中的备注的配置与查询
- java 远程udp_远程客户端不接收UDP数据包
- status debug when entering opportunity overview page
- 在线多空行只保留一个工具
- vue store的值刷新就被覆盖解决方案
- Java 8 中的这个接口真好用!炸了!
- Ubuntu 16.04下安装 PCL简单方法
- 使用sever2008做DHCP中继代理
- 通过QQ音乐接口,做的一个简易微信小程序播放器
- TCPUDP测试工具
- DB2 SQLCODE常见错误代码
- python爬虫cookie
- fastDB核心心得
- Cross-Modality Domain Adaptation
- W806-ADC-PWM-TIM尝鲜
- 我的留英日记[转载]
- 用python写一个NC(八)
- VirtualBox 启动错误
- 浪涌-雷击浪涌的防护
热门文章
- 视频编解码之常见GOP结构
- 深入理解计算机系统(v3) 第三章、程序的机器级表示(Linux)
- 结合自己经历的一场机器人省赛浅谈如何学习单片机
- Spring boot 日志分档基于log4j2.yml 配置文件
- 中值定理证明题解题思路
- DHCP以及DHCP中继
- 生物群落数据分析最常用的统计方法:回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法
- element-ui calendar 日历控件实现编辑假期功能以及样式修改
- red5安装 (for flash server) 与fms 功能类同。
- Dockerfile+elasticsearch7.12.1(配置密码及证书)+kibana7.12.1+cerebro0.83搭建集群