推荐之用户画像【1】–概述

本文主要对构建用户画像（处理海量用户非结构化文本）的方法做大致汇总，整体结构参考刑无刀大佬，详细原理及代码持续更新ing
知乎链接：推荐之用户画像【1】–概述 - LynneS的文章 - 知乎

第一类使用原始数据。

如注册资料等人口统计学信息，或者购买历史，阅读历史等，除了数据清洗等工作，数据本身并没有做任何抽象和归纳。跟查户口一样，没什么技术含量，但通常对于用户冷启动等场景非常有用。

第二类就是堆历史数据。

做统计工作，这是最常见的用户画像数据，常见的兴趣标签，就是这一类，就是从历史行为数据中去挖掘出标签，然后在标签维度上做数据统计，用统计结果作为量化结果。这一类数据贡献了常见的酷炫用户画像。

第三类用机器学习方法

学习出人类无法直观理解的稠密向量，也最不被非技术人员重视，但实际上在推荐系统中承担的作用非常大。比如使用潜语义模型构建用户阅读兴趣，或者使用矩阵分解得到的隐因子，或者使用深度学习模型学习用户的 Embedding 向量。这一类用户画像数据因为通常是不可解释，不能直接被人看懂。

1、非结构文本结构化，去粗取精，保留关键信息

1.1 词提取

最基础的标签来源，也为其他文本分析提供基础数据。

TF-IDF
- 在一篇文字中反复出现的词会更重要，在所有文本中都出现的词更不重要。
- TF （ Term Frequency词频）
  - 在要提取关键词的文本中出现的次数
- IDF （Inverse Document Frequency 逆文档频率）
  - 是提前统计好的，在已有的所有文本中，统计每一个词出现在了多少文本中，记为 n，也就是文档频率，一共有多少文本，记为 N。
- 计算出 TF 和 IDF 后，将两个值相乘，就得到每一个词的权重。
TextRank
- 算法思想
  - 1、文本中，设定一个窗口宽度，比如 K 个词，统计窗口内的词和词的共现关系，将其看成无向图。
  - 2、所有词初始化的重要性都是 1；
  - 3、每个节点把自己的权重平均分配给“和自己有连接“的其他节点；
  - 4、每个节点将所有其他节点分给自己的权重求和，作为自己的新权重；
  - 5、如此反复迭代第 3、4 两步，直到所有的节点权重收敛为止。

1.2 内容分类：

将文本按照分类体系分类，用分类来表达较粗粒度的结构化信息。
短文本（UGC时代）分类常用算法：SVM，开源工具：FastText

1.3 实体识别

命名实体识别 NER，Named-Entity Recognition）
- 在 NLP 技术中常常被认为是序列标注问题，和分词、词性标注属于同一类问题。序列标注问题，就是给你一个字符序列，从左往右遍历每个字符，一边遍历一边对每一个字符分类，
  - 分词问题：对每一个字符分类为“词开始”“词中间”“词结束”三类之一；
  - 词性标注：对每一个分好的词，分类为定义的词性集合的之一；
  - 实体识别：对每一个分好的词，识别为定义的命名实体集合之一。
常用算法
- 隐马尔科夫模型（HMM）
- 条件随机场CRF

1.4 主题模型

从大量已有文本中学习主题向量，然后再预测新的文本在各个主题上的概率分布情况
- 聚类思想，主题向量非标签形式
常用算法：LDA
- 开源的 LDA 训练工具
  - Gensim
  - PLDA

1.5 嵌入

Embedding
- 嵌入表达是为了挖掘出字面意思之下的语义信息，并且用有限的维度表达出来。
- 除了 LDA，其他都是得到一些标签，而这些标签无一例外都是稀疏的，而词嵌入则能够为每一个词学习得到一个稠密的向量。
向量可用于：
- 计算词和词之间的相似度，扩充结构化标签；
- 累加得到一个文本的稠密向量；
- 用于聚类，会得到比使用词向量聚类更好的语义聚类效果。
常用算法：
- Word2Vec、Doc2Vec

2、根据用户行为数据把物品的结构化结果传递给用户，与用户自己的结构化信息合并

用户用实际行动帮我们标注了若干数据，那么挑选出他实际感兴趣的特性就变成了特征选择问题。
- 基本思想：把物品的结构化内容看成文档；把用户对物品的行为看成是类别；每个用户看见过的物品就是一个文本集合；在这个文本集合上使用特征选择算法选出每个用户关心的东西。

两种方法

不同：
- 卡方检验和信息增益不同之处在于：前者是针对每一个行为单独筛选一套标签出来，后者是全局统一筛选。
卡方检验（CHI）
- 假设某个词Wi 和类别 Cj是否相互独立，该假设越不成立，说明Wj就越接近关键词。
信息增益（IG）
- 信息熵
  - 各个类别的文本数量差不多时，信息熵就比较大。
  - 其中少数类别的文本数量明显较多时，信息熵就较小。
- 信息增益计算方法
  - 统计全局文本的信息熵；
  - 统计每个词的条件熵，就是知道了一个词后再统计文本的信息熵，只不过这里要分别计算包含词和不包含词两部分的信息熵，再按照各自文本比例加权平均；
  - 两者相减就是每个词的信息增益。
- 经典算法
  - 决策树分类算法

用户画像（User Profile）概述相关推荐

用户画像-User Profile
@ 2018-05-27 1. 用户画像 1.1 什么是用户画像? 1.2 用户画像与推荐系统的关系 2. 用户画像的关键因素 3. 用户画像的构建方法 1. 用户画像 1.1 什么是用户画像? 用户 ...
用户画像（profile v.s. persona）
用户画像分类: 1.user profile 2.user persona user profile user profile 类似于用户档案.偏向于标签类的画像:定义: user profile ...
看完秒懂大数据用户画像！
来自:网络什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础, ...
如何用大数据构建精准用户画像？
什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础,奠定了大数据 ...
大数据分析-用户画像详解
转自: 百丽百灵(ID:BL100BL) 转自数据分析公号,来源:数据客什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速 ...
简单人物画像_你真的理解用户画像吗？| 船说
" 「设计师沙龙」是ARK下半年开始逐渐形成的传统,由ARKers自发组织,分为视觉和交互两类,每月各举办一次.大家围绕一个话题展开,聊聊行业最新案例和工作上的心得,帮助大家共同进步. AR ...
用户画像标签维度_用户画像详解：关于用户画像的What、Why、How
今天谈谈大家经常听到却又一肚子懵逼的"用户画像". What 基础概念扫盲用户画像(User Profile):也称人物角色,是根据用户社会属性.生活习惯和消费行为等信息而抽象出 ...
用户画像系列——认识每一个“你”：微博中的用户模型
社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率.身处社交媒体中的每个人或组织同时扮演着信息生产者.传播者与接受者的角色. ...
干货｜一文从0到1掌握用户画像知识体系
作者介绍上海@王松客户数据平台产品经理欢迎交流学习 00 引言前段时间上了一个用户画像的课程,授课老师是<用户画像:方法论与工程化解决方案>的作者赵宏田老师:另外也研读了一些讲述用 ...
推荐：一文从0到1掌握用户画像知识体系
00 引言前段时间上了一个用户画像的课程,授课老师是<用户画像:方法论与工程化解决方案>的作者赵宏田老师:另外也研读了一些讲述用户画像的文章. 基于对上述学习内容的理解,同时结合工作实践 ...

用户画像（User Profile）概述