推荐之用户画像【1】–概述

本文主要对构建用户画像(处理海量用户非结构化文本)的方法做大致汇总,整体结构参考刑无刀大佬,详细原理及代码持续更新ing
知乎链接:推荐之用户画像【1】–概述 - LynneS的文章 - 知乎

  1. 第一类 使用原始数据。

如注册资料等人口统计学信息,或者购买历史,阅读历史等,除了数据清洗等工作,数据本身并没有做任何抽象和归纳。跟查户口一样,没什么技术含量,但通常对于用户冷启动等场景非常有用。

  1. 第二类就是堆历史数据。

做统计工作,这是最常见的用户画像数据,常见的兴趣标签,就是这一类,就是从历史行为数据中去挖掘出标签,然后在标签维度上做数据统计,用统计结果作为量化结果。这一类数据贡献了常见的酷炫用户画像。

  1. 第三类用机器学习方法

学习出人类无法直观理解的稠密向量,也最不被非技术人员重视,但实际上在推荐系统中承担的作用非常大。比如使用潜语义模型构建用户阅读兴趣,或者使用矩阵分解得到的隐因子,或者使用深度学习模型学习用户的 Embedding 向量。这一类用户画像数据因为通常是不可解释,不能直接被人看懂。

1、非结构文本结构化,去粗取精,保留关键信息

1.1 词提取

最基础的标签来源,也为其他文本分析提供基础数据。

  • TF-IDF

    • 在一篇文字中反复出现的词会更重要,在所有文本中都出现的词更不重要。
    • TF ( Term Frequency词频)
      • 在要提取关键词的文本中出现的次数
    • IDF (Inverse Document Frequency 逆文档频率)
      • 是提前统计好的,在已有的所有文本中,统计每一个词出现在了多少文本中,记为 n,也就是文档频率,一共有多少文本,记为 N。
    • 计算出 TF 和 IDF 后,将两个值相乘,就得到每一个词的权重。
  • TextRank
    • 算法思想

      • 1、文本中,设定一个窗口宽度,比如 K 个词,统计窗口内的词和词的共现关系,将其看成无向图。
      • 2、所有词初始化的重要性都是 1;
      • 3、每个节点把自己的权重平均分配给“和自己有连接“的其他节点;
      • 4、每个节点将所有其他节点分给自己的权重求和,作为自己的新权重;
      • 5、如此反复迭代第 3、4 两步,直到所有的节点权重收敛为止。

1.2 内容分类:

  • 将文本按照分类体系分类,用分类来表达较粗粒度的结构化信息。
  • 短文本(UGC时代)分类常用算法:SVM,开源工具:FastText

1.3 实体识别

  • 命名实体识别 NER,Named-Entity Recognition)

    • 在 NLP 技术中常常被认为是序列标注问题,和分词、词性标注属于同一类问题。序列标注问题,就是给你一个字符序列,从左往右遍历每个字符,一边遍历一边对每一个字符分类,

      • 分词问题:对每一个字符分类为“词开始”“词中间”“词结束”三类之一;
      • 词性标注:对每一个分好的词,分类为定义的词性集合的之一;
      • 实体识别:对每一个分好的词,识别为定义的命名实体集合之一。
  • 常用算法
    • 隐马尔科夫模型(HMM)
    • 条件随机场CRF

1.4 主题模型

  • 从大量已有文本中学习主题向量,然后再预测新的文本在各个主题上的概率分布情况

    • 聚类思想,主题向量非标签形式
  • 常用算法:LDA
    • 开源的 LDA 训练工具

      • Gensim
      • PLDA

1.5 嵌入

  • Embedding

    • 嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来。
    • 除了 LDA,其他都是得到一些标签,而这些标签无一例外都是稀疏的,而词嵌入则能够为每一个词学习得到一个稠密的向量。
  • 向量可用于:
    • 计算词和词之间的相似度,扩充结构化标签;
    • 累加得到一个文本的稠密向量;
    • 用于聚类,会得到比使用词向量聚类更好的语义聚类效果。
  • 常用算法:
    • Word2Vec、Doc2Vec

2、根据用户行为数据把物品的结构化结果传递给用户,与用户自己的结构化信息合并

  • 用户用实际行动帮我们标注了若干数据,那么挑选出他实际感兴趣的特性就变成了特征选择问题。

    • 基本思想:把物品的结构化内容看成文档;把用户对物品的行为看成是类别;每个用户看见过的物品就是一个文本集合;在这个文本集合上使用特征选择算法选出每个用户关心的东西。

两种方法

  • 不同:

    • 卡方检验和信息增益不同之处在于:前者是针对每一个行为单独筛选一套标签出来,后者是全局统一筛选。
  • 卡方检验(CHI)
    • 假设 某个词Wi 和 类别 Cj是否相互独立,该假设越不成立,说明Wj就越接近关键词。
  • 信息增益(IG)
    • 信息熵

      • 各个类别的文本数量差不多时,信息熵就比较大。
      • 其中少数类别的文本数量明显较多时,信息熵就较小。
    • 信息增益计算方法
      • 统计全局文本的信息熵;
      • 统计每个词的条件熵,就是知道了一个词后再统计文本的信息熵,只不过这里要分别计算包含词和不包含词两部分的信息熵,再按照各自文本比例加权平均;
      • 两者相减就是每个词的信息增益。
    • 经典算法
      • 决策树分类算法

用户画像(User Profile)概述相关推荐

  1. 用户画像-User Profile

    @ 2018-05-27 1. 用户画像 1.1 什么是用户画像? 1.2 用户画像与推荐系统的关系 2. 用户画像的关键因素 3. 用户画像的构建方法 1. 用户画像 1.1 什么是用户画像? 用户 ...

  2. 用户画像(profile v.s. persona)

    用户画像 分类: 1.user profile 2.user persona user profile user profile 类似于用户档案.偏向于标签类的画像:定义: user profile ...

  3. 看完秒懂大数据用户画像!

    来自:网络 什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础, ...

  4. 如何用大数据构建精准用户画像?

    什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速地分析用户行为习惯.消费习惯等重要信息,提供了足够的数据基础,奠定了大数据 ...

  5. 大数据分析-用户画像详解

    转自: 百丽百灵(ID:BL100BL) 转自数据分析公号,来源:数据客 什么是用户画像? 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准.快速 ...

  6. 简单人物画像_你真的理解用户画像吗?| 船说

    " 「设计师沙龙」是ARK下半年开始逐渐形成的传统,由ARKers自发组织,分为视觉和交互两类,每月各举办一次.大家围绕一个话题展开,聊聊行业最新案例和工作上的心得,帮助大家共同进步. AR ...

  7. 用户画像标签维度_用户画像详解:关于用户画像的What、Why、How

    今天谈谈大家经常听到却又一肚子懵逼的"用户画像". What 基础概念扫盲 用户画像(User Profile):也称人物角色,是根据用户社会属性.生活习惯和消费行为等信息而抽象出 ...

  8. 用户画像系列——认识每一个“你”:微博中的用户模型

    社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率.身处社交媒体中的每个人或组织同时扮演着信息生产者.传播者与接受者的角色. ...

  9. 干货|一文从0到1掌握用户画像知识体系

    作者介绍 上海@王松 客户数据平台产品经理 欢迎交流学习 00 引言 前段时间上了一个用户画像的课程,授课老师是<用户画像:方法论与工程化解决方案>的作者赵宏田老师:另外也研读了一些讲述用 ...

  10. 推荐 :一文从0到1掌握用户画像知识体系

    00 引言 前段时间上了一个用户画像的课程,授课老师是<用户画像:方法论与工程化解决方案>的作者赵宏田老师:另外也研读了一些讲述用户画像的文章. 基于对上述学习内容的理解,同时结合工作实践 ...

最新文章

  1. ubuntu13.04下安装jdk7
  2. oracle中的备注的配置与查询
  3. java 远程udp_远程客户端不接收UDP数据包
  4. status debug when entering opportunity overview page
  5. 在线多空行只保留一个工具
  6. vue store的值刷新就被覆盖解决方案
  7. Java 8 中的这个接口真好用!炸了!
  8. Ubuntu 16.04下安装 PCL简单方法
  9. 使用sever2008做DHCP中继代理
  10. 通过QQ音乐接口,做的一个简易微信小程序播放器
  11. TCPUDP测试工具
  12. DB2 SQLCODE常见错误代码
  13. python爬虫cookie
  14. fastDB核心心得
  15. Cross-Modality Domain Adaptation
  16. W806-ADC-PWM-TIM尝鲜
  17. 我的留英日记[转载]
  18. 用python写一个NC(八)
  19. VirtualBox 启动错误
  20. 浪涌-雷击浪涌的防护

热门文章

  1. 视频编解码之常见GOP结构
  2. 深入理解计算机系统(v3) 第三章、程序的机器级表示(Linux)
  3. 结合自己经历的一场机器人省赛浅谈如何学习单片机
  4. Spring boot 日志分档基于log4j2.yml 配置文件
  5. 中值定理证明题解题思路
  6. DHCP以及DHCP中继
  7. 生物群落数据分析最常用的统计方法:回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法
  8. element-ui calendar 日历控件实现编辑假期功能以及样式修改
  9. red5安装 (for flash server) 与fms 功能类同。
  10. Dockerfile+elasticsearch7.12.1(配置密码及证书)+kibana7.12.1+cerebro0.83搭建集群