基于机器学习的内容推荐算法目前在各类内容类APP中使用的非常普遍。在购物、时尚、新闻咨询、学习等领域,根据用户的喜好,进行较为精准的用户画像与内容推荐。此类算法不但可以较为准确的分析用户的特征,如年龄、性别等,还能通过长期的跟踪维护,大致确定用户的偏好。但过于精确的推荐,对用户的潜在心理学影响越来越受到科学界的重视。本文首先介绍推荐算法的基本原理,再介绍其对用户的心理学、社会学影响。

文章目录

  • 1. 推荐算法简介
    • 1.1 内容模型
    • 1.2 没有用户画像的直接预测
    • 1.3 基于用户模型的推荐
  • 2.精确推荐的负面影响
    • 2.1 信息茧房
    • 2.2 群体割裂
  • 3. 应对建议

1. 推荐算法简介

一个用户的浏览或者购买行为,以一定的颗粒度为单位,可以在历史时间轴上构成一串链条。但细分推荐场景,又大致可以分为两类。一是简单互动类,二是复杂互动类。

类别A,简单互动类:典型的是新闻、短视频。用户在一个内容上驻留的时间期望以分钟、秒计,以浏览为主,加以简单的弹幕、点赞等回复。用户在1天内可产生上百个颗粒的浏览行为。

类别B,复杂互动类:典型的是购物、学习。用户较为专注于一类内容,且在某几个单一内容的驻留时间很长,发生较为复杂的事务,如退货、结算、评价等。用户在1天内只会产生少量的颗粒。

尽管这两种类别的推荐算法在数据模型、训练方法上的侧重相当的不同,但依旧有一些共同点。

1.1 内容模型

要描述一个内容的属性,使得机器学习或者简单的模式分类算法可以对其进行处理,就要把内容转化为含有各类属性的向量。

如音乐,可能包含许多属性。既有流派、作曲、演唱、唱片集等枚举类型的标量,也有对波形进行处理后得到的变换域向量,往往体现了整个音轨的起伏、能量区间和频率组合关系。

典型的作品数据含有长度为16的标量区,长度为128的向量区,构成一个144的特征向量。在内容模型中,这个向量就代表确定的一首歌。

M ⃗ = [ M c ⃗ M v ⃗ ] \vec{M}=\begin{bmatrix} \vec{M_c} & \vec{M_v} \end{bmatrix} M =[Mc​ ​​Mv​ ​​]

一个用户的浏览习惯,就是以向量 M ⃗ \vec{M} M 为单位的向量列表,代表了这个用户的n次历史浏览。
{ M ⃗ 0 , M ⃗ 1 , M ⃗ 2 , . . . , M ⃗ n − 1 } \{\vec{M}_0,\vec{M}_1,\vec{M}_2,...,\vec{M}_{n-1}\} {M 0​,M 1​,M 2​,...,M n−1​}

1.2 没有用户画像的直接预测

对于类别A,由于存在海量的浏览链条,可以采取一种简单朴素的预测算法。这种算法通过输入K次浏览数据,试图对下一颗粒的标量进行预测。

{ M ⃗ t − K , M ⃗ t − K + 1 , . . . , M ⃗ t − 1 } = = > M c , t ⃗ \{\vec{M}_{t-K},\vec{M}_{t-K+1},...,\vec{M}_{t-1}\}==> \vec{M_{c,t}} {M t−K​,M t−K+1​,...,M t−1​}==>Mc,t​ ​

一旦获取了预测标量,则可以推荐标量中涉及的唱片集、歌手、风格给用户。

1.3 基于用户模型的推荐

用户模型是对内容受众的数学化描述。比如用户的性别、年龄等等,以及数字化的喜好数据。这类算法目前门类很多,也有不少开源的模型。比较有意思的是,基于用户模型的推荐,并不强调必须要准确获知可被自然人理解的用户特征,比如年龄、性别。比如某一类推荐算法,看起来更像是一种信息压缩与解压的生成式算法。

这种算法,分为用户的特征提取(学习)、基于特征的推荐两步骤。思路是随机从用户习惯中抽取K组特征串{M}输入模型,经过A区的NN网络,输出用户画像 P,并经过B区生成内容模型{M’}。训练的目的,是控制P的规模,并期待输出的内容集合与用户的历史数据集合最为吻合。

这种情况下,P虽然代表用户特征,但其中向量的具体意义已经不再重要了。在具备大量用户的网站,无需对用户全集进行完整的训练,只需要收集到小规模向量P的类别,即可根据新用户的类别直接查表获得推荐内容。

2.精确推荐的负面影响

过于精确的内容推荐,会产生意想不到的心理学、社会学影响,典型的是信息茧房与群体割裂。

2.1 信息茧房

一种典型的影响是信息茧房。当一个用户在初次浏览某个内容网站时,获取的咨询的属性非常宽泛与随机,其首页展现的内容的概率分布是平缓的、均匀的。这段时间是算法收集用户习惯的阶段。

随着浏览次数的增加,推荐算法对用户喜好的掌握越来越精确,使得用户获得的内容集中于感兴趣的若干点上,算法收敛。


对推荐算法不了解的用户尤其会受到影响,他们不会认为早晨起来每天都看到这些内容,是自己被“投其所好”造成的现象。用户获取的信息被算法束缚在一个狭窄的集合内,无法了解到潜在重要的信息。

这种情况对于学习、科学网站,是没有问题的。但对综合类的内容网站,则存在弊端。假设用户在某段时间心理压力大,搜索了负面的内容,则推荐算法可能会推波助澜。尤其是对有抑郁倾向的用户,可能加重病情。

2.2 群体割裂

算法依靠用户习惯为用户画像,并精确推送内容。而用户被画像后推送的内容影响,会产生群体聚集效应。从种群角度来说,各种符号形成的群落会在算法编织的信息茧房里聚集,吸引具备同样特征的个体,而加剧群体的割裂。

这使得整个群体被不断分割、强化,形成很多稳定而不包容的类。这些类无法站在对方的角度思考问题,因为各个类别都生活在算法编制的茧房里,一些统计学上显而易见的小概率事件在各自茧房中放大,一些需要注意的公共问题也无法在不同的群体中传播与取得共识。久而久之种群整体就会被分化,失去稳定性。

3. 应对建议

从算法角度,应该在涉及心理学、社会学的领域引入新的输入。比如在检获有抑郁倾向后,推送治愈系的内容,以及提高推荐算法的丰富程度。

基于机器学习的内容推荐算法及其心理学、社会学影响闲谈相关推荐

  1. 基于机器学习的个性化推荐算法的研究

    基于 机器学习 的个性化推荐算法的研究 摘要: 如今互联网发展 十分迅速,每天产生的数据量一直在增加,传统的搜索引擎已经不能够适用当前的需求,推荐系统已经成为互联网时代的新宠儿.它已经发展成为一门跨学 ...

  2. 基于内容推荐算法实现原理

    本文会从什么是基于内容的推荐算法.算法基本原理.应用场景.基于内容的推荐算法的优缺点.算法落地需要关注的点等5个方面来讲解. 1.什么是基于内容的推荐算法 所谓基于内容的推荐算法(Content-Ba ...

  3. 如何使用Spring+SpringMVC+Mybatis开发实现个性化小说推荐系统 协同过滤推荐算法实现 基于用户、项目的协同过滤推荐 基于聚类、关联规则、内容推荐算法 WebNovelCFRS

    如何使用Spring+SpringMVC+Mybatis开发实现个性化小说推荐系统 协同过滤推荐算法实现 基于用户.项目的协同过滤推荐 基于聚类.关联规则.内容推荐算法 WebNovelCFRS 一. ...

  4. 基于内容推荐算法的电影推荐系统

    基于内容的推荐算法 格局用户过去一段时间内喜欢的物品,以及由此推算出来用户偏好,为用户推荐相似物品.其中的"内容"指的便是:用户过去一段时间内喜欢的物品,以及由此推算出来的用户偏好 ...

  5. 协同过滤推荐算法和基于内容推荐算法的区别?

    文章最前: 我是Octopus,这个名字来源于我的中文名--章鱼:我热爱编程.热爱算法.热爱开源.所有源码在我的个人github :这博客是记录我学习的点点滴滴,如果您对 Python.Java.AI ...

  6. 论文研读-AI4VIS-可视化推荐-VizML: 一种基于机器学习的可视化推荐方法

    VizML: 一种基于机器学习的可视化推荐方法 1 论文概述 1.1 摘要 1.2 引言 2 问题陈述 3 相关工作 3.1 基于规则的可视化推荐系统 3.2 基于机器学习的可视化推荐系统 4 数据 ...

  7. Spotify 每周推荐功能:基于机器学习的音乐推荐

    原文地址:Spotify's Discover Weekly: How machine learning finds your new music 原文作者:Sophia Ciocca 译文出自:掘金 ...

  8. 推荐系统 --- 推荐算法 --- 基于用户行为的推荐算法 - 协同过滤算法

    概述 历史 1992年,Goldberg.Nicols.Oki及Terry提出 基本思想 爱好相似的用户喜欢的东西可能也会喜欢 优点 共享朋友的经验,提高推荐的准确度 根据爱好相似的用户喜欢的视频进行 ...

  9. 基于PaddleRec框架Mind推荐算法实现穿衣搭配推荐

    基于PaddleRec框架Mind推荐算法实现穿衣搭配推荐 1 项目简介 1.1 引言 2015年淘宝举行穿衣搭配比赛时,基于统计分析,数据挖掘的推荐系统已开始大规模落地应用.这几年,随着机器学习,尤 ...

最新文章

  1. 2018中国AI英雄风云榜:投出你心目中的中国AI领军人!
  2. 天池 在线编程 扫雷(BFS)
  3. 清明节游戏服务器维护,清明节游戏活动【4月2日--4月16日】
  4. 拼多多黄峥一句话,阿里P8的我,越想越后怕
  5. (王道408考研操作系统)第二章进程管理-第一节3:进程控制(配合Linux讲解)
  6. cocos2d 嵌入网页_在 cocos2d-x 中嵌入浏览器
  7. jsonrpc php使用,php实现的一个简单jsonrpc框架实例
  8. 在飞桨平台做图像分类-1 制作基于飞桨的数据集|CSDN创作打卡
  9. python风控建模培训
  10. 新建数据库监听端口被占用
  11. 头像/证件照抠图与圣诞背景替换
  12. OpenStack安装部署报错记录,Error processing default value xxx for Opt type of HostAddress
  13. nodejs使用emailjs发送邮箱邮件
  14. Eureka的自我保护机制与如何禁用
  15. vant 2 Calendar控件IOS下空白
  16. 卡通动漫Mac动态壁纸5K
  17. 转发:我收到一份《中国焦虑图鉴》
  18. GO/KEGG富集分析与GSEA区别
  19. 【干货】蒋步星:关系代数的问题及尝试
  20. java new collection_Java中的集合Collection

热门文章

  1. 新机台勒索病毒防护入厂场景
  2. 开源啦!一款基于Vue3 + Vite + TS的简历制作神器~~
  3. IDEA画UML类图
  4. 教你炒股票6:本ID如何在五粮液、包钢权证上提款的!
  5. 【转】《阴符经》原文
  6. python 日期加一天_python 当前时间多加一天、一小时、一分钟
  7. 关于使用QAxObject类操作Excel中出现QAxBase : Error calling IDispatch member SaveAs:Exception thrown by server解决
  8. [转]古典语录,每一句话都可以回味一辈子
  9. java面试题——编程题:彩色瓷砖
  10. 微软扩大知识产权保护范围 划清与 Linux 界线