均值标准化

假定我们现在新注册了一个用户 Eve(5),他还没有对任何电影作出评价:

Y=[5500?5??0??40??0054?0050?]Y=\left[\begin{matrix} 5&5&0&0&?\\ 5&?&?&0&?\\ ?&4&0&?&?\\ 0&0&5&4&?\\ 0&0&5&0&?\\ \end{matrix}\right]Y=⎣⎢⎢⎢⎢⎡​55?00​5?400​0?055​00?40​?????​⎦⎥⎥⎥⎥⎤​

Eve(5) 对于电影内容的偏好应当被参数 θ(5)θ^{(5)}θ(5) 所评估,注意到我们的最小化代价函数过程:

min⁡x(1),...,x(nm);θ(1),...,θ(nu)12∑(i,j):r(i,j)=1((θ(j))Tx(i)−y(i,j))2+λ2∑i=1nm∑k=1n(xk(i))2+λ2∑j=1nu∑k=1n(θk(j))2\min_{x^{(1)},...,x^{(n_m)};θ^{(1)},...,θ^{(n_u)}} \frac 12 \sum_{(i,j):r(i,j)=1} ((θ^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac {\lambda} 2 \sum_{i=1}^{n_m} \sum_{k=1}^n(x^{(i)}_k)^2 + \frac {\lambda} 2 \sum_{j=1}^{n_u} \sum_{k=1}^n(θ^{(j)}_k)^2x(1),...,x(nm​);θ(1),...,θ(nu​)min​21​(i,j):r(i,j)=1∑​((θ(j))Tx(i)−y(i,j))2+2λ​i=1∑nm​​k=1∑n​(xk(i)​)2+2λ​j=1∑nu​​k=1∑n​(θk(j)​)2

由于该用户没有对任何电影作出评价, θ(5)θ^{(5)}θ(5) 能影响上式的项只有:

λ2∑j=1nu∑k=1n(θk(j))2\frac {\lambda} 2 \sum_{j=1}^{n_u} \sum_{k=1}^n(θ^{(j)}_k)^22λ​j=1∑nu​​k=1∑n​(θk(j)​)2

为了最小化该式,我们只能令 θ(5)=(00)θ^{(5)}=\left(\begin{matrix}0\\0\end{matrix}\right)θ(5)=(00​) ,从而,Eve(5) 对任何电影的评价将会被预测为:

y(i,5)=(θ(5))Tx(i)=0y(i,5)=(θ^{(5)})^Tx^{(i)}=0y(i,5)=(θ(5))Tx(i)=0

显然,这就是一种“不负责任”的预测了,系统会因此认为 Eve 对任何电影都不感冒,那么,Eve 就是吃饱了撑的来注册这个网站。

为了这个解决这个问题,我们会先求取各个电影的平均得分 μμμ :

μ=(2.52.522.251.25)μ=\left(\begin{matrix} 2.5\\ 2.5\\ 2\\ 2.25\\ 1.25\\ \end{matrix}\right)μ=⎝⎜⎜⎜⎜⎛​2.52.522.251.25​⎠⎟⎟⎟⎟⎞​

并求取 Y−μY−μY−μ ,对 YYY 进行均值标准化:

Y−μ=[2.52.5−2.5−2.5?2.5??−2.5??−2−2??−2.25−2.252.751.75?−1.25−1.253.75−1.25?]Y-μ=\left[\begin{matrix} 2.5 & 2.5 & -2.5 & -2.5 & ?\\ 2.5 & ? & ? & -2.5 & ?\\ ? & -2 & -2 & ? & ?\\ -2.25 & -2.25 & 2.75 & 1.75 & ?\\ -1.25 & -1.25 & 3.75 & -1.25 & ?\\ \end{matrix}\right]Y−μ=⎣⎢⎢⎢⎢⎡​2.52.5?−2.25−1.25​2.5?−2−2.25−1.25​−2.5?−22.753.75​−2.5−2.5?1.75−1.25​?????​⎦⎥⎥⎥⎥⎤​

对于用户 jjj ,他对电影 iii 的评分就为:
y(i,j)=(θ(i))Tx(j)+μiy(i,j)=(θ^{(i)})^Tx^{(j)}+μ_iy(i,j)=(θ(i))Tx(j)+μi​

那么 Eve 对电影的评分就为:
y(i,5)=(θ(5))Tx(j)+μi=μiy(i,5)=(θ^{(5)})^Tx^{(j)}+μ_i=μ_iy(i,5)=(θ(5))Tx(j)+μi​=μi​

即,系统在用户未给出评价时,默认该用户对电影的评价与其他用户的平均评价一致。貌似利用均值标准化让用户的初始评价预测客观了些,但这也是盲目的,不准确的。实际环境中,如果一个电影确实没人被评价过,那么他没有任何理由被推荐给用户。

9.4 均值标准化-机器学习笔记-斯坦福吴恩达教授相关推荐

  1. 4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授

    机器学习系统设计–垃圾邮件分类 假定我们现有一封邮件,其内容如下: From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subjec ...

  2. 1.5 特征缩放-机器学习笔记-斯坦福吴恩达教授

    特征缩放 引子 在前一章节中,对房屋售价进行预测时,我们的特征仅有房屋面积一项,但是,在实际生活中,卧室数目也一定程度上影响了房屋售价.下面,我们有这样一组训练样本: 注意到,房屋面积及卧室数量两个特 ...

  3. 3.12 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授

    多分类问题 我们手上包含有手写字符的数据集,该数据集来自斯坦福机器学习的课后作业,每个字符图片大小为 20×20 ,总的样本规模为 5000×400 , 我们的神经网络设计如下,包含 1 个隐含层,隐 ...

  4. 10.1 掌握大数据-机器学习笔记-斯坦福吴恩达教授

    掌握大数据 在算法分析与优化一节中,我们就提到,在机器学习界流传着这样一句话: It's not who has the best algorithm that wins. It's who has ...

  5. 9.1 基于内容的推荐系统-机器学习笔记-斯坦福吴恩达教授

    基于内容的推荐系统 推荐系统是机器学习最重要的应用之一,你所知道的淘宝.亚马逊.facebook.豆瓣这些网站都把推荐系统作为了核心.在某个电影资讯的网站,有那么一份用户对于电影的打分(1 - 5 分 ...

  6. 8.2 高斯分布模型-机器学习笔记-斯坦福吴恩达教授

    高斯分布模型 我们已经知道,异常检测的核心就在于找到一个概率模型,帮助我们知道一个样本落入正常样本中的概率,从而帮助我们区分正常和异常样本. 高斯分布(Gaussian Distribution) 模 ...

  7. 8.1 概述-机器学习笔记-斯坦福吴恩达教授

    概述 异常检测(Anomaly Detection)是机器学习里面的一个常见应用,机器通过训练,将知道什么样的样本是正常样本,从而具备识别异常样本的能力. 飞机制造商在飞机引擎从生产线上流入市场前,会 ...

  8. 7.3 程序示例--PCA 模型-机器学习笔记-斯坦福吴恩达教授

    程序示例–PCA 模型 # coding: utf8 # pca/pca.pyimport numpy as npdef normalize(X):"""数据标准化处理A ...

  9. 6.6 二分 K-Means 算法-机器学习笔记-斯坦福吴恩达教授

    二分 K-Means 算法 该算法补充自 <机器学习实战> 一书 常规的 K-Means 算法的误差通常只能收敛到局部最小,在此,引入一种称为二分 K-Means(bisecting km ...

最新文章

  1. eclipse中多个工程编译到同一个目录下
  2. oracle查看数据库名和实例名
  3. php屏幕共享功能,利用无线投屏技术同屏直播,精彩随时共享
  4. css3 pointer-events:none 允许点击穿透
  5. NET 提供了执行异步操作的三种模式
  6. 一个IT经理眼中的RTX、Simba2013与Lync
  7. 解决 QtCreator 3.5(4.0)无法输入中文的问题
  8. Java 设计模式之 Composite 组合模式
  9. Eclipse/STS 在线安装阿里java代码规约插件
  10. 使用mcisendstring重复播放音乐文件
  11. VS中项目的循环引用的问题
  12. 数组 , List互转
  13. 如何使用VBS调用VBA函数
  14. (案例篇)日志易:IT运维分析及海量日志搜索的实践之路(下)
  15. 深度篇——目标检测史(五) 细说 SSD 目标检测
  16. 为什么员工 996 多猝死,而企业家 996 甚至 9127 却很少听到有猝死的?答案原来是.....
  17. 程序员是做什么的?未来计算机变得智能,就不需要程序员了吗?
  18. 一剑开尘走龙蛇 XGBoost
  19. java导出excel 边框不全_POI 导出Excel合并单元格后部分边框不显示
  20. 阿里热更新(Sophix)

热门文章

  1. string to byte[]
  2. MySQL的大小写问题
  3. scrum 11.8
  4. T-Sql 实现类似访问数组变量的操作
  5. 通过远程桌面操作程序出现hook cannot be created(SendKeys语句错误)的解决
  6. awk 数组用法【精华贴】
  7. UA MATH563 概率论的数学基础 中心极限定理17 0-1律的应用
  8. UA MATH575B 数值分析下 计算统计物理例题1
  9. Linux insmod 命令学习
  10. svnserve.conf - snvserve 的仓库配置文件