在线学习与 MapReduce

在线学习

用户登录了某提供货运服务的网站,输入了货运的发件地址和收件地址,该网站给出了货运报价,用户决定是购买该服务(y=1)( y=1 )(y=1)或者是放弃购买该服务(y=0)( y=0 )(y=0)。

特征向量 xxx 包括了收发地址,报价信息,我们想要学习 p(y=1∣x;θ)p(y=1|x;θ)p(y=1∣x;θ) 来最优化报价:
重复直到收敛:重复直到收敛:重复直到收敛:获得关于该用户的样本(x,y),使用该样本更新θ:\quad\quad 获得关于该用户的样本 (x,y),使用该样本更新\ θ:获得关于该用户的样本(x,y),使用该样本更新 θ:θj:=θj−α(hθ(x)−y)xj,forj=0,...,nθ_j:=θ_j−α(h_θ(x)−y)x_j,\quad for\ j=0,...,nθj​:=θj​−α(hθ​(x)−y)xj​,for j=0,...,n

这就是在线学习(Online learning),与前面章节提到的机器学习过程不同,在线学习并不需要一个固定的样本集进行学习,而是不断接收样本,不断通过接收到的样本进行学习。因此,在线学习的前提是:我们面临着流动的数据。

MapReduce

前面,我们提到了 Mini 批量梯度下降法,假定 b=400,m=400,000,000b=400,m=400,000,000b=400,m=400,000,000 ,我们对 θθθ 的优化就为:
θj:=θj−α1400∑i=1400(hθ(x(i))−y(i))xj(i),forj=0,...,nθ_j:=θ_j−α\frac 1{400}\sum_{i=1}^{400}(h_θ(x^{(i)})−y^{(i)})x_j^{(i)},\quad for\ j=0,...,nθj​:=θj​−α4001​i=1∑400​(hθ​(x(i))−y(i))xj(i)​,for j=0,...,n

假定我们有 4 个机器(Machine),我们首先通过 Map (映射)过程来并行计算式中的求和项,每个机器被分配到 100 个样本进行计算:
tempj(1)=∑i=1100(hθ(x(i))−y(i))xj(i)temp_j^{(1)} = \sum_{i=1}^{100}(h_θ(x^{(i)})−y^{(i)})x_j^{(i)}tempj(1)​=i=1∑100​(hθ​(x(i))−y(i))xj(i)​tempj(2)=∑i=101200(hθ(x(i))−y(i))xj(i)temp_j^{(2)} = \sum_{i=101}^{200}(h_θ(x^{(i)})−y^{(i)})x_j^{(i)}tempj(2)​=i=101∑200​(hθ​(x(i))−y(i))xj(i)​tempj(3)=∑i=201300(hθ(x(i))−y(i))xj(i)temp_j^{(3)} = \sum_{i=201}^{300}(h_θ(x^{(i)})−y^{(i)})x_j^{(i)}tempj(3)​=i=201∑300​(hθ​(x(i))−y(i))xj(i)​tempj(4)=∑i=301400(hθ(x(i))−y(i))xj(i)temp_j^{(4)} = \sum_{i=301}^{400}(h_θ(x^{(i)})−y^{(i)})x_j^{(i)}tempj(4)​=i=301∑400​(hθ​(x(i))−y(i))xj(i)​

最后,通过 Reduce(规约)操作进行求和:

θj:=θj−α1400(tempj(1)+tempj(2)+tempj(3)+tempj(4))θ_j:=θ_j−α\frac 1{400}(temp_j^{(1)}+temp_j^{(2)}+temp_j^{(3)}+temp_j^{(4)})θj​:=θj​−α4001​(tempj(1)​+tempj(2)​+tempj(3)​+tempj(4)​)

我们可以使用多台机器进行 MapReduce,此时,Map 任务被分配到多个机器完成:

也可以使用单机多核心进行 MapReduce,此时,Map 任务被分配到多个 CPU 核心完成:

10.3 在线学习与 MapReduce-机器学习笔记-斯坦福吴恩达教授相关推荐

  1. 4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授

    机器学习系统设计–垃圾邮件分类 假定我们现有一封邮件,其内容如下: From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subjec ...

  2. 10.2 梯度下降-机器学习笔记-斯坦福吴恩达教授

    梯度下降 批量梯度下降法(Batch gradient descent) 拥有了大数据,就意味着,我们的算法模型中得面临一个很大的 m 值.回顾到我们的批量梯度下降法: 重复直到收敛:重复直到收敛:重 ...

  3. 10.1 掌握大数据-机器学习笔记-斯坦福吴恩达教授

    掌握大数据 在算法分析与优化一节中,我们就提到,在机器学习界流传着这样一句话: It's not who has the best algorithm that wins. It's who has ...

  4. 7.4 程序示例--PCA for 加速学习-机器学习笔记-斯坦福吴恩达教授

    程序示例–PCA for 加速学习 现在,我们手上有一个人脸数据集,每张图片大小为 32×32 ,以像素为特征,则每个特征向量的维度就为 1024 维: 考虑使用 PCA 进行降低特征维度到 100 ...

  5. 5.10 程序示例--模型选择-机器学习笔记-斯坦福吴恩达教授

    程序示例–模型选择 在新的一组样本中,我们将通过交叉验证集选择模型,参数 CCC 和 高斯核的参数 δδδ 我们都将在以下 8 个值中选取测试,则总共构成了 8×8=648×8=648×8=64 个模 ...

  6. 3.10 程序示例--神经网络设计-机器学习笔记-斯坦福吴恩达教授

    神经网络设计 在神经网络的结构设计方面,往往遵循如下要点: 输入层的单元数等于样本特征数. 输出层的单元数等于分类的类型数. 每个隐层的单元数通常是越多分类精度越高,但是也会带来计算性能的下降,因此, ...

  7. 1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授

    线性回归 首先,我们明确几个常用的数学符号: 特征(feature):xix_ixi​ , 比如,房屋的面积,卧室数量都算房屋的特征 特征向量(输入):xxx ,一套房屋的信息就算一个特征向量,特征向 ...

  8. 6.1 无监督学习-机器学习笔记-斯坦福吴恩达教授

    无监督学习 从本节开始,将正式进入到无监督学习(Unsupervised Learning)部分.无监督学习,顾名思义,就是不受监督的学习,一种自由的学习方式.该学习方式不需要先验知识进行指导,而是不 ...

  9. 5.5 SVM补充-机器学习笔记-斯坦福吴恩达教授

    SVM补充 决策边界 Coursera 上 ML 的课程对 SVM 介绍有限,参看了周志华教授的<机器学习>一书后,补充了当中对于 SVM 的介绍. 首先,我们考虑用更传统的权值定义式来描 ...

  10. 4.3 偏差与方差-机器学习笔记-斯坦福吴恩达教授

    偏差与方差 在机器学习中,偏差(bias) 反映了模型无法描述数据规律,而 方差(variance) 反映了模型对训练集过度敏感,而丢失了数据规律,高偏差和高方差都会造成新数据到来时,模型给出错误的预 ...

最新文章

  1. 【Git】git系统学习(一):常用指令
  2. as用百度地图不联网就gg
  3. Serverless 工程实践 | Serverless 应用开发观念的转变
  4. lol1.7更新服务器维护,lol今天停机维护到几点11日7.1版本停机更新公告
  5. Nvidia Jetson TX2入门指南(白话版)
  6. 宝塔搭建laravel所需要的lnmp环境linux-nginx-mysql-php-composer-git
  7. 3款堪称神器的电脑软件,简单又实用
  8. GJB 5000B-2021下载-见文章结尾
  9. Python机器学习05——判别分析
  10. 学Linux有哪些就业方向?
  11. 西门子PID调节仿真程序
  12. 计算机网络概述 网络的起源与发展
  13. win10自带搜索()带有括号或者特殊符号的方法
  14. 黑马培训Python多久
  15. 岩板铺地好吗_岩板到底好不好?从材质和施工的角度看
  16. 第十四届蓝桥杯第三次官方模拟赛题解(6)python解法
  17. 一文教会你JDK8的函数式编程
  18. 华为3g网卡 linux,华为Huawei E1550 HSDPA 3G网卡在Ubuntu 10.04 LTS中的使用
  19. 一个想做程序员的小白,大家都是学了多久去做程序员的
  20. 基于TCP协议fuzz testing模糊测试案例分享

热门文章

  1. Nginx+PHP7 安装及配置
  2. Linux(Ubuntu)------常用命令汇总
  3. 九度oj 题目1376:最近零子序列
  4. WebMisDeveloper4.2.0面世
  5. linux命令0424
  6. Latent dirichlet allocation note
  7. UA MATH523A 实分析3 积分理论16 截口与单调类、特征函数的Fubini定理
  8. 超图iServer版本安装和使用入门图解
  9. Win32 API 打开另一个进程
  10. vue token 过期处理