CS190.1x Scalable Machine Learning
这门课是CS100.1x的后续课,看课程名字就知道这门课主要讲机器学习。难度也会比上一门课大一点。如果你对这门课感兴趣,可以看看我这篇博客,如果对PySpark感兴趣,可以看我分析作业的博客。
Course Software Setup
这门课的环境配置和上一门一模一样,参考我的这篇博客CS100.1x Introduction to Big Data with Apache Spark。
Lecture 1 Course Overview and Introduction to Machine Learning
这一章主要是背景介绍和一些基本概念的介绍。现在的数据越来越多,单一的机器处理这些数据的时候会很慢,所以产生了分布式计算,但是分布式计算本身很复杂,所以出现了Spark来简化分布式计算,特别是Spark MLlib,对解决机器学习问题非常好用。
紧接着介绍了机器学习的概念,包括机器学习的分类,机器学习的相关术语,机器学习的处理流程,处理垃圾邮件的具体例子,线性代数基础知识和衡量时间和空间复杂度的Big O。
这里每个内容都很广,所以不在这里赘述。有兴趣的可以搜搜其他博客。
Lecture 2 Big Data, Hardware Trends, and Apache Spark
这章内容和上一门课的lecture3和lecture4一模一样。参考我的这篇博客CS100.1x Introduction to Big Data with Apache Spark。
Lecture 3 Linear Regression and Distributed ML Principles
这一章干活很多。首先介绍了线性回归和最小二乘法,线性回归在工业中应用非常广,因为算法简单,效果好,而且可以通过增加特征来提高模型复杂度。当模型复杂度高时,容易过拟合,Rideg regression是个很好的选择。
这一章还给出了一个预测歌曲年代的例子,通过这个例子简单介绍了机器学习的处理流程。后面的作业会详细的解决这个问题。
这一章解释了如何用分布式来解决线性回归的问题。我们都知道,在解决线性回归的问题时,有一个closed form solution,如下图
我们得到时间复杂度和空间复杂度
我们发现当数据量很大时,n一般很大,而d表示特征的多少,相比较n,显得很小。所以计算和存储的瓶颈就在于如何存储X和如何计算X的转置乘以X(原谅我懒得打公式)。因为这两项涉及到n。
第一个问题很好解决,因为我们这里就是讲分布式系统,直接把数据分布式存储就行。
第二个问题需要一些技巧,如下图,我们把矩阵的乘法从inner product变成outer product。
现在的时间和空间复杂度为
通过这些步骤,还有一个问题就是,时间和空间的复杂度里仍然有平方项,当d很大时,本地计算d*d也够呛。所以最好有一个复杂度为线性实现的方法。
第一个思路是利用数据的稀疏性,稀疏矩阵在实际问题中很常见,我们可以利用PCA降维,来把d变小;第二个思路就是换个算法,比如梯度下降。
梯度下降的定义和过程我们就不多说了,这里说说梯度下降在分布式里的应用和代码实现。
通过上面的步骤,也解释了三个经验法则。
Lecture 4 Logistic Regression and Click-through Rate Prediction
这一章主要讲逻辑回归和其应用——点击预测。点击预测主要用于在线广告,而且有很多难点,比如影响点击的因素太多太乱、数据量太大。然后介绍了监督学习的概念,并从线性回归到逻辑回归。然后介绍了FP,FN定义和用ROC plot来觉得阈值。接着介绍了如何处理类别型特征(label encoding和one-hot encoding)。当对特征这样处理后,整个矩阵可能会很稀疏,这时候用sparse representation会节省存储空间和计算量。
当one-hot encoding处理后特征太多时,最好不要丢特征,因为虽然矩阵很稀疏,不代表没有信息量;另外一个选择是用feature hashing。
Lecture 5 Principal Component Analysis and Neuroimaging
这一章主要讲PCA和神经科学。。我没太明白为什么讲神经科学,难道是和作业有关系么。然后介绍了无监督学习,从而引出了PCA。介绍PCA的博客太多了,这里不赘述。
这里重点讲讲PCA在分布式上的实现。分两种情况。
第一种情况是Big n和small d,分为4步。
第二种情况是big n和big d。主要用迭代的方法。
转载于:https://www.cnblogs.com/-Sai-/p/6736475.html
CS190.1x Scalable Machine Learning相关推荐
- Machine Learning 网络资源
转自:http://www.cnblogs.com/tornadomeet/archive/2012/05/24/2515980.html 本人常用资源整理(ing...) Deep Learning ...
- Java Machine Learning Tools Libraries--转载
原文地址:http://www.demnag.com/b/java-machine-learning-tools-libraries-cm570/?ref=dzone This is a list o ...
- 机器学习(Machine Learning)深度学习(Deep Learning)资料(Chapter 2)
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2) - tony的专栏 - 博客频道 - CSDN.NET 注:机器学习资料篇目一共 ...
- 文献阅读之Design and Evaluation of Scalable Intrusion Detection System Using Machine Learning and Apache
Design and Evaluation of Scalable Intrusion Detection System Using Machine Learning and Apache Spark ...
- Machine Learning week 10 quiz: Large Scale Machine Learning
Large Scale Machine Learning 5 试题 1. Suppose you are training a logistic regression classifier using ...
- Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)
Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) Foundations of Machine Le ...
- 吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习
作者 | Peter 编辑 | AI有道 0. 引言 吴恩达(Andrew Ng),毫无疑问,是全球人工智能(AI)领域的大 IP!然而,吴恩达从最早的 CS229,到后来的 deeplearning ...
- Metapath2vec:Scalable Representation Learning for Heterogeneous Networks(结构化深度网络特征表示)
目录 1.图嵌入背景介绍 1.1 什么是图嵌入 1.2 为什么要使用图嵌入 2.论文背景介绍 2.1 同质网络 & 异质网络 2.2 异质网络与Metapath2vec 3.Metapath2 ...
- Federated Machine Learning: Concept and Applications
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 今天的人工智能仍然面临两大挑战.一种是,在大多数行业中,数据以孤岛的形式存在.二是加强数据隐私和安全.我们提出了一个解决这些挑战的可能方案 ...
最新文章
- mysql数据库使用命令导入sql文件
- PAT1052 卖个萌 (20 分)【别人的代码 借鉴从字符串中截取特定部分的思路】
- Harmonious Graph CodeForces - 1253D(思维+并查集)
- elemnt的Table 表格使用注意事项
- linux克隆后重新封装,克隆后立即在OSX上修改Linux内核源代码
- sqlmap工具使用用法详解
- IT软件创业之 -- 小软件项目也有风险、也会失败、也会损兵折将
- hidden field implements session
- 天气太热业绩差,除了设坛求雨外,数据分析师还能干啥?
- 您已经成为CSDN博客专家
- you need python_Life is short, you need Python!
- 工业自动化控制-组态王1
- 智慧城管基础业务系统建设系统方案
- 频谱图 与傅立叶变换
- Java练习10:输入两个正整数m和n,求其最大公约数和最小公倍数
- 中文版 Ubuntu主目录里的桌面等中文目录名称改成英文
- 洛谷-P1428 小鱼比可爱
- 华为云云享专家申请流程
- oracle11g磁盘阵列 pdf,融会贯通 从Oracle11g到SQL Server2008 中文PDF版 16.7MB
- 全新方法!小米红米手机不用申请内测直接升级开发版!不再为内测分发愁!