来源:机器之心本文约1700字,建议阅读8分钟
2022年你应该知道的所有机器学习算法。

想要成为一名合格的 AI 工程师,并不是一件简单的事情,需要掌握各种机器学习算法。对于小白来说,入行 AI 还是比较困难的。

为了让初学者更好的学习 AI,网络上出现了各种各样的学习资料,也不乏很多 AI 大牛提供免费的授课视频提供帮助。

近日,来自佐治亚理工学院的理学硕士 Terence Shin 在博客发布平台 Medium 撰文《2022 年你应该知道的所有机器学习算法》。文中涵盖了 5 类最重要的机器学习算法:集成学习算法;可解释算法;聚类算法;降维算法;相似性算法。

目前,Terence Shin 在 Medium 显示为 Top 1000 作者,有 62K 关注者,目前这篇文章已经有 1.4K 点赞。

2022 年,你需要掌握的机器学习算法

1. 集成学习算法

为了理解什么是集成学习算法,你首先需要知道什么是集成学习。简单来讲,集成学习是一种同时使用多个模型以获得比单个模型性能更好的方法。

更形象的解释,我们以一个学生和一个班级的学生为例:

想象一下,一个学生解决一个数学问题 VS 一个班级学生解决相同的问题。作为班级,所有学生可以相互检查彼此的答案,并一致找出正确答案解决问题。另一方面,作为学生的个人,如果他 / 她的答案是错误的,那么没有其他人可以验证他 / 她的答案正确与否。

因此,由学生组成的班级类似集成学习算法,其中几个较小的算法协同工作以制定最终响应。

关于集成学习的更多信息请参考:

https://towardsdatascience.com/ensemble-learning-bagging-and-boosting-explained-in-3-minutes-2e6d2240ae21

集成学习算法对于回归和分类问题或监督学习问题最有用。由于其固有的性质,它优于传统的朴素贝叶斯、支持向量机、决策树等机器学习算法。集成学习的代表方法有:Random Forests、XGBoost、LightGBM、CatBoost.

2. 可解释算法

可解释算法帮助我们识别和理解与结果有显著关系的变量。因此,与其创建一个模型来预测响应变量的值,我们可以创建可解释模型来理解模型中变量之间的关系。

当你想要了解模型为什么做出这个决策、或者你想要理解两个或多个变量是如何相互关联的,可解释模型能够提供帮助。在实践中,解释机器学习模型能够实现的性能和机器学习模型本身一样重要。如果你不能解释一个模型是如何工作的,那么将不会有人愿意使用它。

目前基于假设检验的传统可解释模型主要包括:线性回归、逻辑回归;此外,可解释模型还包括 SHAP 和 LIME 这两种流行技术,它们被用来解释机器学习模型。

3. 聚类算法

聚类是按照某个特定标准 (如距离) 把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。

聚类的一般过程包括数据准备、特征选择、特征提取、聚类、聚类结果评估。

聚类算法可用于进行聚类分析,它是一项无监督学习任务,可以将数据分组到聚类中。与目标变量已知的监督学习不同,聚类分析中没有目标变量。

聚类能够发现数据中的自然模式和趋势。k-means 聚类和层次聚类是最常见的两种聚类算法。

4. 降维算法

数据降维算法是机器学习算法中的大家族,它的目标是将向量投影到低维空间,以达到可视化、分类等目的。

降维技术在很多情况下都很有用:在数据集中有数百甚至数千个特征并且用户需要选择少数特征时,需要用到降维;当 ML 模型过度拟合数据也需要降维,这意味着用户需要减少输入特征的数量。

目前已经存在大量的数据降维算法,可以从不同的维度进行分类。按照是否有使用样本的标签值,可以将降维算法分为有监督降维和无监督降维;按照降维算法使用的映射函数,可以将算法分为线性降维与非线性降维。其中,主成分分析 PCA、线性判别分析 LDA 为线性降维。

5. 相似性算法

在机器学习中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。相似性算法是计算节点、数据点、文本对相似性的算法,如欧几里得距离,也有计算文本相似度的相似度算法,如 Levenshtein 算法。

相似性算法主要包括:K 近邻算法、欧几里得距离、余弦相似度、奇异值分解等。其中,K 近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 K 个实例,这 K 个实例的多数属于某个类,就把该输入实例分类到这个类中。欧几里得距离是欧几里得空间中两点间普通(即直线)距离。余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。

原文链接:

https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f

编辑:黄继彦

佐治亚理工学院硕士建议:2022年你应该掌握这些机器学习算法相关推荐

  1. 佐治亚理工计算机考研,[转载]佐治亚理工学院硕士研究生怎么样?申请难度

    对于打算去佐治亚理工学院读硕士研究生的学生来说,佐治亚理工学院硕士研究生怎么样?申请难度是学生最关心的问题,本文详细介绍佐治亚理工学院硕士研究生怎么样?佐治亚理工学院硕士研究生申请难度.帮助更多的学生 ...

  2. 2022年你应该知道的机器学习算法

    [专栏:前沿进展]本文介绍了 5 大常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型.我们希望本文可以做到以下三点: 1.应用 ...

  3. 【建议收藏】图解十大经典机器学习算法——带你入门机器学习

    目录 机器学习 机器学习的步骤 01  线性回归 02 逻辑回归 03 线性判别分析 04 分类和回归树 05 朴素贝叶斯 06 K近邻 07 学习矢量量化 08 支持向量机 09 bagging和随 ...

  4. 佐治亚理工计算机科学在线硕士,佐治亚理工学院计算机研究生申请要求及截止时间一览...

    一.美国计算机专业研究生申请三要点 1.整体比本科申请容易,但部分专业竞争大 申请名校硕士,整体来看比申请名校本科相对容易.一来名校每年硕士招生人数比本科招生多,二是因为学生申请硕士通常较关注专业排名 ...

  5. 佐治亚理工计算机科学专业排名,佐治亚理工学院计算机科学硕士专业排名

    原标题:佐治亚理工学院计算机科学硕士专业排名 佐治亚理工学院(Georgia Institute of Technology,常缩写为Gatech,也被简称为Georgia Tech), 是美国一间综 ...

  6. 佐治亚理工学院计算机科学硕士,佐治亚理工学院

    项目特点 佐治亚理工学院计算机科学专业研究生阶段开设有以下学位项目,分别是: 计算机科学硕士(Master of Science in Computer Science):为期1年,共需修读30个学分 ...

  7. 佐治亚理工学计算机硕士,佐治亚理工学院电子与计算机工程硕士专业

    佐治亚理工学院电子与计算机工程硕士专业是美国排名最高的学校之一,也是美国同类规模最大的学校之一.研究方向包括:生物工程.计算机系统和软件.数字信号处理.电能.电磁.电子设计和应用.微电子/微.光学和光 ...

  8. 佐治亚理工计算机科学专业排名,2020年佐治亚理工学院排名TFE Times美国最佳计算机科学硕士专业排名第6...

    佐治亚理工学院实力介绍 佐治亚理工学院(Georgia Institute of Technology),简称Georgia Tech,也被简称为Gatech或GT,建校于1885年,是坐落于美国东南 ...

  9. 佐治亚理工计算机科学录取,至领留学学子获佐治亚理工学院计算机CS硕士录取...

    原标题:至领留学学子获佐治亚理工学院计算机CS硕士录取 [学生背景] K同学,国内211/985大学,计算机科学; GPA 3.7/4.0,TOEFL 100+,GRE 320+; Georgia T ...

最新文章

  1. 10年后的计算机会是怎样的?
  2. 计算机视觉OpenCV之人脸识别的示例(Python)
  3. ZigBee TI ZStack CC2530 3.18 串口01-发送
  4. SAP CRM销售订单创建时text determination的调试细节
  5. Jsp中Uploadify插件的使用(jQuery上传插件)
  6. python项目上线_django之项目部署上线
  7. java json clone_再谈java clone 以及 浅/深拷贝
  8. 简单的Oracle触发器使用
  9. word每行的末尾箭头怎么去掉_如何将word中箭头去掉 word中的箭头怎么去掉
  10. Python项目部署的三大神器
  11. 项目管理中,如何有效地把控项目风险?
  12. 工作中的积极响应态度
  13. c语言中puts的作用,puts和fputs函数及其区别,C语言puts和fputs函数详解
  14. 字节跳动高工面试:java高级程序员面试宝典蔡羽豆瓣
  15. yii学习笔记—gii 自动代码生成工具
  16. linux mint 安装ubuntu软件中心,Ubuntu和Linux Mint:安装Pinta 1.6工具
  17. 国内唯美花海 新娘绝美婚纱照
  18. 用VBA做的excel仿方方格子的批量合并单元格的宏
  19. VMware workstation pro虚拟机以及linux操作系统的安装
  20. RK3399调试camera记录

热门文章

  1. 【c语言】蓝桥杯算法提高 输出三个整数的最大数
  2. 【c语言】蓝桥杯算法提高 三角形面积
  3. 用matlab判断文件是否存在_判断文件夹、文件是否存在、创建文件 c++ matlab
  4. 【java】httpclient的使用之java代码内发送http请求
  5. 全栈 - 20 Web 基础 网页的血肉 CSS
  6. 第一回写的用arraylist模拟栈操作
  7. oracle数据库性能优化 - 降低IO
  8. ASP.NET MVC 表单提交教程
  9. 理解java中的两种接口
  10. 信息上传服务器加速cpu处理,英特尔发布全新第二代至强可扩展处理器携手浪潮加速新型应用发展...