机器学习的主要任务:

  • 分类:将实例数据划分到某一类别
  • 回归:根据现有的数据特征预测数值型的数据

如何选择合适的算法
(1)确定算法的类型:监督[—预测目标变量的值—] / 无监督
(2)若是监督算法,明确目标变量的类型,离散型 ——>分类;连续型——>回归
(3)若是无监督算法,使用聚类将数据划分为离散的组,使用密度估计算法估计数据与每个组的相似程度
(4)考虑数据:理解数据特征

开发应用程序的步骤

  1. 数据的收集
  2. 输入数据:特定的数据格式
  3. 分析数据
  4. 输入数据至算法
  5. 评估算法
有监督学习:
  • 分类算法
    1、K-近邻算法
    测量不同特征值之间的距离方法进行分类;如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的实例中的大多数属于某一个类别,则该样本也属于这个类别
    K值的选择:通过交叉验证法
    实现
    对未知类别属性的数据集中的每个点依次执行以下操作:

    ①计算已知类别数据集中的点与当前点之间的距离(k-近邻算法常用欧氏距离和马氏距离);

    ②按照距离递增次序排序;

    ③选取与当前点距离最小的k个点;

    ④确定前k个点所在类别的出现频率;

    ⑤返回前k个点出现频率最高的类别作为当前点的预测分类。

2、决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
决策树的一般流程

①收集数据:可以使用任何方法。

②准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。

③分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。

④训练算法:构造树的数据结构。

⑤测试算法:使用经验树计算错误率。

⑥使用算法:使用决策树可以更好地理解数据的内在含义。
3、支持向量机(Kernel Methods)

支持向量机可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类

SVM的一般流程

① 收集数据:可以使用任意方法。

② 准备数据:需要数值型数据。

③ 分析数据:有助于可视化分隔超平面。

④ 训练算法:SVM的大部分时间都源自训练,该过程主要实现两个参数的调优。

⑤ 测试算法:十分简单的计算过程就可以实现。

⑥ 使用算法:几乎所有分类问题都可以使用SVM,SVM本身是一个二类分类器。

4、朴素贝叶斯算法
贝叶斯分类是一系列分类算法的总称;朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。独立性假设是指一个词的出现概率并不依赖于文档中的其他词
朴素贝叶斯的一般流程

①收集数据:可以使用任何方法。

②准备数据:需要数值型或者布尔型数据。

③分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。

④训练算法:计算不同的独立特征的条件概率。

⑤测试算法:计算错误率。

⑥使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。
5、随机森林

  • 回归分析
    1、线性回归和最小二乘法
    2、逻辑回归
    是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域;发生概率除以没有发生概率再取对数;这种变换往往使得因变量和自变量之间呈线性关系

Logistic 回归的一般流程

①收集数据:采用任意方法收集数据。

②准备数据:由于需要进行距离计算,因此要求数据类型为数值型。

③分析数据:采用任意方法对数据进行分析。

④训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。

⑤测试算法:一旦训练步骤完成,分类将会很快。

⑥使用算法:首先需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数可以对这些数值进行简单的回归计算,判定它们属于哪个类别,最后,我们就可以在输出的类别上做一些其他分析工作

6、Adaboost
自举汇聚法(bootstrap aggregating),也称为bagging方法,是在从原始数据集选择n次后得到n个新数据集的一种技术;新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换就意味着可以多次地选择同一样本。这一性质就允许新数据集中可以有重复的值,而原始数据集的某些值在新集合中则不再出现。在n个数据集建好之后,将某个学习算法分别作用于每个数据集就得到了n个分类器。当我们要对新数据进行分类时,就可以应用这n个分类器进行分类。与此同时,选择分类器投票结果中最多的类别作为最后的分类结果

  • bagging:不同的分类器是通过串行训练而获得的,每个新分类器都根据已训练出的分类器的性能来进行训练。分类器权重一样
  • boosting:通过集中关注被已有分类器错分的那些数据来获得新的分类器。分类的结果是基于所有分类器的加权求和结果的;分类器权重不一样,每个权重代表的是其对应分类器在上一轮迭代中的成功度
  • Adaboost :AdaBoost算法的一般流程

①收集数据:可以使用任意方法。

②准备数据:依赖于所使用的弱分类器类型,如果是单层决策树,可以处理任何数据类型。

③分析数据:可以使用任意方法。

④训练算法:AdaBoost的大部分时间都用在训絲上,分类器将多次在同一数据集上训练弱分类器。

⑤测试算法:计算分类的错误率。

⑥使用算法:同SVM一样,AdaBoost预测两个类别中的一个。如果想把它应用到多个类别的场合,那么就要像多类SVM中的做法一样对AdaBoost进行修改。

无监督学习

(1) 一类为基于概率密度函数估计的直接方法:指设法找到各类别在特征空间的分布参数,再进行分类。

(2) 另一类是称为基于样本间相似性度量的简洁聚类方法:其原理是设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别

1、K-means聚类
2、关联规则
提取那些能解释观察到的变量之间的数据关系的规则,这些规则可以用于在大型多维数据集里,
① 第一阶段为从海量原始数据中找出所有的高频项目组;
② 第二阶段为从这些高频项目组产生关联规则

  • Apriori 算法
  • Eclat 算法

3、最大期望算法
4、DBSCAN
5、Parzen窗设计

机器学习算法-监督/无监督相关推荐

  1. 机器学习算法_无监督机器学习算法:主成分分析

    之前我们曾经讲过,无监督学习是一种不使用标记数据(无目标变量)的机器学习.因此,算法的任务是在数据本身中寻找模式.无监督机器学习算法的两种主要类型分别是使用主成分分析的降维算法和聚类算法(包括K-Me ...

  2. 聚类算法(无监督算法)

    一.聚类算法简介 聚类的基本思想:对于给定的M个样本的数据集,给定聚类(簇)的个数K(K<M),初始化每个样本所属的类别,再根据一定的规则不断地迭代并重新划分数据集的类别(改变样本与簇的类别关系 ...

  3. 有监督算法和无监督算法的理解

    无监督和有监督的理解方法有很多,主要可以从以下几方面来理解: 1.无监督与监督学习的区别在于一个无教学值,一个有教学值.但是,个人认为他们的区别在于无监督学习一般是采用聚簇等算法来分类不同样本.而监督 ...

  4. 有监督算法和无监督算法都有哪些

    有监督分类的算法: 在已经有标签的数据上去分类 在已经有标签的数据上去预测上传笔记本电脑的品相 品相好的给1 不好的给0 主要有下面一些分类算法 k临近算法分类 朴素贝叶斯分类 决策树分类 随机森林分 ...

  5. 有监督 无监督 自监督 半监督 弱监督

    自己学习做笔记用的,从别人的讲解中摘抄. 有监督:用有标签的数据训练. 半监督:数据分为两部分,小部分有标签,大部分无标签.用有标签的数据训练网络,用训练后的网络对无标签的数据进行分类制作伪标签,用一 ...

  6. 机器学习-有监督无监督

    前言 根据学习任务的不同可将统计学习分为监督学习.无监督学习.强化学习.半监督学习.主动学习 监督学习 本质是学习输入输出之间映射的统计规律,好比先带人工智障认一遍那些是好瓜那些是坏瓜,让后再给人工智 ...

  7. 9种有监督与3种无监督机器学习算法

    机器学习作为目前的热点技术广泛运用于数据分析领域,其理论和方法用于解决工程应用的复杂问题.然而在机器学习领域,没有算法能完美地解决所有问题(数据集的规模与结构.性能与便利度.可解释性等不可能三角),识 ...

  8. 最全机器学习种类讲解:监督、无监督、在线和批量学习都讲明白了

    导读:现有的机器学习系统种类繁多,根据以下内容将它们进行分类有助于我们理解: 是否在人类监督下训练(监督式学习.无监督式学习.半监督式学习和强化学习) 是否可以动态地进行增量学习(在线学习和批量学习) ...

  9. 文本相似度之五种无监督算法实现代码

    短文本相似度,即求解两个短文本之间的相似程度:它是文本匹配任务或文本蕴含任务的一种特殊形式,返回文本之间相似程度的具体数值.然而在工业界中,短文本相似度计算占有举足轻重的地位. 例如:在问答系统任务( ...

最新文章

  1. linux 雷电接口,Intel完全开放雷电技术:底层融合USB 4
  2. 类WebOS(添加了主界面,及相关功能代码)
  3. 应用程序的8个关键性能指标以及测量方法
  4. 微软IT规划方法论解读
  5. Android基础(三) 数据库SQLite
  6. 跳跃表skiplist简析
  7. 2020年中国新基建人工智能产业链全景图深度分析汇总(附完整企业名单)
  8. RedisDesktopManager2022(resp-2022.0)安装失败的解决
  9. window10 电脑总是会从睡眠模式中自动唤醒
  10. MySQL不等于判断时,null空值处理问题
  11. 【微机接口】可编程串行异步通信芯片8250
  12. jdk和jre(jdk和jre的关系)
  13. 电视显示正在接入或无法接入认证服务器,长虹网络电视无法连接服务器,怎么回事?-长虹电视接入网络障碍...
  14. Oracle Enterprise Manager Cloud Control 13c部署文档
  15. 计算机毕业设计-基于SSM的网约车出行APP-JavaWeb网约车出行APP
  16. Redhat6.5离线配置Zabbix,含自定义Zabbix监控项
  17. NucleoF401RE评估板USART2使用注意事项
  18. xp无线网络无法访问工作组计算机,XP系统工作组计算机无法访问怎么解决?
  19. 蔚来笔试(7.13)
  20. 外勤人员管理的重要性

热门文章

  1. 体系结构框架建模工具系统
  2. [SW]SolidWorks API SDK二次开发学习心得01--开发方式
  3. 网站分布式技术有哪些?
  4. usb-serial controller驱动
  5. opencv礼帽tophat
  6. yaffs2裸机移植
  7. COMSOL混凝土细观模型之圆形骨料及界面过渡区ITZ建模教程
  8. Python 打包 exe 指南
  9. linux下如何保存退出vim编辑器
  10. 在IBM PureApplication System中启用IBM Application Performance Management监视