机器学习之监督学习:分类
监督学习经典模型之分类
监督学习的 任务大致可以分类两类:
一是分类学习,二是回归预测
今天我们讨论的是分类学习
SVC(支持向量机分类器)
是根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个
我们把可以用来真正帮助决策最优线性分类模型的数据点叫做“支持向量”
结构化信息
是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范
朴素贝叶斯
抽象一些说,朴素贝叶斯分类器会单独考量每一维度被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,这个模型的基本数学假设是:
各个维度上的特征被分类的条件概率之间是相互独立的
特点分析:朴素贝叶斯模型被广泛应用于海量互联网文本分类任务。由于其较强的特征条件独立假设,使得模型预测所需要的估计的参数规模从幂指数量级想线性量级减少,极大地节约了内存消耗和计算时间。但是,也正式受这种强假设的限制,模型训练时无法将各个特征之间的联系考量在内,使得该模型在其他数据特正关联性较强的分类任务上的性能表现不佳。
K阶邻(分类)
近朱者赤近墨者黑
K不属于模型通过训练数据学习的参数,因此要在模型输出和过程中提前确定
随着阶数K的不同,我们会获得不同效果的分类器
K阶邻属于无参数模型中非常简单的一种,然而,正是这样的决策算法,导致了其非常高的计算复杂度和内存消耗
决策树(Decision Tree)
决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
特点分析:决策树在模型描述上有着巨大的优势。决策树的推断逻辑非常直观,具有清晰地可解释性,也方便了模型的可视化。决策树属于有参数模型。
集成模型(分类)
集成分类模型是综合考量多个分类器的预测结果,从而做出决策。
这种“综合考量”的方式大体上分为两种:
1.利用相同的训练数据同事搭建多个独立的分类模型,然后通过投票的形式,一少数服从多数的原则作出最终的分类决策。
2.按照一定的次序搭建多个分类模型。这些模型之间彼此存在依赖关系。一般而言,每一个后续模型的加入都需要对现有集成模型的综合性能有所贡献,进而不断提升更新过后的集成模型的性能,并最终期望借助整合多个分类能力较弱的分类器,搭建出具有更强分类能力的模型。
补充:(参考: https://www.jianshu.com/p/005a4e6ac775 )
梯度提升决策树
随机森林
随机森林算法,由多颗决策树构成的分类器,首先通过有放回的抽样从原始数据集中构建多个子数据集,然后利用每个子数据集构建一颗决策树,最终的分类效果由多颗决策树预测得到的众数决定;
(设想有一批待分类数据,采用上述的随机森林分类器进行分类,3颗决策树会给出3个分类结果,采用3个分类结果的众数作为这批数据最终的分类结果)
之所以叫做随机森林,是因为两个核心观点:
1)子数据集的构建,通过随机抽样得到,所以有随机这个关键词
2)在这个分类器中,有多颗决策树,所以有森林这个关键词
基线系统
通常指的事那些使用经典模型搭建的机器学习系统。
研发人员每提出一个新模型,都需要和基线系统在多个具有代表性的数据集上进行性能比较的测试。随机森林分类模型就经常以基线系统的身份出现在科研论文,甚至公开的数据竞赛中。
机器学习之监督学习:分类相关推荐
- 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】
一.决策树概述 注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...
- 机器学习-有监督学习-分类算法:k-近邻(KNN)算法【多分类】
一.K-近邻算法简介 1.K-近邻算法(KNN)概念 k-近邻算法:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 相似的样本,同一 ...
- 机器学习的五大分类,监督学习 无监督学习 半监督学习 迁移学习 增强学习
机器学习的五大分类,监督学习 无监督学习 半监督学习 迁移学习 增强学习@监督学习 无监督学习 半监督学习 监督学习 在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和 ...
- AI:人工智能领域算法思维导图集合之有监督学习/无监督学习/强化学习类型的具体算法简介(预测函数/优化目标/求解算法)、分类/回归/聚类/降维算法模型选择思路、11类机器学习算法详细分类之详细攻略
AI:人工智能领域算法思维导图集合之有监督学习/无监督学习/强化学习类型的具体算法简介(预测函数/优化目标/求解算法).分类/回归/聚类/降维算法模型选择思路.11类机器学习算法详细分类(决策树/贝叶 ...
- 机器学习 分类监督学习_地球科学中使用无监督机器学习的相分类
机器学习 分类监督学习 石油和天然气数据科学 (Data science in Oil and Gas) Facies are uniform sedimentary bodies of rock w ...
- 机器学习中有监督学习——回归
机器学习中有监督学习--回归 一.引言 本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu,以及斯坦福无监督学习UFLDL tutorial http: ...
- Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读
Paper:<Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类>翻译与解读 目录 <Multimoda ...
- 机器学习:监督学习和无监督学习
机器学习:监督学习和无监督学习 ************************************** 注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的<机器学习& ...
- 基于Keras机器学习库的分类预测
在前面的博文中,我们分享了<基于scikit-learn机器学习库的分类预测>,本文将分享Keras机器学习库的分类预测. 一旦你在Keras中选择好机器学习模型,就可以用它来预测新的数据 ...
- 25篇经典机器学习论文的分类
25篇经典机器学习论文的分类 前言 放假当咸鱼的时候学校要求阅读论文文献,老板找了25篇比较经典的模式识别与机器学习相关的论文要求阅读,作为对人工智能一无所知且前半生学术生涯全贡献给通信的半路出家和尚 ...
最新文章
- nginx php 大小写问题,Nginx实现url请求不区分大小写
- Matlab实现连通域标记算法求图像连通域
- 平面上给定n条线段,找出一个点,使这个点到这n条线段的距离和最小。
- 【Linux】【C/C++】十叉非完全树的构造和重构
- 潜入java内存结构
- python运行时间的两种方法
- 几种进程间的通信方式
- jmc线程转储_使线程转储智能化
- Must be between v0 and v15, inclusive解决办法
- linux 连接 android,linux下android连接真机测试
- 2022-02-22 AndroidN之后 app代码安装apk,以及提示“There was a problem parsing the package“的解决方案
- 高效工作节省时间的一些小技巧
- 电脑开热点手机无法连接,显示无ip分配的问题
- SVN的正确使用方法以及疑难问题的处理(持续更新与补充)
- struct所占的内存
- 小程序实现6位数密码框
- 浏览器插件:脚本注入插件Tampermonkey(油猴)
- 碳云智能CEO王俊:大数据基础上人人都将活到120岁 | 2017 IT领袖峰会
- Apache Spark,Cassandra和《权力的游戏》
- windows10系统下win键失效
热门文章
- 搭建美丽天天秒链动2+1OpenRApp开发
- python咋念_python怎么念
- 女友老爸开了中介公司让我抽空搞开发个租房App,像贝壳一样就行.....
- Java如何进行Base64的编码(Encode)与解码(Decode)?
- Excel如何批量查询手机号码归属地
- 微信小程序 常见问题(报错)
- 解决远程连接服务器没有远程桌面授权服务器的许可证问题
- ‘https://start.spring.io‘ 的初始化失败请检查 URL、网络和代理设置。
- 无限流量服务器可靠吗,你的无限流量真纯正吗?别再被骗了!
- PlayStation5上手体验