常用机器学习算法优缺点及其应用领域
决策树
决策树优点
1、决策树易于理解和解释,可以可视化分析,容易提取出规则。
2、可以同时处理标称型和数值型数据。
3、测试数据集时,运行速度比较快。
4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。
决策树缺点
1、对缺失数据处理比较困难。
2、容易出现过拟合问题。
3、忽略数据集中属性的相互关联。
4、ID3算法计算信息增益时结果偏向数值比较多的特征。
改进措施
1、对决策树进行剪枝。可以采用交叉验证法和加入正则化的方法。
2、使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。
应用领域
企业管理实践,企业投资决策,由于决策树很好的分析能力,在决策过程应用较多。
KNN算法
KNN算法的优点
1、KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练
2、KNN理论简单,容易实现
KNN算法的缺点
1、对于样本容量大的数据集计算量比较大。
2、样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多。
3、KNN每一次分类都会重新进行一次全局运算。
4、k值大小的选择。
KNN算法应用领域
文本分类、模式识别、聚类分析,多分类领域
支持向量机(SVM)
SVM优点
1、解决小样本下机器学习问题。
2、解决非线性问题。
3、无局部极小值问题。(相对于神经网络等算法)
4、可以很好的处理高维数据集。
5、泛化能力比较强。
SVM缺点
1、对于核函数的高维映射解释力不强,尤其是径向基函数。
2、对缺失数据敏感。
SVM应用领域
文本分类、图像识别、主要二分类领域
AdaBoost算法
AdaBoost算法优点
1、很好的利用了弱分类器进行级联。
2、可以将不同的分类算法作为弱分类器。
3、AdaBoost具有很高的精度。
4、相对于bagging算法和Random Forest算法,AdaBoost充分考虑的每个分类器的权重。
AdaBoost算法优点
1、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
2、数据不平衡导致分类精度下降。
3、训练比较耗时,每次重新选择当前分类器最好切分点。
AdaBoost应用领域
模式识别、计算机视觉领域,用于二分类和多分类场景
朴素贝叶斯算法
朴素贝叶斯算法优点
1、对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已。
2、支持增量式运算。即可以实时的对新增的样本进行训练。
3、朴素贝叶斯对结果解释容易理解。
朴素贝叶斯缺点
1、由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。
朴素贝叶斯应用领域
欺诈检测中使用较多
一封电子邮件是否是垃圾邮件
一篇文章应该分到科技、政治,还是体育类
一段文字表达的是积极的情绪还是消极的情绪?
人脸识别
Logistic回归算法
Logistic回归优点
1、计算代价不高,易于理解和实现
Logistic回归缺点
1、容易产生欠拟合。
2、分类精度不高。
logistic回归应用领域
用于二分类领域,可以得出概率值,适用于根据分类概率排名的领域,如搜索排名等。
Logistic回归的扩展softmax可以应用于多分类领域,如手写字识别等。
信用评估
测量市场营销的成功度
预测某个产品的收益
特定的某天是否会发生地震
人工神经网络
神经网络优点
1、分类准确度高,学习能力极强。
2、对噪声数据鲁棒性和容错性较强。
3、有联想能力,能逼近任意非线性关系。
神经网络缺点
1、神经网络参数较多,权值和阈值。
2、黑盒过程,不能观察中间结果。
3、学习过程比较长,有可能陷入局部极小值。
人工神经网络应用领域
目前深度神经网络已经应用与计算机视觉,自然语言处理,语音识别等领域并取得很好的效果。
原文链接:http://www.jianshu.com/p/0aa35f4574ec
请关注LeadAI公众号,查看更多专业文章
点击量最高的文章
LSTM模型在问答系统中的应用
基于TensorFlow的神经网络解决用户流失概览问题
最全常见算法工程师面试题目整理(一)
最全常见算法工程师面试题目整理(二)
TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络
装饰器 | Python高级编程
今天不如来复习下Python基础
点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接
常用机器学习算法优缺点及其应用领域相关推荐
- python算法的缺陷和不足_机器学习算法优缺点及其应用领域
决策树 一. 决策树优点 1.决策树易于理解和解释,可以可视化分析,容易提取出规则. 2.可以同时处理标称型和数值型数据. 3.测试数据集时,运行速度比较快. 4.决策树可以很好的扩展到大型数据库中 ...
- 机器学习算法优缺点及其应用领域
原文链接:http://bbs.pinggu.org/thread-2604496-1-1.html 1决策树(Decision Trees)的优缺点 决策树的优点: 一. 决策树 ...
- 常见机器学习算法优缺点总结
常见机器学习算法优缺点总结 1. 回归 回归是一种用于连续型数值变量预测和建模的监督学习算法,使用案例包括房地产价格.股价走势或学生成绩等的预测. 回归任务的特征是具有数值型目标变量的标注数据集.换言 ...
- 常用机器学习算法汇总比较(完)
机器学习入门系列(2)–如何构建一个完整的机器学习项目,第九篇! 该系列的前八篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 特征工程之 ...
- 常用机器学习算法汇总(中)
机器学习入门系列(2)–如何构建一个完整的机器学习项目,第八篇! 该系列的前七篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 特征工程之 ...
- 常用机器学习算法汇总
常用机器学习算法汇总 从一个项目的终极目标.寻找和获取数据,到数据预处理,做特征工程,接下来就需要开始选择合适的算法模型,进行训练评估和测试了. 所以接下来会整理下比较常用的机器学习算法的汇总比较,包 ...
- 【面试复习系列】常用机器学习算法知识点及其解析,面试官会考的几乎都有,欢迎补充
图片慢慢上传,看不到图片的请点这里: 常用机器学习算法知识点及其解析,面试官会考的几乎都有 LR:logistic regression 对数几率回归/逻辑回归 sigmoid函数的作用就是用于把输 ...
- python算法的缺陷和不足_最全最实用的机器学习算法优缺点分析
原标题:最全最实用的机器学习算法优缺点分析 最全最实用的机器学习算法优缺点分析 2017-06-10 数据派THU 来源:AI100 本文长度为4600字,建议阅读6分钟 本文结合使用场景及实际经验, ...
- 常用机器学习算法原理及推导
周末花半天多的时间整理了一下常用机器学习算法的原理及推导,分享出来给大家. 线性回归和逻辑回归 支持向量机(这个貌似工作中不怎么用,就用了之前的笔记) 决策树和随机森林 GBDT Xgboost和Li ...
最新文章
- mac git使用与配置踩过的坑
- linux安装sphinx
- 大年初五,Python、Go、C...你最爱用哪种语言?
- 科技部部长:基础研究是科技创新“总开关”
- Android开发中的Handler和多线程
- linux c 下信号量 windows下event_windows和linux下配置jdk环境
- 65个技巧性回答,终身受用
- C# 正则表达式(备忘录)
- C#宿舍管理系统命名规范与评分标注
- JS和Jquery获取和修改label的值
- 你真的知道一个HTML及资源是如何load的吗(了解各个部分是何时下载和执行的)
- byte[]、sbyte[]、int[]以及Array的故事
- 九个实用的Word转PDF的方法,为你解决格式转换的问题
- 如何准备全国大学生电子设计大赛控制题?
- *寒假水121——叠筐
- STM32进行软件调试步骤:
- 笔记本cpu型号怎么看?笔记本处理器型号的类型与查看方法
- 百度ORC识别身份证,JXL导出信息到excel流水作业。
- c语言中 小数取整函数,取整函数,截去小数取整函数
- 【面试宝典】准备面试了~集合
热门文章
- 我的世界末日求生系列服务器,末日生存 少年pi
- mysql数据库搜索引擎要先进入_Mysql搜索引擎都有哪些区别
- python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...
- windows2019迁移FSMO
- python实现单链表快速排序升序linkedqueue_LeetCode 总结 - 搞定 Linked List 面试题
- Acer 4750 安装黑苹果_安装黑苹果,你需要注意哪几点
- oracle拓展磁盘空间,Oracle磁盘空间使用统计
- linux 内核4.12,Linux Kernel 4.12 发布,最新的稳定版内核
- Oracle 集合转字符,PL/SQL Challenge 每日一题:2014-5-30 将逗号隔开的字符串转换为集合...
- mysql 8.0.x版本压缩包安装方式