机器学习常见模型适用场景整理

  • 如何确定业务适合的算法模型
    • 训练集大小
    • 不同模型特点
      • 线性模型
      • ==logistic回归==
      • ==支持向量机SVM==
      • 决策树
      • 最近邻KNN
      • ==随机森林 / 极端随机树==
      • ==GBM / XGBoost==
      • 朴素贝叶斯
      • 神经网络

如何确定业务适合的算法模型

训练集大小:大,小
大:不适合SVM,KNN,耗费内存
同时:适合低方差/高偏差模型(SVM),不适合高方差低偏差模型
特征空间维度:高维,低维
高维:适合SVM(文本分类),不适合KNN(适合低维度数据)
特征是否相互独立:独立,不独立
独立:朴素贝叶斯(前提:特征间相互独立)
是否为线性特征:线性,非线性
线性:逻辑回归(简单,可解释性强,线性可分数据下表现良好)
对拟合程度的要求:??
其他要求(性能,时间,空间):计算复杂,简单
复杂:不适合SVM,KNN
缺失值比例:多,少
svm,KNN涉及到距离计算的模型缺失值对模型效果影响较大

训练集大小

训练集较小时,选择高偏差/低方差的分类器,如朴素贝叶斯,比低偏差/高方差的分类器(如K近邻或Logistic回归)更有优势。
我的理解
因为训练集小,样本信息可能不全面,应该选择受到样本扰动影响较小的方法。但是随着训练集的增大,样本信息比较全面,此时应该选择算法本身性能较高的模型,即低偏差,高方差模型。

不同模型特点

线性模型

  1. 普通最小二乘法模型
  2. Lasso回归:普通+L1正则化项
  3. 岭回归:普通+L2正则化项

logistic回归

核心:通过sigmoid函数将线性模型拟合值转换为标签概率,并通过最小化交叉熵代价函数来获得最优系数

优点
模型简单
输出值具有概率意义

缺点
对于非线性决策边界的分类数据,效果一般;
为提高模型效果常需要对特征进行进一步非线性处理(连续变量离散化等)
受所有数据点影响,如果数据不平衡,要先进行平衡数据处理;

适用场景
需要容易解释(系数代表特征对结果影响程度),
问题针对构造的特征线性可分
构造的特征基本线性相关
常见于信贷风控点击率(ctr)预估

支持向量机SVM

核心:在约束条件下(无正则化,正则化),最大化支持向量所决定的超平面宽度

优点
在许多数据集表现优秀
核函数解决线性不可分问题
可有效解决高维度特征的数据集
支持向量角度:
(1)不受一类数据点影响,只受支持向量的影响
(2)决策超平面只受支持向量决定,计算复杂度取决于支持向量个数,不取决于维数,避免“维数爆炸”

缺点
要求较高的内存需求和繁琐的调参,不适用于大数据量数据集
核函数难以确定,一般靠经验
数据处理要求

适用场景
在许多数据集均有较好表现,‘无脑硬刚算法’
尤其是针对样本点聚集在决策边界附近的数据集,
常用于文本分类人脸识别
小样本,非线性,高维数据集

决策树

核心:if-else型,根据不同特征划分数据集

优点
对数据分布无要求,无任何假设,无论数据集是否线性可分
”if-else”规则便于解读与理解

缺点
结果不稳健,改变少量特征,或数值型数据微小变化就可以改变算法输出标签
容易过拟合

适用场景:需要可解释性强,非数值型数据,但是很少单用决策树

最近邻KNN

核心:根据距离最近的样本决定预测样本类型

优点:简单,对异常值不敏感

缺点
样本不平衡问题影响较大,
要求的存储空间大,计算复杂度高

适用场景:需要可解释性强(比如推荐算法),少量数据和大量低维数据

随机森林 / 极端随机树

核心:多棵“好而不同”的决策树投票,降低模型方差角度提高模型效能

优点
对数据分布没有任何假设,无论数据集是否线性可分(连续/不连续等,不需要规范化)
不需要太多调参就可以获得较好的准确度,克服了决策树易受攻击的缺点

缺点:容易过拟合

适用场景
数据维度相对较低(几十维),同时对准确性有较高要求时,
基本上不知道什么方法时都可以尝试,‘无脑硬刚算法’
常见于搜索排序相关性

GBM / XGBoost

核心:下一个学习器针对上一个学习器预测结果(预测残差)进行残差预测,[adaboost:下一个学习器针对上一个学习器分类错误样本加大权重,并预测],从减小模型偏差角度提高模型效果(有针对改进”偏科“现象)

适用场景
在大多数数据集表现良好,‘无脑硬刚算法’,
常见于搜索排序相关性

朴素贝叶斯

核心:条件概率公式+特征相互独立,根据样本先验概率,及似然函数,计算样本后验概率

优点:算法简单

缺点
要求特征间相关性小
需要各类先验概率

适用场景
需要可解释性强,
输入的特征重要性相等,特征间相关性较小
常见垃圾邮件过滤

神经网络

常见机器学习模型适用场景及优缺点相关推荐

  1. logit回归模型_常见机器学习模型的假设

    > Photo by Thought Catalog on Unsplash 暂时忘记深度学习和神经网络. 随着越来越多的人开始进入数据科学领域,我认为重要的是不要忘记这一切的基础. 统计. 如 ...

  2. etc的常见算法_几个常用算法的适应场景及其优缺点(非常好)

    本文主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类.回归.聚类.推荐.图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验. ...

  3. 常见机器学习算法优缺点总结

    常见机器学习算法优缺点总结 1. 回归 回归是一种用于连续型数值变量预测和建模的监督学习算法,使用案例包括房地产价格.股价走势或学生成绩等的预测. 回归任务的特征是具有数值型目标变量的标注数据集.换言 ...

  4. 机器学习算法原理:详细介绍各种机器学习算法的原理、优缺点和适用场景

    目录 引言 二.线性回归 三.逻辑回归 四.支持向量机 五.决策树 六.随机森林 七.K-均值聚类 八.主成分分析(PCA) 九.K近邻算法 十.朴素贝叶斯分类器 十一.神经网络 十二.AdaBoos ...

  5. ML:机器学习模型的稳定性分析简介、常见的解决方法之详细攻略

    ML:机器学习模型的稳定性分析简介.常见的解决方法之详细攻略 目录 ML:机器学习模型的稳定性分析简介.常见的解决方法 1.增强稳健性的通用方法 2.提高模型稳定性-适合泛线性模型(如逻辑回归)-幅度 ...

  6. ML之模型文件:机器学习、深度学习中常见的模型文件(.h5、.keras)简介、h5模型文件下载集锦、使用方法之详细攻略

    ML之模型文件:机器学习.深度学习中常见的模型文件(.h5..keras)简介.h5模型文件下载集锦.使用方法之详细攻略 目录 ML/DL中常见的模型文件(.h5..keras)简介及其使用方法 一. ...

  7. 机器学习模型在携程海外酒店推荐场景中的应用

    导读 互联网企业的核心需求是"增长",移动互联时代下的在线旅游业也不例外.随着大数据.云计算和人工智能等技术的不断进步,通过算法和模型来实现增长已成为核心. 近年来推荐系统迅速崛起 ...

  8. 【华为云技术分享】一文掌握5种常用的机器学习模型及其优缺点

    摘要:机器学习模型中有许多种不同方法可以用来解决分类和回归问题.在此尝试对每种模型的算法模式进行简要总结,希望能帮助你找着适合特定问题的解决方法. 机器学习模型中有许多种不同方法可以用来解决分类和回归 ...

  9. 干货 | 机器学习模型在携程海外酒店推荐场景中的应用

    "关于作者:Louisa,携程算法工程师,热爱前沿算法和技术在个性化推荐和广告建模等业务的性能优化和落地. 大数据产业创新服务媒体 --聚焦数据 · 改变商业 导读 互联网企业的核心需求是& ...

最新文章

  1. 什么是StackOverflowError?
  2. 第二组视频:MySQL复制
  3. Openldap配置TLS加密传输(完整版——手动配置)
  4. 【汇总篇】如何利用Excel高效地处理数据
  5. python rabitmq_python RabbitMQ队列使用
  6. Matlab生成动态链接库供C#调用
  7. 响应式设计(Response Web Design)浅谈
  8. syslog可能引起得问题_牙齿经常有问题?可能是这4个坏习惯引起的,要改正
  9. mysql dese_MySQL 5.6-类似于DENSE_RANK的功能,无需订购
  10. shiro的集群动态权限更新
  11. Linux游戏蒸蒸日上,Wikimedia坚持开放格式,等等
  12. VPP 安装配置工具vpp-config
  13. torch.cat() 函数用法
  14. 年度神作!这本Python 3.6的书刷爆朋友圈,网友:太香!
  15. ESP8266—“ICACHE_FLASH_ATTR”宏——解释含义
  16. 自动驾驶_高精地图模型构成
  17. 破产案或加速唯冠与苹果和解
  18. C/C++智能指针详解
  19. 进阶高级自动化测试测试,Docker 常遇问题整理(带解决方案)
  20. LVS负载均衡环境搭建

热门文章

  1. oracle数据库可连接性检查
  2. 学习Oracle的三种境界
  3. redis之setnx、setex、setrange、mset
  4. Python爬虫之实现百度翻译
  5. 2019世界乒乓球锦标赛女单刘诗雯夺冠
  6. PTA 7-43 币值转换 (20 分)
  7. 2017年苹果开发者账号申请——注册苹果账号
  8. 数据增强,扩充了数据集,增加了模型的泛化能力
  9. z=z(x,y)中面积积分和方向余弦
  10. 使用xmind绘制思维导向