来自:https://www.zhihu.com/question/35649122

其实这里所说的数据量不足,可以换一种方式去理解:在维度高的情况下,数据相对少。
举一个特例,比如只有一维,和1万个数据,那么这种情况下,我们可以认为数据量其实是足够的,因为数据密度相对来说很高。
如果数据的维度有1000维,数据量仍然有1万,这种情况下,数据的密度就相当低了。

引用wiki里的两句话:
- The common theme of these problems is that when the dimensionality increases, the volume of the space increases so fast that the available data become sparse. This sparsity is problematic for any method that requires statistical significance. In order to obtain a statistically sound and reliable result, the amount of data needed to support the result often grows exponentially with the dimensionality.

- With a fixed number of training samples, the predictive power reduces as the dimensionality increases, and this is known as the Hughes effect

[3]

or Hughes phenomenon
具体可以查看链接:Curse of dimensionality

简单的翻译过来就是,当维度增加的时候,训练所需要的数据量需要成指数级别的增长才能满足要求。

维度很高,且数据量不足的情况下,训练模型仅仅是去“记忆”数据,而不是去“学习”数据。因为对于高维度来说,空间的自由度非常大,在数据量相对不高的情况下,其实每一个数据都可以看成是一个“特例”,这也是造成过拟合现象的原因。

但是,高维度的情况下也有一个好处:既然空间的自由度很高,那么数据就更可能线性可分,在维度高到一定程度的时候,我们就可以认为其线性可分的概率为1 (其实这个观点是缺少严谨的数学验证的,可以参考:如何证明无穷多维的情况下,数据一定线性可分? - 雷天琪的回答)。

所以得出的结论是,在数据量不足的情况下(相对于高维度下的数据量不足问题),我们可以使用线性分类器来解决问题,因为其“更可能线性可分”,比如,使用SVM来分类数据量少的问题。

最近做的一个项目就遇到了这个问题,从上面的分析的基础上,可以看出线性分类器可以保证在数据量很少的情况下的性能,但是我的实际项目不能验证这一点。 :(

我的实际项目中,效果最好的还是随机森林(可以应对线性不可分的情况),而SVM和其他的一些模型并无明显差别,唯一显著的效果是,False Positive很少,不过这一点在某些情况下很重要。至于原因,现在只能理解为数据中有错误。

几千份样本对于大部分机器学习模型, 已经足够了(除了深度学习之类的)

根据"No free lunch"原则, 没有一个模型比另一个模型好的说法, 必须结合具体问题.

建议:

1 做好特征工程

2 不要用太多的特征

3 做好交叉验证

转载于:https://www.cnblogs.com/bonelee/p/7170124.html

机器学习 数据量不足问题----1 做好特征工程 2 不要用太多的特征 3 做好交叉验证 使用线性svm...相关推荐

  1. 【特征工程】呕心之作——深度了解特征工程

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  2. 特征工程包含那些步骤?如何进行特征的迭代?

    特征工程包含那些步骤?如何进行特征的迭代? 特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能).从 ...

  3. 特征工程(1):特征提取、特征构建、特征选择的区别

    特征对于预测而言是相当重要的,在预测建模之前的大部分工作都是在寻找特征,没有合适特征的预测模型,就几乎等于瞎猜,对预测目标而言没冇任何意义.特征通常是指输入数据中对因变量的影响比较明显的有趣变量或属性 ...

  4. 【ML特征工程】第 8 章 :自动化特征化器:图像特征提取和深度学习

  5. 《百面机器学习》第零问:什么是特征工程?什么是结构化数据?什么是非结构化数据?

    机器学习基本概念 1. 特征工程 1.1 特征工程的目的 1.2 怎么做特征工程? 1.2.1 特征构建 1.2.2 特征提取 1.2.2.1特征提取常用方法 1.2.3 特征选择 1.2.3.1 特 ...

  6. 基于Python的自动特征工程——教你如何自动创建机器学习特征

    作者 | William Koehrsen 译者 | 王天宇 编辑 | Jane 出品 | AI科技大本营 [导读]如今机器学习正在从人工设计模型更多地转移到自动优化工作流中,如 H20.TPOT 和 ...

  7. 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式

    作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...

  8. 百面机器学习之特征工程

    1.为什么需要对数值类型的特征做归一化? 为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性. 对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值 ...

  9. 机器学习核心总结-概念、线性回归、损失函数、泛化及数据集划分、特征工程、逻辑回归和分类

    文章目录 一.机器学习入门概念 一.基本概念 机器学习:让机器进行学习和决策 机器学习分类:无监督学习.监督学习.强化学习 深度学习:模拟人脑,自动提取输入特征,是实现机器学习的方式之一 神经网络:一 ...

最新文章

  1. Bootstrap4 glyphicon 移除图标 glyphicon fonts-faces 解决方案
  2. 取消Exchange数据库的自动分配功能
  3. HDU - 6393 Traffic Network in Numazu(线段树+LCA+树链剖分+并查集)
  4. hdu 6406(思路+数据结构)
  5. 2021年陕西高考成绩单招查询时间,2021年陕西单招考试时间是什么时候,单招考试分数线是多少...
  6. 【NOIP1997】【Luogu2626】斐波那契数列(枚举,质因数分解)
  7. ntohs, ntohl, htons,htonl的比较
  8. 关闭网页自动提示加入收藏
  9. curl post json_Go Web编程--解析JSON请求和生成JSON响应
  10. c++fabs函数_支持向量机(SVM)模型python复现 - SMO算法;核技巧;高斯核函数
  11. python大数据培训班
  12. Excel闪退问题解决
  13. 计算机继电保护书籍,计算机继电保护的发展
  14. 程序员必备神器(FastStoneCapture)
  15. 切换阿里巴巴开源镜像站镜像——Kali镜像
  16. 2019黑马python吾爱_最新Python黑马头条推荐系统项目视频教程
  17. 金士顿8GU盘量产实录
  18. python实现不重复排列组合_python 实现排列组合
  19. jackson 入门
  20. 《周志明的软件架构课》学习笔记 Day15

热门文章

  1. MAVEN的使用入门
  2. mysql 多表查询or_MySQL 多表查询
  3. php ado,常用的php ADODB使用方法集锦
  4. 伪语言PHP,PHP语言之伪静态几种做法
  5. 【以太坊】Ethereum交易过程及ethereumjs-tx的应用
  6. linux下的Tomact是什么
  7. 一份字节跳动面试官给你的Java技术面试指南,彻底帮你搞懂
  8. 【深度学习】强化学习Q-Learning和DQN的应用(迷宫)
  9. 【深度学习】深入浅出transformer解决并行计算问题
  10. python【蓝桥杯vip练习题库】BASIC-3字母图形