1.相关系数

2.虚拟变量
3.做回归之前要用样本检验函数看看是否符合正态分布,如果不符合是不能做回归的。
数据之间差异太大可以考虑对数据进行log变换。
4.多元线性回归
5.回归诊断
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确
使用散点图目测检验。
6.残差
7.非线性模型
log,指数函数,多项式函数,幂函数
8.岭回归
岭回归类似于在样本里加扰动。
有偏性是岭回归估计的一个重要特征。
9.岭迹图
10.Lasso
通过构造一个一阶惩罚函数获得一个精炼癿模型;通过最终确定一些指标(变量)癿系数为零(岭回归估计系数等于0癿机会微乎其微,造成筛选变量困难),解释力很强。
擅长处理具有多重共线性癿数据,不岭回归一样是有偏估计
11. LAR最小角回归
12.如果样本存在多重共线性,矩阵行列式为0或者接近0,求矩阵逆不准确,无法求或者很容易受干扰。
13.主成份分析的另一种解释
通过旋转,使变量方差最大的在左边上。
沿着某方向,样本特征方差最大。
主成份分析:侧重“变异量”,也就是数据的分散程度。将数据重新组合后样本间差异最大化。但得出来的主成份往往后难从业务场景的角度解释。
因子分析:更重视相关变量的“共变异量”,组合的是相关性较强的原始变量,目的是找到背后起作用的少量关键因子,容易进行业务分析。结果还可以进行因子旋转,使业务意义更加明显。
X= u+AF+n
14.组合方法
优势:
1)能提高准确率
2)对误差和噪声更加鲁棒
3)一定程度抵消过度拟合
4)适合并行化
bagging
有放回抽样,在概率上条件独立。
自助样本(boostrap):从原数据集中有放回抽样得到新的数据集。
创建k个模型
多数表决
boosting算法
训练集中元祖分配权重,倾向于重点关注分错的数据
由分类器的准确率决定分类器的权重
容易过拟合。准确率可以比bagging高。
adaboost算法:boosting加强版
随机森林
有放回抽样
参与构建决策树的变量也是随机抽出,参与变量数通常大大小于可用变量数。
使用CART算法,不剪枝
多数表决
优点:
准确率与adaboost差不多
鲁棒
过拟合问题少
易并行化
15.性能评估函数
MAE:平均绝对误差,误差绝对值的平均值
MSE:均方误差,误差平方的平均值
SSE:误差平方和

【炼数成金-机器学习笔记】相关推荐

  1. 炼数成金数据分析课程---16、机器学习中的分类算法(交叉内容,后面要重点看)...

    炼数成金数据分析课程---16.机器学习中的分类算法(交叉内容,后面要重点看) 一.总结 一句话总结: 大纲+实例快速学习法 主要讲解常用分类算法(如Knn.决策树.贝叶斯分类器等)的原理及pytho ...

  2. 炼数成金数据分析课程---17、机器学习聚类算法(后面要重点看)

    炼数成金数据分析课程---17.机器学习聚类算法(后面要重点看) 一.总结 一句话总结: 大纲+实例快速学习法 主要讲解常用聚类算法(比如K-means等)的原理及python代码实现:后面学习聚类的 ...

  3. 炼数成金Tensorflow学习笔记之2.2_变量

    炼数成金Tensorflow学习笔记之2.2_变量 代码及分析 代码及分析 import tensorflow as tfx = tf.Variable([1, 2]) a = tf.constant ...

  4. 炼数成金Tensorflow学习笔记之2.4_Tensorflow简单示例

    炼数成金Tensorflow学习笔记之2.4_Tensorflow简单示例 代码及分析 代码及分析 # -*- coding: utf-8 -*- """ Created ...

  5. 炼数成金数据分析课程---7、数据分析简介

    炼数成金数据分析课程---7.数据分析简介 一.总结 一句话总结: 我终于知道他们是要做一些什么样的工作了 1.我们导入了数据,是否可以立即进行数据分析? 需要对数据做预处理:比如去除脏数据这些 2. ...

  6. python数据内容_炼数成金:Python数据分析内容分享

    相信看这篇文章的每一位朋友,都有过努力学习 炼数成金:Python数据分析     这个课程.提升自我的想法, 可是学习是一件非常反人性的事情,大多数人都是晚上想想千条路,早上醒来走原路.  也相信很 ...

  7. 【备忘】2017年最新炼数成金机器读心术之神经网络与深度学习视频教程

    课程大纲: 第1课 跌宕起伏70年:神经网络发展概述:最简单的神经元仿生:单层感知器. 第2课 线性神经网络,BP神经网络,基于梯度下降的各种学习算法:BP神经网络应用:信用识别:为什么BP网络丌能支 ...

  8. 炼数成金数据分析课程---8、数据清洗

    炼数成金数据分析课程---8.数据清洗 一.总结 一句话总结: 数据分析课程的实质是:介绍库中的函数:介绍py的3个常用的数据分析库(numpy,pandas,scipy)的函数的操作 实例:其实找几 ...

  9. 炼数成金数据分析课程---13、回归分析

    炼数成金数据分析课程---13.回归分析 一.总结 一句话总结: 大纲+实例快速学习法 主要内容是回归分析的原理及编程实现 1.回归分析是什么? 通过建立模型来研究变量之间相互关系的密切程度.结构状态 ...

最新文章

  1. CentOS4 可用镜像及更新方式
  2. Android高效加载大图、多图解决方案_LruCache,有效避免程序OOM
  3. 使用skyeye运行《Linux设备驱动开发详解》的实例(一)
  4. ARIS业务流程建模工具培训
  5. ppt中插入excel源文件丢失,提取图中数据
  6. 计算机应用基础doc,计算机应用基础.doc
  7. 自然语言处理基础技术工具篇之NLTK
  8. 机器翻译市场需求调研报告
  9. php做教务系统管理,基于PHP-MYSQL技术的网络教务管理系统设计
  10. axure制作表单查询
  11. 都有哪些较好用的项目管理软件?
  12. Bootstrap Table Fixed Columns
  13. android 获取视频编码,Android视频编码
  14. 基于平台的软件开发(一)
  15. Android 集成QQ登录,获取头像与昵称
  16. 黑龙江职业学院计算机考试,黑龙江职业学院官网
  17. 全面理解主成分分析(PCA)和MNIST数据集的Python降维实现
  18. 安卓开发——在应用中简单调用Android百度地图API SDK
  19. stm32 f1和f4的比较
  20. 01---两列波在相遇处发生干涉的条件

热门文章

  1. 点云匹配和ICP算法概述
  2. 命令行调节linux系统声音
  3. 西门子et200 分布式i/o_西门子S7-1200/1500的硬件数据记录(1)-参数数据记录
  4. 软件工程(四)需求工程与需求分析
  5. python dataload
  6. 单播(Unicast),组播(Multicast),广播(Broadcast)
  7. vue 调用webservice_c#:WebService及其几种调用方式
  8. 墨尔本大学计算机研究生专业学费,墨尔本大学国际研究生专业学费
  9. 数据分析--单因子选股策略、多因子选股策略(选股)
  10. U盘突然变成Raw格式,无法读写数据