数据降维

1.特征选择

2.主成分分析

特征选择

特征选择原因

1.冗余:部分特征的相关度高,容易消耗计算性能。
2.噪声:部分特征对预测结果有影响。

1.特征选择是什么

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小。

主要方法(三大武器):

Filter(过滤式):VarianceThreshold
Embedded(嵌入式):正则化、决策树
Wrapper(包裹式)
Filter(过滤式):VarianceThreshold

sklearn特征选择API
sklearn.feature_selection.VarianceThreshold

VarianceThreshold语法

 VarianceThreshold(threshold = 0.0)删除所有低方差特征Variance.fit_transform(X,y)       X:numpy array格式的数据[n_samples,n_features]返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。

流程:
1、初始化VarianceThreshold,指定阀值方差
2、调用fit_transform

演示:

from sklearn.feature_selection import VarianceThresholddef var():'''特征选择-删除低方差的特征:return:'''var=VarianceThreshold(threshold=0.0)data=var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])print(data)return Noneif __name__=='__main__':var()


删除了方差为零的列。

主成分分析

sklearn降维API
sklearn. decomposition

PCA(主成分分析)

PCA是什么

本质:PCA是一种分析、简化数据集的技术。
目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
作用:可以削减回归分析或者聚类分析中特征的数量。

特征数量达到上百的时候,考虑数据我的简化,特征也会改变,特征数量也会减少。

高维度数据容易出现的问题:特征之间通常是相关的。

数据:
(-1,-2)
(-1, 0)
( 0, 0)
( 2, 1)
( 0, 1)

要求:将这个二维的数据简化成一维?
通过公式计算

矩阵运算得出P为

PCA语法

 PCA(n_components=None)将数据分解为较低维数空间PCA.fit_transform(X)       X:numpy array格式的数据[n_samples,n_features]返回值:转换后指定维度的array

流程:
1、初始化PCA,指定减少后的维度
2、调用fit_transform
演示:

from sklearn.decomposition import PCAdef pca():'''主成分分析进行数据降维:return: None'''pca=PCA(n_components=0.9)data=pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])print(data)return Noneif __name__=="__main__":pca()


数据由三个特征降为两个特征。

2.sklearn特征选择API

3.其它特征选择方法

神经网络

python人工智能——机器学习——数据的降维相关推荐

  1. python人工智能——机器学习——数据的划分和介绍

    sklearn数据集 1.数据集划分 2.sklearn数据集接口介绍 3. sklearn分类数据集 4. sklearn回归数据集 数据集划分 机器学习一般的数据集会划分为两个部分: 训练数据:用 ...

  2. 2019最新黑马传智Python人工智能大数据视频教程分享给大家

    2019最新黑马传智Python人工智能大数据视频教程分享给大家 链接:https://pan.baidu.com/s/1A2hpXWaeyMIufliaSDWygQ 提取码:bzbd

  3. python人工智能大数据_人工智能及大数据中的Python

    2016年,Python取代Java成为高校中最受欢迎的语言.2018年三大语言榜单中,Python陆续登上了IEEE.PYPL排行榜单之首.薪酬调查结果显示,Python开发人员是收入最高的开发人员 ...

  4. python人工智能——机器学习——特征工程

    数据的特征工程 1.特征工程是什么 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对位置数据的预测准确性. 2.特征工程的意义 直接影响预测结果 3.scikit-le ...

  5. python人工智能——机器学习——分类算法-k近邻算法——kaggle案例: Facebook V: Predicting Check Ins

    题目及翻译 Facebook and Kaggle are launching a machine learning engineering competition for 2016. Faceboo ...

  6. Python数据处理Tips数据的降维的Scikit-learn的14种实现方式

    数据降维是为了减少数据的维数,俗称减少字段数(数据字段过多时候可以使用).可以减少模型计算量和模型运行时间,减少噪声变量信息对模型结果的影响,并有助于可视化降维信息并减少数据存储空间. 日常工作中遇到 ...

  7. python人工智能——机器学习——模型选择与调优

    1.交叉验证 交叉验证:为了让被评估的模型更加准确可信 交叉验证过程 交叉验证:将拿到的数据,分为训练和验证集. 以下图为例:将数据分成5份,其中一份作为验证集.然后经过5次(组)的测试,每次都更换不 ...

  8. python人工智能——机器学习——分类算法-朴素贝叶斯算法对新闻进行分类案例

    朴素贝叶斯案例流程 1.加载20类新闻数据,并进行分割 2.生成文章特征词 3.朴素贝叶斯estimator流程进行预估 代码 from sklearn.datasets import fetch_2 ...

  9. python人工智能——机器学习——分类算法-朴素贝叶斯算法

    1.概率基础 2.朴素贝叶斯介绍 概率基础 概率定义为一件事情发生的可能性 联合概率和条件概率 朴素贝叶斯-贝叶斯公式 拉普拉斯平滑 如果词频列表里面有很多出现次数都为0,则会导致计算结果为0. sk ...

最新文章

  1. 黄淮学院计算机录取线,黄淮学院录取投档线
  2. Bfs++ open the lock
  3. mysql scrapy 重复数据_mysql数据库如何处理重复数据?
  4. 路由器WIFI连接无法正常访问个别网站及发送图片
  5. Ayoub's function CodeForces - 1301C(组合数学)
  6. Java应用程序中的消息传递主体
  7. Android逆向笔记-Proguard混淆Android代码以及去打印日志信息
  8. Spring的春天,直接召唤系--Singleton的Application Context
  9. 组合范畴语法 CCG
  10. for循环 与 while循环
  11. Python3+Selenium3自动化测试-(四)
  12. 【Axure RP8.1】一款专业的快速原型设计工具
  13. C++使用命名管道使用进程间通信
  14. 泛微oa系统什么框架_泛微OA系统表结构说明文档
  15. 后台事务自动跳转工作流节点
  16. IPS与IDS部署场景
  17. 数学空间向量--两条异面直线距离,以及相交并垂直与两条直线的直线。
  18. 由于没有公钥,无法验证下列签名: NO_PUBKEY 4F4EA0AAE5267A6C
  19. [C#] 控制系统音量-第二章
  20. 当你开始听不清这个世界的声音

热门文章

  1. Cogs 727. [网络流24题] 太空飞行计划(最大权闭合子图)
  2. Java集合框架总结(5)——Map接口的使用
  3. (MoMoCMS教程11)页面的SEO优化与外链
  4. JSON表单提交(ajax异步刷新)
  5. Objective-C:OC内部可变对象和不可变对象的深(复制)拷贝问题思考:
  6. 配置纯净版Debian
  7. 一个Excel导出类的实现过程(二):显示定制
  8. C#使用BackgroundWorker实现多线程
  9. 给定一个年份,判断这一年是不是闰年。
  10. 【数据结构总结】第三章:栈和队列(线性结构)