数据降维

1.特征选择

2.主成分分析

特征选择

特征选择原因

1.冗余：部分特征的相关度高，容易消耗计算性能。
2.噪声：部分特征对预测结果有影响。

1.特征选择是什么

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小。

主要方法（三大武器）：

Filter(过滤式):VarianceThreshold

Embedded(嵌入式)：正则化、决策树

Wrapper(包裹式)

Filter(过滤式):VarianceThreshold

sklearn特征选择API
sklearn.feature_selection.VarianceThreshold

VarianceThreshold语法

 VarianceThreshold(threshold = 0.0)删除所有低方差特征Variance.fit_transform(X,y)       X:numpy array格式的数据[n_samples,n_features]返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

流程：
1、初始化VarianceThreshold,指定阀值方差
2、调用fit_transform

演示：

from sklearn.feature_selection import VarianceThresholddef var():'''特征选择-删除低方差的特征:return:'''var=VarianceThreshold(threshold=0.0)data=var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])print(data)return Noneif __name__=='__main__':var()

删除了方差为零的列。

主成分分析

sklearn降维API
sklearn. decomposition

PCA(主成分分析)

PCA是什么

本质：PCA是一种分析、简化数据集的技术。
目的：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。
作用：可以削减回归分析或者聚类分析中特征的数量。

特征数量达到上百的时候，考虑数据我的简化，特征也会改变，特征数量也会减少。

高维度数据容易出现的问题：特征之间通常是相关的。

数据：
(-1,-2)
(-1, 0)
( 0, 0)
( 2, 1)
( 0, 1)

要求：将这个二维的数据简化成一维？
通过公式计算

矩阵运算得出P为

PCA语法

 PCA(n_components=None)将数据分解为较低维数空间PCA.fit_transform(X)       X:numpy array格式的数据[n_samples,n_features]返回值：转换后指定维度的array

流程：
1、初始化PCA,指定减少后的维度
2、调用fit_transform
演示：

from sklearn.decomposition import PCAdef pca():'''主成分分析进行数据降维:return: None'''pca=PCA(n_components=0.9)data=pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])print(data)return Noneif __name__=="__main__":pca()

数据由三个特征降为两个特征。

2.sklearn特征选择API

3.其它特征选择方法

神经网络

python人工智能——机器学习——数据的降维相关推荐

python人工智能——机器学习——数据的划分和介绍
sklearn数据集 1.数据集划分 2.sklearn数据集接口介绍 3. sklearn分类数据集 4. sklearn回归数据集数据集划分机器学习一般的数据集会划分为两个部分: 训练数据:用 ...
2019最新黑马传智Python人工智能大数据视频教程分享给大家
2019最新黑马传智Python人工智能大数据视频教程分享给大家链接:https://pan.baidu.com/s/1A2hpXWaeyMIufliaSDWygQ 提取码:bzbd
python人工智能大数据_人工智能及大数据中的Python
2016年,Python取代Java成为高校中最受欢迎的语言.2018年三大语言榜单中,Python陆续登上了IEEE.PYPL排行榜单之首.薪酬调查结果显示,Python开发人员是收入最高的开发人员 ...
python人工智能——机器学习——特征工程
数据的特征工程 1.特征工程是什么特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对位置数据的预测准确性. 2.特征工程的意义直接影响预测结果 3.scikit-le ...
python人工智能——机器学习——分类算法-k近邻算法——kaggle案例： Facebook V: Predicting Check Ins
题目及翻译 Facebook and Kaggle are launching a machine learning engineering competition for 2016. Faceboo ...
Python数据处理Tips数据的降维的Scikit-learn的14种实现方式
数据降维是为了减少数据的维数,俗称减少字段数(数据字段过多时候可以使用).可以减少模型计算量和模型运行时间,减少噪声变量信息对模型结果的影响,并有助于可视化降维信息并减少数据存储空间. 日常工作中遇到 ...
python人工智能——机器学习——模型选择与调优
1.交叉验证交叉验证:为了让被评估的模型更加准确可信交叉验证过程交叉验证:将拿到的数据,分为训练和验证集. 以下图为例:将数据分成5份,其中一份作为验证集.然后经过5次(组)的测试,每次都更换不 ...
python人工智能——机器学习——分类算法-朴素贝叶斯算法对新闻进行分类案例
朴素贝叶斯案例流程 1.加载20类新闻数据,并进行分割 2.生成文章特征词 3.朴素贝叶斯estimator流程进行预估代码 from sklearn.datasets import fetch_2 ...
python人工智能——机器学习——分类算法-朴素贝叶斯算法
1.概率基础 2.朴素贝叶斯介绍概率基础概率定义为一件事情发生的可能性联合概率和条件概率朴素贝叶斯-贝叶斯公式拉普拉斯平滑如果词频列表里面有很多出现次数都为0,则会导致计算结果为0. sk ...

python人工智能——机器学习——数据的降维

数据降维

1.特征选择

2.主成分分析

特征选择

特征选择原因

1.特征选择是什么

主要方法（三大武器）：

Filter(过滤式):VarianceThreshold

Embedded(嵌入式)：正则化、决策树

Wrapper(包裹式)

Filter(过滤式):VarianceThreshold

主成分分析

PCA(主成分分析)

PCA是什么

2.sklearn特征选择API

3.其它特征选择方法

神经网络

python人工智能——机器学习——数据的降维相关推荐

最新文章

热门文章