PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)

##############################数据处理
#数据导入 $$ 数据转换
import os
import numpy as np
import pandas as pd
from collections import defaultdictdef convert_number():try:return float(x)except ValueError:return np.nanconverters=defaultdict(convert_number)
converters[1558]=lambda x: 1 if x.strip() == "ad." else 0#问号处理
for i in range(0,1558):converters[i]=lambda x: np.nan if x.strip() == "?" else x
ads=pd.read_csv("ad.data",header=None,converters=converters)
ads.head()#特征抽取
ads.dropna(inplace=True)
X=ads.drop(1558,axis=1).values
y=ads[1558]
X[:5]#############################主成分分析
from sklearn.decomposition import PCA
pca=PCA(n_components=5)
Xd=pca.fit_transform(X)np.set_printoptions(precision=3,suppress=True)
pca.explained_variance_ratio_##PCA评估
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
clf=DecisionTreeClassifier()
scores_reduced=cross_val_score(clf,Xd,y,scoring='accuracy')
print("the accuracy is {0:.1f}%".format(100*np.mean(scores_reduced)))#作图
%matplotlib inline
from matplotlib import pyplot as plt
#类别获取
classes=set(y)
#颜色指定
colors=['red','green']
for cur_class,color in zip(classes,colors):mask=(y==cur_class).valuesplt.scatter(Xd[mask,0], Xd[mask,1], marker='o', color=color, label=int(cur_class))
plt.legend()
plt.show()

PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)相关推荐

电影推荐_亲和性分析_规则提取(数据挖掘入门与实践-实验6)
#数据导入 import os import pandas as pdall_ratings=pd.read_csv("ml-100k/u.data", delimiter=&qu ...
人工神经网络_验证码破译(数据挖掘入门与实践-实验9)
文章目录一.待优化二.代码单字母预测 1.验证码图像生成 2.字符串切割 3.数据集创建 4.多条数据集创建 5.数据集调整 6.数据集分割 & 单字母预测模型训练 7.神经网路评估单 ...
人工神经网络_图像加载(数据挖掘入门与实践-实验10)
文章目录数据集代码数据集链接:https://pan.baidu.com/s/1JyRWXLK3GQDh63RRS_mq6Q 提取码:6w65 代码 #加载图片数据包 import os im ...
比赛结果预测_决策树_随机森林(通用数据挖掘入门与实践-实验5)
#数据导入 import pandas as pddata_filename="datasets.csv" dataset=pd.read_csv(data_filename) # ...
scikit-learning_特征分析(数据挖掘入门与实践-实验7)
#数据导入 import os import pandas as pdadult_filename="adult.data" adult = pd.read_csv(adult_f ...
亲和性分析_0(python数据挖掘入门与实践-实验1)
文章目录解析思路效果代码解析支持度:事件发生的总次数置信度:一定条件下,事件发生的概率思路第一步: 导入数据,并交由变量X维护创建特征数组获取特征数量第二步: 创建字典 val ...
OneR算法_0(python数据挖掘入门与实践-实验2)
文章目录结果代码结果代码 from sklearn.datasets import load_iris import numpy as np from collections import d ...
手写体识别(数据挖掘入门与实践-实验11)
文章目录数据导入数据处理模型训练神经网络评估效果数据导入 #数据导入 from keras.datasets import mnist (X_train,Y_train),(X_test, ...
鸢尾花分类_K近邻(分类通用数据挖掘入门与实践-实验4)
文章目录效果代码效果代码 from sklearn.datasets import load_iris import numpy as np#获取数据集 dataset=load_iris() ...

PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)

PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)相关推荐

最新文章

热门文章