PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)
##############################数据处理
#数据导入 $$ 数据转换
import os
import numpy as np
import pandas as pd
from collections import defaultdictdef convert_number():try:return float(x)except ValueError:return np.nanconverters=defaultdict(convert_number)
converters[1558]=lambda x: 1 if x.strip() == "ad." else 0#问号处理
for i in range(0,1558):converters[i]=lambda x: np.nan if x.strip() == "?" else x
ads=pd.read_csv("ad.data",header=None,converters=converters)
ads.head()#特征抽取
ads.dropna(inplace=True)
X=ads.drop(1558,axis=1).values
y=ads[1558]
X[:5]#############################主成分分析
from sklearn.decomposition import PCA
pca=PCA(n_components=5)
Xd=pca.fit_transform(X)np.set_printoptions(precision=3,suppress=True)
pca.explained_variance_ratio_##PCA评估
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
clf=DecisionTreeClassifier()
scores_reduced=cross_val_score(clf,Xd,y,scoring='accuracy')
print("the accuracy is {0:.1f}%".format(100*np.mean(scores_reduced)))#作图
%matplotlib inline
from matplotlib import pyplot as plt
#类别获取
classes=set(y)
#颜色指定
colors=['red','green']
for cur_class,color in zip(classes,colors):mask=(y==cur_class).valuesplt.scatter(Xd[mask,0], Xd[mask,1], marker='o', color=color, label=int(cur_class))
plt.legend()
plt.show()
PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)相关推荐
- 电影推荐_亲和性分析_规则提取(数据挖掘入门与实践-实验6)
#数据导入 import os import pandas as pdall_ratings=pd.read_csv("ml-100k/u.data", delimiter=&qu ...
- 人工神经网络_验证码破译(数据挖掘入门与实践-实验9)
文章目录 一.待优化 二.代码 单字母预测 1.验证码图像生成 2.字符串切割 3.数据集创建 4.多条数据集创建 5.数据集调整 6.数据集分割 & 单字母预测模型训练 7.神经网路评估 单 ...
- 人工神经网络_图像加载(数据挖掘入门与实践-实验10)
文章目录 数据集 代码 数据集 链接:https://pan.baidu.com/s/1JyRWXLK3GQDh63RRS_mq6Q 提取码:6w65 代码 #加载图片数据包 import os im ...
- 比赛结果预测_决策树_随机森林(通用 数据挖掘入门与实践-实验5)
#数据导入 import pandas as pddata_filename="datasets.csv" dataset=pd.read_csv(data_filename) # ...
- scikit-learning_特征分析(数据挖掘入门与实践-实验7)
#数据导入 import os import pandas as pdadult_filename="adult.data" adult = pd.read_csv(adult_f ...
- 亲和性分析_0(python数据挖掘入门与实践-实验1)
文章目录 解析 思路 效果 代码 解析 支持度:事件发生的总次数 置信度:一定条件下,事件发生的概率 思路 第一步: 导入数据,并交由变量X维护 创建特征数组 获取特征数量 第二步: 创建字典 val ...
- OneR算法_0(python数据挖掘入门与实践-实验2)
文章目录 结果 代码 结果 代码 from sklearn.datasets import load_iris import numpy as np from collections import d ...
- 手写体识别(数据挖掘入门与实践-实验11)
文章目录 数据导入 数据处理 模型训练 神经网络评估 效果 数据导入 #数据导入 from keras.datasets import mnist (X_train,Y_train),(X_test, ...
- 鸢尾花分类_K近邻(分类通用 数据挖掘入门与实践-实验4)
文章目录 效果 代码 效果 代码 from sklearn.datasets import load_iris import numpy as np#获取数据集 dataset=load_iris() ...
最新文章
- SpringBoot文件上传异常之temporary upload location not valid
- android 中使用AsyncTask实现简单的异步编程
- 想成为嵌入式程序员应知道的16个基本问题
- Cordova将vue项目打包成apk(全使用命令行)
- Java黑皮书课后题第8章:*8.26(行排序)用下面的方法实现一个二维数组中的行排序。返回新数组,且原数组保持不变。编写一个测试程序,提示用户输入一个3*3的double型矩阵,显示一个排好的矩阵
- 内置函数---filter和map
- 原型链 —— 以隐式引用作为存储方式的单向链表
- matlab 矩阵数据生成.csv表格
- Windows vs Linux:\r\n 与 \r
- 6、使用infowindow
- kali安装nessus_漏洞扫描工具Nessus指南
- vant swipe 三图一屏
- 【docker】虚拟化和docker容器概念
- OCA,OCP,OCM傻傻分不清?
- 合同相似可逆等价矩阵的关系及性质_矩阵的合同与相似及其等价条件
- 未来的计算机320学作文,320字的作文四年级
- 考研英语阅读理解做题技巧(2):主旨题
- StageFright框架流程解读
- 定时播放音乐程序之三:MCI设备的播放和控制
- mysql备份之ZMR
热门文章
- 23.2.3 高速缓存依赖性(1)
- 【数据结构与算法】之深入解析“逆波兰表达式求值”的求解思路与算法示例
- OpenGL之深入解析渲染架构和数据传递
- iOS之Socket的使用-AsyncSocket
- 将文件从HDFS复制到本地
- 287. Find the Duplicate Number
- 【C++】 C++标准模板库(十一) 优先队列
- 【Linux系统编程】进程间通信--共享内存
- [Qt教程] 第31篇 网络(一)Qt网络编程简介
- kafka配置文件 中文乱码_Kafka学习之配置文件详解