##############################数据处理
#数据导入 $$ 数据转换
import os
import numpy as np
import pandas as pd
from collections import defaultdictdef convert_number():try:return float(x)except ValueError:return np.nanconverters=defaultdict(convert_number)
converters[1558]=lambda x: 1 if x.strip() == "ad." else 0#问号处理
for i in range(0,1558):converters[i]=lambda x: np.nan if x.strip() == "?" else x
ads=pd.read_csv("ad.data",header=None,converters=converters)
ads.head()#特征抽取
ads.dropna(inplace=True)
X=ads.drop(1558,axis=1).values
y=ads[1558]
X[:5]#############################主成分分析
from sklearn.decomposition import PCA
pca=PCA(n_components=5)
Xd=pca.fit_transform(X)np.set_printoptions(precision=3,suppress=True)
pca.explained_variance_ratio_##PCA评估
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
clf=DecisionTreeClassifier()
scores_reduced=cross_val_score(clf,Xd,y,scoring='accuracy')
print("the accuracy is {0:.1f}%".format(100*np.mean(scores_reduced)))#作图
%matplotlib inline
from matplotlib import pyplot as plt
#类别获取
classes=set(y)
#颜色指定
colors=['red','green']
for cur_class,color in zip(classes,colors):mask=(y==cur_class).valuesplt.scatter(Xd[mask,0], Xd[mask,1], marker='o', color=color, label=int(cur_class))
plt.legend()
plt.show()

PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)相关推荐

  1. 电影推荐_亲和性分析_规则提取(数据挖掘入门与实践-实验6)

    #数据导入 import os import pandas as pdall_ratings=pd.read_csv("ml-100k/u.data", delimiter=&qu ...

  2. 人工神经网络_验证码破译(数据挖掘入门与实践-实验9)

    文章目录 一.待优化 二.代码 单字母预测 1.验证码图像生成 2.字符串切割 3.数据集创建 4.多条数据集创建 5.数据集调整 6.数据集分割 & 单字母预测模型训练 7.神经网路评估 单 ...

  3. 人工神经网络_图像加载(数据挖掘入门与实践-实验10)

    文章目录 数据集 代码 数据集 链接:https://pan.baidu.com/s/1JyRWXLK3GQDh63RRS_mq6Q 提取码:6w65 代码 #加载图片数据包 import os im ...

  4. 比赛结果预测_决策树_随机森林(通用 数据挖掘入门与实践-实验5)

    #数据导入 import pandas as pddata_filename="datasets.csv" dataset=pd.read_csv(data_filename) # ...

  5. scikit-learning_特征分析(数据挖掘入门与实践-实验7)

    #数据导入 import os import pandas as pdadult_filename="adult.data" adult = pd.read_csv(adult_f ...

  6. 亲和性分析_0(python数据挖掘入门与实践-实验1)

    文章目录 解析 思路 效果 代码 解析 支持度:事件发生的总次数 置信度:一定条件下,事件发生的概率 思路 第一步: 导入数据,并交由变量X维护 创建特征数组 获取特征数量 第二步: 创建字典 val ...

  7. OneR算法_0(python数据挖掘入门与实践-实验2)

    文章目录 结果 代码 结果 代码 from sklearn.datasets import load_iris import numpy as np from collections import d ...

  8. 手写体识别(数据挖掘入门与实践-实验11)

    文章目录 数据导入 数据处理 模型训练 神经网络评估 效果 数据导入 #数据导入 from keras.datasets import mnist (X_train,Y_train),(X_test, ...

  9. 鸢尾花分类_K近邻(分类通用 数据挖掘入门与实践-实验4)

    文章目录 效果 代码 效果 代码 from sklearn.datasets import load_iris import numpy as np#获取数据集 dataset=load_iris() ...

最新文章

  1. SpringBoot文件上传异常之temporary upload location not valid
  2. android 中使用AsyncTask实现简单的异步编程
  3. 想成为嵌入式程序员应知道的16个基本问题
  4. Cordova将vue项目打包成apk(全使用命令行)
  5. Java黑皮书课后题第8章:*8.26(行排序)用下面的方法实现一个二维数组中的行排序。返回新数组,且原数组保持不变。编写一个测试程序,提示用户输入一个3*3的double型矩阵,显示一个排好的矩阵
  6. 内置函数---filter和map
  7. 原型链 —— 以隐式引用作为存储方式的单向链表
  8. matlab 矩阵数据生成.csv表格
  9. Windows vs Linux:\r\n 与 \r
  10. 6、使用infowindow
  11. kali安装nessus_漏洞扫描工具Nessus指南
  12. vant swipe 三图一屏
  13. 【docker】虚拟化和docker容器概念
  14. OCA,OCP,OCM傻傻分不清?
  15. 合同相似可逆等价矩阵的关系及性质_矩阵的合同与相似及其等价条件
  16. 未来的计算机320学作文,320字的作文四年级
  17. 考研英语阅读理解做题技巧(2):主旨题
  18. StageFright框架流程解读
  19. 定时播放音乐程序之三:MCI设备的播放和控制
  20. mysql备份之ZMR

热门文章

  1. 23.2.3 高速缓存依赖性(1)
  2. 【数据结构与算法】之深入解析“逆波兰表达式求值”的求解思路与算法示例
  3. OpenGL之深入解析渲染架构和数据传递
  4. iOS之Socket的使用-AsyncSocket
  5. 将文件从HDFS复制到本地
  6. 287. Find the Duplicate Number
  7. 【C++】 C++标准模板库(十一) 优先队列
  8. 【Linux系统编程】进程间通信--共享内存
  9. [Qt教程] 第31篇 网络(一)Qt网络编程简介
  10. kafka配置文件 中文乱码_Kafka学习之配置文件详解