流水线Imputer的使用对pima数据进行处理

流水线的处理可以先看一下度娘pima数据的分布情况

对数据进行简单的处理

#手动添加列的标题
pima_column_names=["Pregnancies","Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age","Outcome"]
pima=pd.read_csv("pima.data",names=pima_column_names)
#处理缺失值
items=["Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age"]
#这里因为里面的数据集是0 0 是利用pima.isnull().sum是检测不出来的 为了方便看到空值情况
for item in items:pima[item]=pima[item].map(lambda x:x if x!=0 else None)

最后一步组装流水流水的作用就是生成一条自动化的通道这里最重要的一点参数的设置具体看代码

#填补缺失值  策略  有三种 删除
from sklearn.pipeline import Pipeline  #导入流水
from sklearn.preprocessing import Normalizer #引入归一化
from sklearn.preprocessing import StandardScaler #标准化数据
from sklearn.model_selection import GridSearchCV #网格搜素 找出最优的参数
from sklearn.neighbors import KNeighborsClassifier #K近邻算法
from sklearn.preprocessing import Imputer  #缺失值的处理
#注意这里的参数  这里的参数classify__n_neighbors 这里前面classify是流水线里面是自己定义的名子
knn_params={"classify__n_neighbors":[1,2,3,4,5,6,7],"imputer__strategy":["mean","median","most_frequent"],"standardize__norm":["l1","l2","max"]}
imputer=Imputer()#处理缺失值
scaler=StandardScaler()#标准化数据
knn=KNeighborsClassifier()#实例化Knn算法
#组装流水  先进行数据填充--》  设定范围 也就是特征的选择 -->选择算法的模型
mean_imputer_pipline=Pipeline( [("imputer",imputer),('standardize',scaler),("classify",knn)]  )
#对每一个数据进行
X=pima.drop("Outcome",axis=1)
y=pima["Outcome"]
#遂于建立得网格模型进行暴力搜素
grid=GridSearchCV(mean_imputer_pipline,knn_params)
grid.fit(X,y)
print("最好的参数性能",grid.best_params_)
print("最好的性能",grid.best_score_)

其实流水线就是为了将一段一段的操作结合到一起来 Pipline里面的参数一定要是一个学习器也就是必须要有fit和tranform的方法所以子集写的函数要加入流水中一定要实现对一个类的继承实现这些方法才能加入到流水，由于流水线中的各个生成器和学习器会有多个参数于是最好是利用网格搜素来找到最优的参数

流水线Imputer的使用对pima数据进行处理相关推荐

【机器学习】Pima数据探索--七种武器
七种理解数据的方法简单查看数据审查数据的维度审查数据的类型和属性总结查看数据分类的分布情况统计分析数据理解数据属性的相关性审查数据的分布情况 # 简单查看数据 from pandas i ...
自己动手写CPU(2)流水线数据相关问题
自己动手写CPU(2)流水线数据相关问题问题定义流水线中经常有一些被称为"相关"的情况发生,它使得指令序列中下一条指令无法按照设计的时钟周期执行,这些"相关" ...
PiFlow v0.5 发布：大数据流水线系统
开发四年只会写业务代码,分布式高并发都不会还做程序员? PiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统.该系统将数据的采集.清洗.计算.存储等各个环节封装成组件,以所见即所得 ...
neo4j图数据库：结构化数据流水线、非结构化数据流水线
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...
深入浅出：数据流水线管理（上）
在绝大部分企业的数据中台建设中,数据流水线的建设都是核心工作之一.数据流水线系统承担着将数据从原始形态转换到用户与业务应用可以直接使用的形态的整个过程.在绝大多数时候,这些工作必须是自动且高度可靠的, ...
如何在golang中关闭bufio.reader_Golang 并发模型系列：1. 轻松入门流水线模型
Go语言中文网,致力于每日分享编码.开源等知识,欢迎关注我,会有意想不到的收获! Golang作为一个实用主义的编程语言,非常注重性能,在语言特性上天然支持并发,它有多种并发模型,通过流水线模型系列文 ...
关于数据仓库数据质量的问题处理
ETL 是数据仓库的最重要的基础,良好的 ETL 从业务系统中抽取数据,转换数据质量,保证数据一致性,这样才能够保证各个独立的不同的数据源能够集成到一起,最终只有这样才能真正达到决策支持的目的. 自己 ...
(多图) 基于并行流水线结构的可重配FIR滤波器的FPGA实现
1 并行流水结构FIR的原理在用FPGA或专用集成电路实现数字信号处理算法时,计算速度和芯片面积是两个相互制约的主要问题.实际应用FIR滤波器时,要获得良好的滤波效果,滤波器的阶数可能会显著增加,有 ...
独家 | 2020年22个广泛使用的数据科学与机器学习工具（附链接）
作者:RAM DEWANI 翻译:欧阳锦校对:陈汉青本文长度为4600字,建议阅读11分钟本文为大家从两个方面--大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具.结合了 ...

流水线Imputer的使用对pima数据进行处理

流水线的处理可以先看一下度娘pima数据的分布情况

对数据进行简单的处理

流水线Imputer的使用对pima数据进行处理相关推荐

最新文章

热门文章

流水线Imputer的使用对pima数据进行处理

流水线的处理 可以先看一下度娘pima数据的分布情况

对数据进行简单的处理

流水线Imputer的使用对pima数据进行处理相关推荐

最新文章

热门文章

流水线的处理可以先看一下度娘pima数据的分布情况