流水线的处理 可以先看一下度娘pima数据的分布情况

对数据进行简单的处理

#手动添加列的标题
pima_column_names=["Pregnancies","Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age","Outcome"]
pima=pd.read_csv("pima.data",names=pima_column_names)
#处理缺失值
items=["Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age"]
#这里因为里面的数据集是0 0 是利用pima.isnull().sum是检测不出来的 为了方便看到空值情况
for item in items:pima[item]=pima[item].map(lambda x:x if x!=0 else None)

最后一步组装流水 流水的作用就是生成一条自动化的通道 这里最重要的一点参数的设置具体看代码

#填补缺失值  策略  有三种 删除
from sklearn.pipeline import Pipeline  #导入流水
from sklearn.preprocessing import Normalizer #引入归一化
from sklearn.preprocessing import StandardScaler #标准化数据
from sklearn.model_selection import GridSearchCV #网格搜素 找出最优的参数
from sklearn.neighbors import KNeighborsClassifier #K近邻算法
from sklearn.preprocessing import Imputer  #缺失值的处理
#注意这里的参数  这里的参数classify__n_neighbors 这里前面classify是流水线里面是自己定义的名子
knn_params={"classify__n_neighbors":[1,2,3,4,5,6,7],"imputer__strategy":["mean","median","most_frequent"],"standardize__norm":["l1","l2","max"]}
imputer=Imputer()#处理缺失值
scaler=StandardScaler()#标准化数据
knn=KNeighborsClassifier()#实例化Knn算法
#组装流水  先进行数据填充--》  设定范围 也就是特征的选择 -->选择算法的模型
mean_imputer_pipline=Pipeline( [("imputer",imputer),('standardize',scaler),("classify",knn)]  )
#对每一个数据进行
X=pima.drop("Outcome",axis=1)
y=pima["Outcome"]
#遂于建立得网格模型进行暴力搜素
grid=GridSearchCV(mean_imputer_pipline,knn_params)
grid.fit(X,y)
print("最好的参数性能",grid.best_params_)
print("最好的性能",grid.best_score_)

其实流水线就是为了将一段一段的操作结合到一起来 Pipline里面的参数一定要是一个学习器 也就是必须要有fit和tranform的方法所以子集写的函数要加入流水中一定要实现对一个类的继承实现这些方法才能加入到流水,由于流水线中的各个生成器和学习器会有多个参数于是最好是利用网格搜素来找到最优的参数

流水线Imputer的使用对pima数据进行处理相关推荐

  1. 【机器学习】Pima数据探索--七种武器

    七种理解数据的方法 简单查看数据 审查数据的维度 审查数据的类型和属性 总结查看数据分类的分布情况 统计分析数据 理解数据属性的相关性 审查数据的分布情况 # 简单查看数据 from pandas i ...

  2. 自己动手写CPU(2)流水线数据相关问题

    自己动手写CPU(2)流水线数据相关问题 问题定义 流水线中经常有一些被称为"相关"的情况发生,它使得指令序列中下一条指令无法按照设计的时钟周期执行,这些"相关" ...

  3. PiFlow v0.5 发布:大数据流水线系统

    开发四年只会写业务代码,分布式高并发都不会还做程序员?   PiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统.该系统将数据的采集.清洗.计算.存储等各个环节封装成组件,以所见即所得 ...

  4. neo4j图数据库:结构化数据流水线、非结构化数据流水线

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...

  5. 深入浅出:数据流水线管理(上)

    在绝大部分企业的数据中台建设中,数据流水线的建设都是核心工作之一.数据流水线系统承担着将数据从原始形态转换到用户与业务应用可以直接使用的形态的整个过程.在绝大多数时候,这些工作必须是自动且高度可靠的, ...

  6. 如何在golang中关闭bufio.reader_Golang 并发模型系列:1. 轻松入门流水线模型

    Go语言中文网,致力于每日分享编码.开源等知识,欢迎关注我,会有意想不到的收获! Golang作为一个实用主义的编程语言,非常注重性能,在语言特性上天然支持并发,它有多种并发模型,通过流水线模型系列文 ...

  7. 关于数据仓库数据质量的问题处理

    ETL 是数据仓库的最重要的基础,良好的 ETL 从业务系统中抽取数据,转换数据质量,保证数据一致性,这样才能够保证各个独立的不同的数据源能够集成到一起,最终只有这样才能真正达到决策支持的目的. 自己 ...

  8. (多图) 基于并行流水线结构的可重配FIR滤波器的FPGA实现

    1 并行流水结构FIR的原理 在用FPGA或专用集成电路实现数字信号处理算法时,计算速度和芯片面积是两个相互制约的主要问题.实际应用FIR滤波器时,要获得良好的滤波效果,滤波器的阶数可能会显著增加,有 ...

  9. 独家 | 2020年22个广泛使用的数据科学与机器学习工具(附链接)

    作者:RAM DEWANI 翻译:欧阳锦 校对:陈汉青 本文长度为4600字,建议阅读11分钟 本文为大家从两个方面--大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具.结合了 ...

最新文章

  1. Linux系统16进制形式查看二进制文件
  2. java 捕获数据包,缓存从pcap捕获的数据包
  3. redis-查看日志
  4. 基于事件驱动架构构建微服务第4部分:repositories
  5. KR C与ANSI C
  6. 大数据是国家目前急需的技术领域
  7. C/C++语言课程设计任务书
  8. 【自学笔记】基于R语言的copula函数重现期等值线绘制
  9. Win11系统安装 WSA
  10. java解压服务器文件夹,java解压7z文件
  11. spss和python什么区别_资深大牛:Python、R语言、SAS、SPSS优缺点比较
  12. STM32-GPIO的配置和使用
  13. Android Notification使用
  14. 渲染书籍目录汇总(不断更新中...)
  15. sh股票是什么意思?
  16. 通过CMD命令重启服务器
  17. 住房公积金联名卡密码修改步骤
  18. Java面试复习提纲
  19. 【计算机视觉】关于用opencv 设置摄像头读分辨率问题的若干说明
  20. Expected binary or unicode string, got 3

热门文章

  1. 小学创客课程教学设计
  2. LaTeX技巧006:使用不同的英文字体
  3. php 字节码查看,PHP-7.1 源代码学习:字节码在 Zend 虚拟机中的解释执行 之 概述...
  4. 淘宝双十二/1212任务自动助手脚本,自动完成任务领取淘金币奖励
  5. php 有必要学dede吗,浅谈{dede:php}{/dede:php}的具体用法
  6. python listdir 共享目录 认证_Python使用os.listdir()和os.walk()获取文件路径与文件下所有目录的方法...
  7. 运用spss modeler运用支持向量机_(科研工具合集之①)SPSS安装以及下载方式
  8. centos 6.5使用 360WiFi2 无线模块
  9. 多线程从服务器下载图片
  10. 从p_json中获得register和index序号的关系