来学英语
sklearn中的imputation处理缺失值

import numpy as np
import pandas as pd

df = pd.read_csv(r"F:\Python\pythonProject\jupyter notebook\self-studying\100Days\100-Days-Of-ML-Code-master\datasets\Data.csv",encoding="utf-8")
df
X = df.iloc[:,:-1].values
Y = df.iloc[ : ,3].values
X
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan,strategy = "mean")
X[:,1:3] = imputer.fit(X[ : , 1:3])

这里sklearn中有处理缺失值的方法imputition,一些插补方法,有需要去看文档。

Step 4:Encoding categorical data

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0])

creating a dummy variable
创建哑变量 我们通常会将原始的多分类变量转化为哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,通过构建回归模型,每一个哑变量都能得出一个估计的回归系数,从而使得回归的结果更易于解释,更具有实际意义。

onehotencoder = OneHotEncoder()    #独热码,方便分类
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

Step 5: splitting the datasets into traning sets and Test sets

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)   #划分数据集

step 6:Feature Scaling

from sklearn.preprocessing import StandardScaler   #标准化
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
Y_train = sc_X.fit_transform(X_test)

第一天就是处理数据集,注意的就是missing values的插补方法更新了许多。

100Days-ML --- Day1相关推荐

  1. 期货ML策略(一)数据获取

    最近要开始研究期货上的机器学习(Machine Learning)策略了.相信关注我的朋友已经多多少少知道一些有关机器学习的基础知识了,对于机器学习的基础知识我这边不会介绍,只会简单的提一下,不懂的朋 ...

  2. 【GDD】2018 Google 开发者大会 Day1 记录

    2018 谷歌开发者大会 时间:2018年 9月 20日 - 21日 地点:上海世博中心 报名渠道:Google开发者 微信公众号 费用:免费 复制代码 行程安排 2天行程,12个主题,60次演讲 复 ...

  3. ELK搜索学习笔记--Day1

    ELK搜索学习笔记–Day1 1. 课程简介 1.1 课程内容 ELK是包含但不限于Elasticsearch(简称es).Logstash.Kibana 三个开源软件的组成的一个整体.这三个软件合成 ...

  4. TVM 高效保护隐私 ML

    TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速.关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻 ...

  5. ML Pipelines管道

    ML Pipelines管道 In this section, we introduce the concept of ML Pipelines. ML Pipelines provide a uni ...

  6. Auto ML自动特征工程

    Auto ML自动特征工程 特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...

  7. Auto ML自动调参

    Auto ML自动调参 本文介绍Auto ML自动调参的算法介绍及操作流程. 操作步骤 登录PAI控制台. 单击左侧导航栏的实验并选择某个实验. 本文以雾霾天气预测实验为例. 在实验画布区,单击左上角 ...

  8. Amazon SageMaker和NVIDIA NGC加速AI和ML工作流

    Amazon SageMaker和NVIDIA NGC加速AI和ML工作流 从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业.但是,开发和部署AI应用程序是一项具有挑战性的工作.该过 ...

  9. ml不是内部或外部命令_美国飞机制造商波音公司采用VR技术训练宇航员 ; Snap Lens Studio推出支持自定义ML驱动的Snapchat镜头...

    看日报是个好习惯!  Valve宣布为Steam开发者推出OpenXR预览版本,支持跨平台VR/AR内容开发  Valve在为Steam游戏开发人员迎接OpenXR面世的准备方面迈出了重要的一步,开发 ...

  10. spark ml中一个比较通用的transformer

    spark ml中有许多好用的transformer,很方便用来做特征的处理,比如Tokenizer, StopWordsRemover等,具体可参看文档:http://spark.apache.or ...

最新文章

  1. 使用VS.NET2003编写存储过程
  2. 【mysql】sql查询速度不变?不同数据量下,查询速度不会变化的问题
  3. SQL Server 2008如何进行数据库同步?
  4. 修改zabbix后台登录账号和密码,提升为超级管理员
  5. Excel电子表格的使用技巧!很实用
  6. hdu1196 Lowest Bit
  7. 牛客网_PAT乙级_1029有几个PAT(25)【输入字符串并strlen计算长度】
  8. 【Elasticsearch】解决Elasticsearch HTTP方式查询报SocketTimeoutException的问题 Connection reset by peer
  9. 浏览器的资源并发亲试
  10. Injection with CDI (Part I)
  11. 在html或asp.net中使用FlexPaper
  12. 【Oracle】SQL查询 基本查询语句
  13. php orc 验证码,百度图片识别orc实现普通验证码识别
  14. Mysql报错130_Mysql报错Forcing close of thread 139 user: 'root'
  15. 瓷片电容、钽电容、电解电容区别---电源设计中的去耦电容应用实例
  16. 模型转换、压缩、加速工具
  17. 【开源库分享】雷电模拟器自动化操作库 C#版本
  18. password_hash/password_verify/(JAVA)
  19. 网络安全的威胁与解决方案
  20. 为什么越来越多的大卖选择独立站?

热门文章

  1. 直播预告 | ICLR专场二
  2. SuperOneClick
  3. shopnc 实现手机、邮箱、用户名登录
  4. w3c标准 - html
  5. 鼠标无法唤醒计算机怎么办,win10鼠标无法唤醒睡眠电脑是怎么回事
  6. 基于Labview的信号发生器的设计
  7. 8.51单片机实现跑马灯
  8. 式非git账户密码提交的另外一种方式SSH转ppk
  9. Java script 教程
  10. centos安装aria2c_Centos 7系统安装Aria2c多线程下载工具