100Days-ML --- Day1

来学英语
sklearn中的imputation处理缺失值

import numpy as np
import pandas as pd

df = pd.read_csv(r"F:\Python\pythonProject\jupyter notebook\self-studying\100Days\100-Days-Of-ML-Code-master\datasets\Data.csv",encoding="utf-8")
df

X = df.iloc[:,:-1].values
Y = df.iloc[ : ,3].values
X

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan,strategy = "mean")
X[:,1:3] = imputer.fit(X[ : , 1:3])

这里sklearn中有处理缺失值的方法imputition，一些插补方法，有需要去看文档。

Step 4:Encoding categorical data

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0])

creating a dummy variable
创建哑变量我们通常会将原始的多分类变量转化为哑变量，每个哑变量只代表某两个级别或若干个级别间的差异，通过构建回归模型，每一个哑变量都能得出一个估计的回归系数，从而使得回归的结果更易于解释，更具有实际意义。

onehotencoder = OneHotEncoder()    #独热码，方便分类
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

Step 5: splitting the datasets into traning sets and Test sets

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)   #划分数据集

step 6:Feature Scaling

from sklearn.preprocessing import StandardScaler   #标准化
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
Y_train = sc_X.fit_transform(X_test)

第一天就是处理数据集，注意的就是missing values的插补方法更新了许多。

100Days-ML --- Day1相关推荐

期货ML策略(一)数据获取
最近要开始研究期货上的机器学习(Machine Learning)策略了.相信关注我的朋友已经多多少少知道一些有关机器学习的基础知识了,对于机器学习的基础知识我这边不会介绍,只会简单的提一下,不懂的朋 ...
【GDD】2018 Google 开发者大会 Day1 记录
2018 谷歌开发者大会时间:2018年 9月 20日 - 21日地点:上海世博中心报名渠道:Google开发者微信公众号费用:免费复制代码行程安排 2天行程,12个主题,60次演讲复 ...
ELK搜索学习笔记--Day1
ELK搜索学习笔记–Day1 1．课程简介 1.1 课程内容 ELK是包含但不限于Elasticsearch(简称es).Logstash.Kibana 三个开源软件的组成的一个整体.这三个软件合成 ...
TVM 高效保护隐私 ML
TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速.关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻 ...
ML Pipelines管道
ML Pipelines管道 In this section, we introduce the concept of ML Pipelines. ML Pipelines provide a uni ...
Auto ML自动特征工程
Auto ML自动特征工程特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...
Auto ML自动调参
Auto ML自动调参本文介绍Auto ML自动调参的算法介绍及操作流程. 操作步骤登录PAI控制台. 单击左侧导航栏的实验并选择某个实验. 本文以雾霾天气预测实验为例. 在实验画布区,单击左上角 ...
Amazon SageMaker和NVIDIA NGC加速AI和ML工作流
Amazon SageMaker和NVIDIA NGC加速AI和ML工作流从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业.但是,开发和部署AI应用程序是一项具有挑战性的工作.该过 ...
ml不是内部或外部命令_美国飞机制造商波音公司采用VR技术训练宇航员； Snap Lens Studio推出支持自定义ML驱动的Snapchat镜头...
看日报是个好习惯! Valve宣布为Steam开发者推出OpenXR预览版本,支持跨平台VR/AR内容开发 Valve在为Steam游戏开发人员迎接OpenXR面世的准备方面迈出了重要的一步,开发 ...
spark ml中一个比较通用的transformer
spark ml中有许多好用的transformer,很方便用来做特征的处理,比如Tokenizer, StopWordsRemover等,具体可参看文档:http://spark.apache.or ...

100Days-ML --- Day1

100Days-ML --- Day1相关推荐

最新文章

热门文章