机器学习常用数据处理

一，自定义数据样本

from sklearn import datasets
import matplotlib.pyplot as plt# create customized data，noise 表示的是离散的程度
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=10)
plt.scatter(X,y)
plt.show()

二，常用实验数据汇总

from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.datasets import load_diabetes
from sklearn.datasets import load_digits
from sklearn.datasets import load_linnerud
from sklearn.datasets import load_wine
from sklearn.datasets import load_breast_canneriris=load_iris()
iris_X=iris.data
iris_Y=iris.target
shape=iris.data.shape

三，模型的常用参数

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn import datasetsiris=load_iris()
iris_X=iris.data
iris_Y=iris.targetX_train,X_test,Y_train,Y_test=train_test_split(iris_X,iris_Y,test_size=0.3)
lr=LinearRegression()
lr.fit(X_train,Y_train)print lr.coef_   # [-0.1025279  -0.10673591  0.18254043  0.69219621]
print lr.intercept_ # 0.4061787783812755
print lr.get_params()   # {'copy_X': True, 'normalize': False, 'n_jobs': None, 'fit_intercept': True}
print lr.score(iris_X,iris_Y)# 0.9293519985342178

四，标准化数据

归一化（Normalization）:把数变为（0，1）之间的小数,主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内.一般方法是最小-最大规范的方法： (x-min(x))/(max(x)-min(x)),

from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classificationimport matplotlib.pyplot as plt
import numpy as np
from sklearn.svm import SVC# NormalizationX,y=make_classification(n_samples=300,n_features=2,n_redundant=0,n_informative=2,random_state=22,n_clusters_per_class=1,scale=100)
preprocessing.scale(X)  # its 0.44 if commented,else its 0.51
X_train,X_test,Y_train,Y_test=train_test_split(X,y,test_size=0.3)clf=SVC()
clf.fit(X_train,Y_train)
print clf.score(X_test,Y_test)

机器学习常用数据处理相关推荐

sklearn机器学习常用数据处理总结
数据才是王道→数据预处理与数据集构建 from IPython.display import Image %matplotlib inline # Added version check for re ...
机器学习常用激活函数
机器学习常用激活函数摘要: 激活函数就是神经网络输出端的一个节点,来连接两个神经网络.本文主要介绍激活函数的功能以及激活函数类型. 什么是激活函数? 激活函数就是神经网络输出端的一个节点,来连接两个 ...
HiveSQL常用数据处理语句
HiveSQL运行优化参数配置 HiveSQL常用数据处理语句 HiveSQL中复杂数据类型操作 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 ...
sklearn机器学习常用过程总结
由于前面对sklearn或多或少接触了一下,但是不深入,随着最近学习,我下面介绍一下机器学习常用过程. 1. 加载数据集 scikit-learn中自带了一些数据集,比如说最著名的Iris数据集. 数 ...
cfile read 最大读取限制_pandas读取表格后的常用数据处理操作
作者丨Sp4rkW来源丨凹凸数据大家好,我是Sp4rkW今天给大家讲讲pandas读取表格后的一些常用数据处理操作.这篇文章其实来源于自己的数据挖掘课程作业,通过完成老师布置的作业,感觉对于使用pyt ...
【计算机视觉】计算机视觉、模式识别、机器学习常用牛人主页链接
计算机视觉.模式识别.机器学习常用牛人主页链接牛人主页(主页有很多论文代码) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexe ...
机器学习——常用算法的总结
机器学习常用算法总结机器学习--常用算法的总结学习方式一.监督式学习: 1.分类 2.回归补充--线性回归与逻辑回归二.非监督式学习: 三.半监督式学习: 四.强化学习: 算法类似性一.回 ...
机器学习常用模型:决策树_fairmodels：让我们与有偏见的机器学习模型作斗争
机器学习常用模型:决策树 TL; DR (TL;DR) The R Package fairmodels facilitates bias detection through model visual ...
《统计学习方法》读书笔记——机器学习常用评价指标
传送门 <统计学习方法>读书笔记--机器学习常用评价指标 <统计学习方法>读书笔记--感知机(原理+代码实现) <统计学习方法>读书笔记--K近邻法(原理+代码实现 ...

机器学习常用数据处理

一，自定义数据样本

二，常用实验数据汇总

三，模型的常用参数

四，标准化数据

机器学习常用数据处理相关推荐

最新文章

热门文章