机器学习常用数据处理
一,自定义数据样本
from sklearn import datasets
import matplotlib.pyplot as plt# create customized data,noise 表示的是离散的程度
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=10)
plt.scatter(X,y)
plt.show()
二,常用实验数据汇总
from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.datasets import load_diabetes
from sklearn.datasets import load_digits
from sklearn.datasets import load_linnerud
from sklearn.datasets import load_wine
from sklearn.datasets import load_breast_canneriris=load_iris()
iris_X=iris.data
iris_Y=iris.target
shape=iris.data.shape
三,模型的常用参数
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn import datasetsiris=load_iris()
iris_X=iris.data
iris_Y=iris.targetX_train,X_test,Y_train,Y_test=train_test_split(iris_X,iris_Y,test_size=0.3)
lr=LinearRegression()
lr.fit(X_train,Y_train)print lr.coef_ # [-0.1025279 -0.10673591 0.18254043 0.69219621]
print lr.intercept_ # 0.4061787783812755
print lr.get_params() # {'copy_X': True, 'normalize': False, 'n_jobs': None, 'fit_intercept': True}
print lr.score(iris_X,iris_Y)# 0.9293519985342178
四,标准化数据
归一化(Normalization):把数变为(0,1)之间的小数,主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内.一般方法是最小-最大规范的方法: (x-min(x))/(max(x)-min(x)),
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classificationimport matplotlib.pyplot as plt
import numpy as np
from sklearn.svm import SVC# NormalizationX,y=make_classification(n_samples=300,n_features=2,n_redundant=0,n_informative=2,random_state=22,n_clusters_per_class=1,scale=100)
preprocessing.scale(X) # its 0.44 if commented,else its 0.51
X_train,X_test,Y_train,Y_test=train_test_split(X,y,test_size=0.3)clf=SVC()
clf.fit(X_train,Y_train)
print clf.score(X_test,Y_test)
机器学习常用数据处理相关推荐
- sklearn机器学习常用数据处理总结
数据才是王道→数据预处理与数据集构建 from IPython.display import Image %matplotlib inline # Added version check for re ...
- 机器学习常用激活函数
机器学习常用激活函数 摘要: 激活函数就是神经网络输出端的一个节点,来连接两个神经网络.本文主要介绍激活函数的功能以及激活函数类型. 什么是激活函数? 激活函数就是神经网络输出端的一个节点,来连接两个 ...
- HiveSQL常用数据处理语句
HiveSQL运行优化参数配置 HiveSQL常用数据处理语句 HiveSQL中复杂数据类型操作 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 ...
- sklearn机器学习常用过程总结
由于前面对sklearn或多或少接触了一下,但是不深入,随着最近学习,我下面介绍一下机器学习常用过程. 1. 加载数据集 scikit-learn中自带了一些数据集,比如说最著名的Iris数据集. 数 ...
- cfile read 最大读取限制_pandas读取表格后的常用数据处理操作
作者丨Sp4rkW来源丨凹凸数据大家好,我是Sp4rkW今天给大家讲讲pandas读取表格后的一些常用数据处理操作.这篇文章其实来源于自己的数据挖掘课程作业,通过完成老师布置的作业,感觉对于使用pyt ...
- 【计算机视觉】计算机视觉、模式识别、机器学习常用牛人主页链接
计算机视觉.模式识别.机器学习常用牛人主页链接 牛人主页(主页有很多论文代码) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexe ...
- 机器学习——常用算法的总结
机器学习常用算法总结 机器学习--常用算法的总结 学习方式 一.监督式学习: 1.分类 2.回归 补充--线性回归与逻辑回归 二.非监督式学习: 三.半监督式学习: 四.强化学习: 算法类似性 一.回 ...
- 机器学习常用模型:决策树_fairmodels:让我们与有偏见的机器学习模型作斗争
机器学习常用模型:决策树 TL; DR (TL;DR) The R Package fairmodels facilitates bias detection through model visual ...
- 《统计学习方法》读书笔记——机器学习常用评价指标
传送门 <统计学习方法>读书笔记--机器学习常用评价指标 <统计学习方法>读书笔记--感知机(原理+代码实现) <统计学习方法>读书笔记--K近邻法(原理+代码实现 ...
最新文章
- ubuntu使用相关
- css 命名规范 BEM
- rsyslog服务日志报错分析1
- 关于vector的size()的使用问题
- 分苹果(信息学奥赛一本通-T1081)
- 服务器位置控制怎么找原点,伺服控制为什么要进行原点回归?怎样实现原点回归?...
- jpg怎么合成一份_海外商标注册申请程序复杂吗?应该怎么注册?
- idea前进和后退快捷键_PR快捷键大全(喜欢记得收藏!)
- 数学猜想验证步骤_高考数学19种答题方法,数学130+必备技能,附解题技巧word版!...
- 清华大学团队:人脸识别爆出巨大丑闻,15分钟解锁19款手机
- 2021年REITs行业发展研究报告
- 一键调整PCB丝印,超级好用
- python查询12306余票_Python爬虫----12306火车票余票查询器
- 【送你一张门票】七牛云带你去看杭州云栖大会
- 虚拟机Ubuntu不能识别外接U盘
- 【开发日志-已归档】2021-07
- 【论文泛读】Multi-modal Sarcasm Detection and Humor Classification in Code-mixed Conversations
- # CF765F Souvenirs
- C运算符优先级完整口诀
- lammps案例:团簇融化过程模拟案例学习
热门文章
- [答疑]类图:支付手段和优惠券、金额、积分有关
- ajax angular点击事件_angularjs和ajax的结合使用 (三)
- ExcelVBA批量添加PDF文件
- mongodb可视化工具 mac版 Studio 3T破解
- 刷题-洛谷-P1179 数字统计
- 周报-暑假留校第三份
- Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案
- java 算出下一个工作日_如何计算JAVA中两个不同日期之间的工作日(不包括周末)?...
- vue-awesome-swiper 传参控制滑动位置 滚动位置 slideTo 备注防止后期忘记
- 《计算机寓言 - 信息时代的启示》(转载)