机器学习算法基础——机器学习概述
20.数据的划分和介绍
数据集划分
机器学习一般的数据集会划分为两个部分:
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验时使用,用于评估模型是否有效
sklearn数据集划分API
sklearn.model_selection.train_test_split
scikit-learn数据集API介绍
sklearn.datasets
- 加载获取流行数据集
- datasets.load_*()
- 获取小规模数据集,数据包含在datasets里
- datasets.fetch_*(data_home=None)
- 获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/
获取数据集返回的类型
load*和fetch*返回的数据类型datasets.base.Bunch(字典格式)
- data:特征数据数组,是 [n_samples * n_features] 的二维numpy.ndarray 数组
- target:标签数组,是 n_samples 的一维 numpy.ndarray 数组
- DESCR:数据描述
- feature_names:特征名,新闻数据,手写数字、回归数据集没有 target_names:标签名,回归数据集没有
sklearn分类数据集
sklearn.datasets.load_iris() 加载并返回鸢尾花数据集
sklearn.datasets.load_digits() 加载并返回数字数据集
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_splitli = load_iris()# 注意返回值,训练集 train x_train, y_train
# 测试集 test x_test, y_test. 特征值 目标值
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)print("训练集特征值和目标值:", x_train, y_train)
print("测试集特征值和目标值:", x_test, y_test)
用于分类的大数据集
- sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
- subset: 'train'或者'test','all',可选,选择要加载的数据集. 训练集的“训练”,测试集的“测试”,两者的“全部”
- datasets.clear_data_home(data_home=None)
- 清除目录下的数据
sklearn回归数据集
sklearn.datasets.load_boston() 加载并返回波士顿房价数据集
sklearn.datasets.load_diabetes() 加载和返回糖尿病数据集
21.转换器与估计器
想一下之前做的特征工程的步骤?
- 实例化 (实例化的是一个转换器类(Transformer))
- 调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)
sklearn机器学习算法的实现-估计器
在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator,是一类实现了算法的API
1、用于分类的估计器:
- sklearn.neighbors k-近邻算法
- sklearn.naive_bayes 贝叶斯
- sklearn.linear_model.LogisticRegression 逻辑回归
2、用于回归的估计器:
- sklearn.linear_model.LinearRegression 线性回归
- sklearn.linear_model.Ridge 岭回归
机器学习算法基础——机器学习概述相关推荐
- 机器学习算法基础——数据降维
12.数据的降维之特征选择 特征选择 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择 ...
- 机器学习算法基础知识
在我们了解了需要解决的机器学习问题的类型之后,我们可以开始考虑搜集来的数据的类型以及我们可以尝试的机器学习算法.在这个帖子里,我们会介绍一遍最流行的机器学习算法.通过浏览主要的算法来大致了解可以利用的 ...
- python必备基础代码-机器学习算法基础(使用Python代码)
介绍 谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化.-Eric Schmidt(Google董事长) 我们可能生活在人类历 ...
- 机器学习算法基础(使用Python代码)
介绍 谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化.-Eric Schmidt(Google董事长) 我们可能生活在人类历 ...
- 机器学习算法基础之使用python代码
介绍 谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化.-Eric Schmidt(Google董事长) 我们可能生活在人类历 ...
- 机器学习算法_机器学习算法中分类知识总结!
↑↑↑关注后"星标"Datawhale每日干货 & 每月组队学习,不错过Datawhale干货 译者:张峰,Datawhale成员 本文将介绍机器学习算法中非常重要的知识- ...
- svm机器学习算法_SVM机器学习算法介绍
svm机器学习算法 According to OpenCV's "Introduction to Support Vector Machines", a Support Vecto ...
- 机器学习算法_机器学习算法之PCA算法
前言 在机器学习中降维是我们经常需要用到的算法,在降维的众多方法中PCA无疑是最经典的机器学习算法之一,最近准备撸一个人脸识别算法,也会频繁用到PCA,本文就带着大家一起来学习PCA算法. 前置内容 ...
- 机器学习算法基础——决策树和随机深林
32.决策树之信息论基础 决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 猜谁是冠军?假设有32支球队 每猜一 ...
最新文章
- java bean join_spring data jpa 关联join查询出自定义实体java bean的坑
- rtems的GNU(GCC)编译环境配置
- 树莓派3B+功耗测试、初体验、图形化配置树莓派3B+配置方法。Raspberry Pi 3B+测评...
- [jQuery]点击某元素之外触发事件
- Nginx-location配置指南
- java安全编码指南之:死锁dead lock
- 安装sqlserver时“试图执行未经授权的操作“的错误
- [Usaco2007 Demo][BZOJ1628] City skyline
- 热像仪 二次开发 c++_重庆多功能红外线热像仪方案
- css字体及css文本控制
- linux和windows精简版,win7 64/86 超级精简版877MB -三蛋作品
- 给你的Win平板安装ChromeOS系统
- 读npy、pck、nii格式数据集
- 从冬奥会看中国科技:全民感谢的高速摄像机,有何玄机?
- mysql实验考试_正在数据库实验考试,跪求SQL代码
- 计算机运行快是取决什么,电脑速度快慢取决哪个硬件
- 《辛雷学习方法》读书笔记——第三章 身体
- 大学四年我是如何学习程序设计的
- 山东理工acm非专业-顺序结构
- Android 方向感应器实现指南针
热门文章
- c语言课程设计坦克大战,funcodec++课程设计_坦克大战
- flowvisor 命令_mininet+FlowVisor+OpenDayLight环境搭建及实验一
- responsebody如何将数据转换成json的_干货分享:如何用Retrofit直接获得Json数据(字符串)...
- 在计算机术语中 将ALU控制器和,计算机组成原理试题与答案
- mysql datatable_MySQL-数据表操作
- deepfefm 算法思维导图
- python 去除字符串里所有标点符号
- Navicat Premium
- redis 安装后不能使用
- switch手柄可以连电脑吗_电脑可以拍照吗