如何使用UCI数据集
UCI数据集是一个常用的机器学习标准测试数据集。 地址: http://www.ics.uci.edu/~mlearn
以Iris鸢尾花数据集为例:
1.Iris数据集在右边方框【Most Popular Data Sets (hits since 2007)】中第一个。
2.点击Iris数据集,进入该数据集详情页面:
上面是这个数据集的详细信息:多变量数据集,没有缺失值,也许是模式识别文献中最著名的数据集等等,再往下是与该数据集相关的一些论文。
3.回到上面的图片处,左边【Data Folder】是存放该数据集的位置,【Data Set Description】是数据集的描述,点击进入【Data Folder】。
4.该文件夹中有三个文件:【Index】、【iris.data】和【iris.names】(忽略【bezdekIris.data】)。
- Index为文件夹目录,列出了本文件夹里的所有文件。如iris中index的内容如下:
Index of iris
02 Dec 1996 105 Index
08 Mar 1993 4551 iris.data
30 May 1989 2604 iris.names - iris.data为iris数据文件,内容如下:
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
……
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
……
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
……
如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值(这里即为鸢尾花的种类)。 - iris.names就是说过的【Data Set Description】,介绍了iris数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等。
4.点击【iris.data】,右键,链接另存为,即可下载该数据集。
5.在Matlab中,我们可以右键点击该文件选择【导入数据】进入可视化界面并加载数据或使用命令【load 文件名】加载数据。建议使用右键方法,因为可以自行选择导入数据的范围。P.S.因为Iris数据集中有字符串,所以我们需要将其替换为数字。
6.至此,我们就可以得到该数据集并使用了!
参考资料:
1. UCI数据集使用
如何使用UCI数据集相关推荐
- 《机器学习》课后习题 3.4 选择两个 UCI 数据集,比较 10 折交叉验证法和留 法所估计出的对率回归的错误率.
参考了han同学的答案,数据集也可在han同学的github上下载. 3.4 选择两个 UCI 数据集,比较 10 折交叉验证法和留 法所估计出的对率回归的错误率. import numpy as n ...
- UCI数据集整理(论文常用数据集)
UCI数据集是一个常用的机器学习标准测试数据集,是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库. UCI数据集作为标准测试数据集经常出现在 ...
- UCI 数据集 - http://www.mafutian.net/180.html
[摘要]常用的知名uci数据集主要包括四种:Iris,Wine,Soybean,Zoo,已知这四类数据集聚类结果可靠,并取得一致见意,适合做聚类分析的基准数据集.本文简要介绍这四类数据集. 首先,简绍 ...
- 基于机器学习的心脏病预测方法(2)——Heart Disease UCI数据集可视化介绍
目录 1.基础介绍 2.数据集结构和描述 3.检查缺失数据 4.检查与目标数据的相关性 5.分析taget分类是否平衡 6.不同性别心脏病发病率可视化 7.不同年龄段心脏病发病率可视化 8.根据空腹血 ...
- uci数据集_干货收藏!三大领域常用十大开源数据集
全文共1144字,预计学习时长2分钟 机器学习的研究与实现离不开大数据.知晓通用的开源数据集,一方面可以验证自己算法,另一方面也可以与其他算法进行比较.本文介绍了计算机视觉.自然语言处理和语音识别三大 ...
- uci数据集_数据分析找不到数据集?快来看这个盘点
前言 数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半.但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验.因而找到合适的数据集是一件很难的事情,接下来我们就盘 ...
- uci数据集_有关葡萄酒质量的数据分析
将会使用NumPy . Pandas 以及 Matplotlib 做具体分析. 一.数据来源 来自 UCI 机器学习实验室的葡萄酒质量数据集: Wine Quality Data Setarchiv ...
- 数据挖掘:MATLAB决策树(采用UCI数据集的wine数据),并绘图,图在最后
暑期没有事情干,寻思学学数据挖掘,本篇博客也是我初学MATLAB情况下写的(代码可直接放在一个文件里). 一方面我想加深自己的理解,另一方面希望可以给使用MATLAB并学习决策树而感到无法下手的读者一 ...
- 基于机器学习的心脏病预测方法(1)——心脏病及Heart Disease UCI数据集介绍
目录 一.前言 二.影响心脏病发病因子介绍 三.数据集介绍 一.前言 疾病预测研究方法,必须要在实践中检验才能更符合实际的应用.目前,预测疾病的模型很多,但是对于特定的疾病,不同的模型结构和参数选择, ...
最新文章
- python正则表达式(三)
- 嵌入式linux支持python,【python】嵌入式设备上python的使用
- 自动化测试基础篇--Selenium框架设计(POM)
- Gumbel-Softmax Trick和Gumbel分布 附VAE讲解
- linux sed p变量,Linux sed 命令详解系列教程之各种问题解决
- [深度学习] 分布式Tensorflow 2.0 介绍(二)
- php5.3教程,Php 5.3发布
- thinkphp导航高亮的方法
- JavaScript继承详解
- Asp.net Mvc+MongoDB+Autofac等打造轻量级blog系统(二)
- Dump获取和分析工具简介
- mysql各版本jar包下载
- 2019年信息系统项目管理师考试时间
- 积分专题笔记-曲线面积分三大公式
- 小白必看:IT转行需要注意什么,这几个问题很重要
- 我知道很多主播因为以前因为公会的名声不太好,或者不想签约被束缚等原因
- word表格中 英文排版
- mpvue利用painter生成海报
- 【阿里聚安全·安全周刊】战斗民族黑客入侵德国政府|“猫脸识别”门禁
- 基于MaxCompute的热门话题分析笔记