UCI数据集是一个常用的机器学习标准测试数据集。 地址: http://www.ics.uci.edu/~mlearn

以Iris鸢尾花数据集为例:

1.Iris数据集在右边方框【Most Popular Data Sets (hits since 2007)】中第一个。

2.点击Iris数据集,进入该数据集详情页面:

上面是这个数据集的详细信息:多变量数据集,没有缺失值,也许是模式识别文献中最著名的数据集等等,再往下是与该数据集相关的一些论文。

3.回到上面的图片处,左边【Data Folder】是存放该数据集的位置,【Data Set Description】是数据集的描述,点击进入【Data Folder】。

4.该文件夹中有三个文件:【Index】、【iris.data】和【iris.names】(忽略【bezdekIris.data】)。

  • Index为文件夹目录,列出了本文件夹里的所有文件。如iris中index的内容如下:
    Index of iris
    02 Dec 1996 105 Index
    08 Mar 1993 4551 iris.data
    30 May 1989 2604 iris.names
  • iris.data为iris数据文件,内容如下:
    5.1,3.5,1.4,0.2,Iris-setosa
    4.9,3.0,1.4,0.2,Iris-setosa
    4.7,3.2,1.3,0.2,Iris-setosa
    ……
    7.0,3.2,4.7,1.4,Iris-versicolor
    6.4,3.2,4.5,1.5,Iris-versicolor
    6.9,3.1,4.9,1.5,Iris-versicolor
    ……
    6.3,3.3,6.0,2.5,Iris-virginica
    5.8,2.7,5.1,1.9,Iris-virginica
    7.1,3.0,5.9,2.1,Iris-virginica
    ……
    如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值(这里即为鸢尾花的种类)。
  • iris.names就是说过的【Data Set Description】,介绍了iris数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等。

4.点击【iris.data】,右键,链接另存为,即可下载该数据集。

5.在Matlab中,我们可以右键点击该文件选择【导入数据】进入可视化界面并加载数据或使用命令【load 文件名】加载数据。建议使用右键方法,因为可以自行选择导入数据的范围。P.S.因为Iris数据集中有字符串,所以我们需要将其替换为数字。

6.至此,我们就可以得到该数据集并使用了!


参考资料:
1. UCI数据集使用

如何使用UCI数据集相关推荐

  1. 《机器学习》课后习题 3.4 选择两个 UCI 数据集,比较 10 折交叉验证法和留 法所估计出的对率回归的错误率.

    参考了han同学的答案,数据集也可在han同学的github上下载. 3.4 选择两个 UCI 数据集,比较 10 折交叉验证法和留 法所估计出的对率回归的错误率. import numpy as n ...

  2. UCI数据集整理(论文常用数据集)

    UCI数据集是一个常用的机器学习标准测试数据集,是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库. UCI数据集作为标准测试数据集经常出现在 ...

  3. UCI 数据集 - http://www.mafutian.net/180.html

    [摘要]常用的知名uci数据集主要包括四种:Iris,Wine,Soybean,Zoo,已知这四类数据集聚类结果可靠,并取得一致见意,适合做聚类分析的基准数据集.本文简要介绍这四类数据集. 首先,简绍 ...

  4. 基于机器学习的心脏病预测方法(2)——Heart Disease UCI数据集可视化介绍

    目录 1.基础介绍 2.数据集结构和描述 3.检查缺失数据 4.检查与目标数据的相关性 5.分析taget分类是否平衡 6.不同性别心脏病发病率可视化 7.不同年龄段心脏病发病率可视化 8.根据空腹血 ...

  5. uci数据集_干货收藏!三大领域常用十大开源数据集

    全文共1144字,预计学习时长2分钟 机器学习的研究与实现离不开大数据.知晓通用的开源数据集,一方面可以验证自己算法,另一方面也可以与其他算法进行比较.本文介绍了计算机视觉.自然语言处理和语音识别三大 ...

  6. uci数据集_数据分析找不到数据集?快来看这个盘点

    前言 数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半.但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验.因而找到合适的数据集是一件很难的事情,接下来我们就盘 ...

  7. uci数据集_有关葡萄酒质量的数据分析

    将会使用NumPy . Pandas 以及 Matplotlib 做具体分析. 一.数据来源 来自 UCI 机器学习实验室的葡萄酒质量数据集: Wine Quality Data Set​archiv ...

  8. 数据挖掘:MATLAB决策树(采用UCI数据集的wine数据),并绘图,图在最后

    暑期没有事情干,寻思学学数据挖掘,本篇博客也是我初学MATLAB情况下写的(代码可直接放在一个文件里). 一方面我想加深自己的理解,另一方面希望可以给使用MATLAB并学习决策树而感到无法下手的读者一 ...

  9. 基于机器学习的心脏病预测方法(1)——心脏病及Heart Disease UCI数据集介绍

    目录 一.前言 二.影响心脏病发病因子介绍 三.数据集介绍 一.前言 疾病预测研究方法,必须要在实践中检验才能更符合实际的应用.目前,预测疾病的模型很多,但是对于特定的疾病,不同的模型结构和参数选择, ...

最新文章

  1. python正则表达式(三)
  2. 嵌入式linux支持python,【python】嵌入式设备上python的使用
  3. 自动化测试基础篇--Selenium框架设计(POM)
  4. Gumbel-Softmax Trick和Gumbel分布 附VAE讲解
  5. linux sed p变量,Linux sed 命令详解系列教程之各种问题解决
  6. [深度学习] 分布式Tensorflow 2.0 介绍(二)
  7. php5.3教程,Php 5.3发布
  8. thinkphp导航高亮的方法
  9. JavaScript继承详解
  10. Asp.net Mvc+MongoDB+Autofac等打造轻量级blog系统(二)
  11. Dump获取和分析工具简介
  12. mysql各版本jar包下载
  13. 2019年信息系统项目管理师考试时间
  14. 积分专题笔记-曲线面积分三大公式
  15. 小白必看:IT转行需要注意什么,这几个问题很重要
  16. 我知道很多主播因为以前因为公会的名声不太好,或者不想签约被束缚等原因
  17. word表格中 英文排版
  18. mpvue利用painter生成海报
  19. 【阿里聚安全·安全周刊】战斗民族黑客入侵德国政府|“猫脸识别”门禁
  20. 基于MaxCompute的热门话题分析笔记

热门文章

  1. BMW专注研发、5年累计超50亿欧元
  2. module.exports 与 exports.xxx 的区别
  3. 通过网络安装CentOs7
  4. 高分屏、分辨率、DPI、PPI,及 Qt 处理高分屏
  5. Java接口及接口继承
  6. google glog介绍与使用
  7. Java项目:springboot私人牙医管理系统
  8. U盘制作-BGA焊接练习
  9. 聊聊Java中的TLAB
  10. 虚幻——动画蓝图、状态机制作人物走跑跳动作