UCI机器学习数据库的网址:http://archive.ics.uci.edu/ml/

数据库不断更新,是所有学习人工智能、机器学习等都需要用到的数据库,是看文章、写论文、测试算法的必备数据集。数据库种类涉及生活、工程、科学各个领域,记录数也是从少到多,最多达几十万条。

UCI数据可以使用Matlab的dlmreadtextread读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。

dlmread和textread的用法详见Matlab帮助。

每个数据文件(*.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的*.info文件包含的大量的文档资料 。(有些文件_generate_ databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。

地址 http://www.ics.uci.edu/~mlearn/MLRepository.html,这里的UCI数据集可以看作是通过web的远程拷贝。作为选择,这些数据同样可以通过ftp获得,地址为:ftp://ftp.ics.uci.edu可是使用匿名登陆ftp,在pub/machine-learning-databases目录中找到。

注意:
UCI一直都在寻找可加入的新数据,这些数据将被写入incoming子目录中。希望您能贡献您的数据,并提供相应的文档。谢谢——贡献过程可以参考DOC-REQUIREMENTS文件。目前,多数数据使用下面的格式 :一个实例一行,没有空格,属性值之间使用逗号“,”隔开,并且缺少的值使用问号“?”表示。并请在做出您的贡献后提醒一下站点管理员:ml-repository@ics.uci.edu

下面以UCI中IRIS为例介绍一下数据集

ucidata\iris中有三个文件:
Index
iris.data
iris.names

index为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下:
Index of iris
18 Mar 1996     105 Index
08 Mar 1993     4551 iris.data
30 May 1989     2604 iris.names

iris.data为iris数据文件,内容如下:
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
……
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
……
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
……
如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-setosa

iris.names介绍了irir数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等,如下所示部分:
……
7. Attribute Information:
   1. sepal length in cm
   2. sepal width in cm
   3. petal length in cm
   4. petal width in cm
   5. class: 
      -- Iris Setosa
      -- Iris Versicolour
      -- Iris Virginica
……
9. Class Distribution: 33.3% for each of 3 classes.

本数据的使用实例请参考其他论文,或本站后面的内容。

UCI数据库使用说明相关推荐

  1. UCI机器学习数据库使用说明

    UCI机器学习数据库的网址:      http://archive.ics.uci.edu/ml/ 数据库不断更新至2010年,是所有学习人工智能都需要用到的数据库,是看文章.写论文.测试算法的必备 ...

  2. cosmic数据库使用说明_使用Cosmic JS为React + Next.js博客提供动力

    cosmic数据库使用说明 TLDR: Cosmic JS为博客提供了出色的后端. 它是功能齐全的内容管理系统(CMS),具有直观的用户界面,非技术客户可以使用该界面来管理其站点内容. 请点击以下链接 ...

  3. mysql 检索操作时间段_postgresql数据库使用说明_实现时间范围查询

    按照日期查询通常有好几种方法: 按照日期范围查询有好几种方法,日期字段类型一般为: Timestamp without timezone 方法一: select * from user_info wh ...

  4. 四通畜牧数据库使用说明

    欢迎使用四通畜牧数据库 本系统编辑器使用cms修改而来,用它管理进销存,将会带来全新的体验哦: 1.入库使用:使用前需将供应商名称.商品名称基础资料进行完善.(必要选项) 2.出库使用:使用前需将客户 ...

  5. DDSM数据库使用说明

    一.官网下载 我们的下载工具是winscp软件,该软件可以用于远程ftp下载. 首先,在网上搜索安装包进行下载安装. 安装之后,打开软件. 选择ftp,输入DDSM网址,匿名登录. 等待连接以后,就可 ...

  6. NIST原子光谱数据库使用说明

    目录 一.简单使用 二.高级使用 图形输出设置 输出高级设置 参考 一.简单使用 做波长标定实验,在校准光谱仪需要最新的氦和汞灯的光谱曲线数据作为参考,数据来源美国国家标准与技术研究院(NIST)的官 ...

  7. 锋云数据服务器管理文件说明书,云端数据库使用说明

    NoteExpress提供云端文献库功能了!云端文献库会自动将题录.笔记及附件同步到云服务器,便于在不同电脑之间同步您的工作. 登录 使用云端文献库,需要在NoteExpress中登录,建议勾选自动登 ...

  8. 独家 | UCI机器学习数据库的Python API介绍

    作者:Tirthajyoti Sarkar 翻译:王雨桐 校对:丁楠雅 本文约2600字,建议阅读9分钟. 本文将带你了解UCI数据库的Python API,通过实际案例拆解并讲解代码. 本文将介绍如 ...

  9. UCI机器学习数据库的Python API介绍

    作者:Tirthajyoti Sarkar:翻译:王雨桐:校对:丁楠雅 本文约2600字,建议阅读9分钟. 本文将带你了解UCI数据库的Python API,通过实际案例拆解并讲解代码. 本文将介绍如 ...

  10. 转:UCI数据集和源代码数据挖掘的数据集资源

    <UCI数据集和源代码> UCI数据集是一个常用的标准测试数据集,下载地址在 http://www.ics.uci.edu/~mlearn/MLRepository.html 我的主页上也 ...

最新文章

  1. matplotlib将图绘制在多福图中
  2. Java8学习之旅2---基于Lambda的JDBC编程
  3. Kubernetes集群监控方案
  4. java 移动支付接口开发,移动支付平台间接口报文解析技术核心架构实现、及平台交易处理项目全程实录教程...
  5. Windows10 将 YOLOX模型转换为OpenVINO需要的IR文件
  6. IO多路复用概念介绍
  7. 心理学上的被动_心理学:骨子里就被动的人,一定会有这5种表现
  8. Qt文件编码转换工具(二) C++判断文件编码
  9. 第三章-电商项目-优化评论分页查询
  10. Cohen-SutherLand算法(编码算法)
  11. PS、AI、Sketch已经老了?这个新生代工具,大家都在偷学!
  12. Windows 95/98虚拟机OS安装说明书[仅限VirtualBox]
  13. jenkins+docker进行coverity检查自动构建
  14. ACL(标准/扩展访问控制列表)
  15. OpenStack基本安装步骤
  16. 博图——HMI中的中英文切换功能
  17. 《智慧政府之路:大数据、云计算、物联网架构应用》
  18. 飞马(PEGASUS):Google最新的摘要汇总模型
  19. 爬虫爬取B站视频封面
  20. select函数作用

热门文章

  1. 客户价值分析:RFM聚类分析原理
  2. 聚类分析原理(动图演示)
  3. 希捷DM002-500G固件问题解决方法
  4. 如何有效的阅读开源代码
  5. 宾馆客房管理系统-vue前端开发
  6. Opengl ES系列学习--点亮世界
  7. java 8 list to map_Java8中list转map
  8. C语言入门常见的代码
  9. python实现类似于visio_Visio类似的高性价比的替代软件
  10. mac配置adb环境变量