一些用于聚类和分类问题的数据集
毕业设计时简单研究了聚类和分类问题,整理了一下用到的数据集,有需要的可以参考一下。。。
聚类数据集信息
序号 | 数据集 | 记录数 | 特征数 | 类别 | 简单分布 | 是否有overlap | 来源 |
---|---|---|---|---|---|---|---|
1 | iris | 150 | 4 | 3 | 50/50/50 | No | UCI |
2 | wine | 178 | 13 | 3 | 59/71/48 | No | UCI |
3 | emotions(music) | 593 | 72 | 6 | 173/166/264/148/168/189 | YES | sourceforge |
4 | yeast | 2417 | 103 | 14 | 混合分布 | YES | sourceforge |
5 | scene | 2407 | 294 | 6 | 427/364/397/433/533/431 | YES | sourceforge |
6 | wdbc | 569 | 30 | 2 | 212/357 | No | UCI |
7 | breasttissue | 106 | 9 | 6 | 21/15/18/16/14/22 | No | UCI |
8 | seeds | 210 | 7 | 3 | 70/70/70 | No | UCI |
9 | glass | 214 | 9 | 6(7) | 70/76/17/13/9/29 | No | UCI |
分类数据集信息
序号 | 数据集 | 记录数 | 特征数 | 类别 | 简单分布 | 是否有缺失值 | 来源 |
---|---|---|---|---|---|---|---|
1 | appendicitis | 106 | 7 | 2 | 21/85 | No | KEEL |
2 | balance | 625 | 4 | 3 | 288/49/288 | No | KEEL,UCI |
3 | banana | 5300 | 2 | 2 | 2924/2376 | No | KEEL |
4 | bands | 365(539) | 19 | 2 | 230/135 | Yes | KEEL,UCI |
5 | bupa | 345 | 6 | 2 | 145/200 | No | KEEL,UCI |
6 | cleveland | 297(303) | 13 | 5 | 160/54/35/35/13 | Yes | KEEL,UCI |
7 | dermatology | 358(366) | 34 | 6 | 111/60/71/48/48/20 | Yes | KEEL,UCI |
8 | haberman | 306 | 3 | 2 | 225/81 | No | KEEL,UCI |
9 | hayes-roth | 160 | 4 | 3 | 65/64/31 | No | KEEL,UCI |
10 | heart | 270 | 13 | 2 | 150/120 | No | KEEL,UCI |
11 | hepatitis | 80(155) | 19 | 2 | 13/67 | Yes | KEEL,UCI |
12 | ionosphere | 351 | 34 | 2 | 225/126 | No | KEEL,UCI |
13 | iris | 150 | 4 | 3 | 50/50/50 | No | KEEL,UCI |
14 | led7digit | 500 | 7 | 10 | 45/37/51/57/52/52/47/57/53/49 | No | KEEL,UCI |
15 | mammographic | 830(961) | 5 | 2 | 427/403 | No | KEEL,UCI |
16 | marketing | 6876(8993) | 13 | 9 | 1255/529/505/618/527/846/784/1069/743 | Yes | KEEL,biolab |
17 | monks2 | 432 | 7 | 2 | 290/142 | No | KEEL,UCI |
18 | movement_libras | 360 | 90 | 15 | 24/…/24 | No | KEEL,UCI |
19 | newthyroid | 215 | 5 | 3 | 150/35/30 | No | KEEL,UCI |
20 | pageblocks | 5473 | 10 | 5 | 4913/329/28/88/115 | No | KEEL,UCI |
21 | penbased | 10092 | 16 | 10 | … | No | KEEL,UCI |
22 | phoneme | 5404 | 5 | 2 | 3818/1586 | No | KEEL,UCL |
23 | pima | 768 | 8 | 2 | 500/268 | No | KEEL,UCI |
24 | ring | 7400 | 20 | 2 | 3664/3736 | No | KEEL,UTO |
25 | satimage | 6435 | 36 | 7 | 1533/703/1358/626/707/0/1508 | No | KEEL,UCI |
26 | segment | 2310 | 19 | 7 | 330/…/330 | No | KEEL,UCI |
27 | sonar | 208 | 60 | 2 | 97/111 | No | KEEL,UCI |
28 | spambase | 4597(4601) | 57 | 2 | 2788/1813 | Yes | KEEL,UCI |
29 | spectfheart | 267 | 44 | 2 | 55/212 | No | KEEL,UCI |
30 | tae | 151 | 5 | 3 | 49/50/52 | No | KEEL,UCI |
31 | texture | 5500 | 40 | 11 | 500/…/500 | No | KEEL,UCL |
32 | thyroid | 7200 | 21 | 3 | 166/368/6666 | No | KEEL,UCI |
33 | titanic | 2201 | 3 | 2 | 1490/711 | No | KEEL,TOR |
34 | twonorm | 7400 | 20 | 2 | 3703/3697 | No | KEEL,UTO |
35 | vehicle | 846 | 18 | 4 | 212/218/199/217 | No | KEEL,UCI |
36 | vowel | 990 | 13 | 11 | 90/…/90 | No | KEEL,UCI |
37 | wdbc | 569 | 30 | 2 | 212/357 | No | UCI |
38 | wine | 178 | 13 | 3 | 59/71/48 | No | UCI |
39 | winequality-red | 1599 | 11 | 11 | 10/53/681/638/199/18 | No | KEEL,UCI |
40 | wisconsin | 683(699) | 9 | 2 | 444/239 | No | KEEL,UCI |
一些用于聚类和分类问题的数据集相关推荐
- 【论文简读】Diffusion Kernel Attention Network for Brain Disorder Classification用于脑疾病分类的扩散核注意力网络
期刊:MIA 2022 early accept 作者:Jianjia Zhang, Luping Zhou, Lei Wang, Mengting Liu and Dinggang Shen 摘要 ...
- 【Java应用】使用Java实现机器学习算法:聚类、分类、预测
一.引言 1.机器学习算法概述 机器学习是一种人工智能技术,旨在通过使用数据和统计分析来让计算机系统自动改进性能.机器学习算法可分为三大类:聚类.分类和预测.聚类算法用于将数据集分成不同的群组:分类算 ...
- SCS【7】单细胞转录组之轨迹分析 (Monocle 3) 聚类、分类和计数细胞
点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...
- 推荐引擎算法学习导论:协同过滤、聚类、分类(2011年旧文)
推荐引擎算法学习导论:协同过滤.聚类.分类 作者:July 出处:结构之法算法之道 引言 昨日看到几个关键词:语义分析,协同过滤,智能推荐,想着想着便兴奋了.于是昨天下午开始到今天凌晨3点,便研究了一 ...
- 姜敬哲/孙燕妮/原丽红合作开发可用于病毒快速分类的工具PhaGCN2
南海水产研究所姜敬哲团队.香港城市大学孙燕妮团队.广东药科大学原丽红合作开发的可用于病毒快速分类生信工具 使用PhaGCN2对病毒基因组片段分类 Virus classification for vi ...
- 深度学习 自组织映射网络 ——python实现SOM(用于聚类)
深度学习 自组织映射网络 --python实现SOM(用于聚类) 摘要 python实现代码 计算实例 摘要 SOM(Self Organizing Maps ) 的目标是用低维目标空间的点来表示高维 ...
- Rail-5k:一个用于轨道表面缺陷检测的真实数据集
Rail-5k:一个用于轨道表面缺陷检测的真实数据集 文章目录 Rail-5k:一个用于轨道表面缺陷检测的真实数据集 摘要 1 介绍 2 相关工作 2.1自然图像数据集 2.2合成缺陷数据集 2.3铁 ...
- Python实现Logistc回归分类(西瓜数据集、鸢尾花数据集)详解
文章目录 Logistic回归原理讲解 逻辑回归的损失函数 梯度下降 代码实现 西瓜数据集 全代码 鸢尾花(Iris)数据集 LogisticModel 全代码 主函数实现 全代码 Logistic回 ...
- PaddleNLP基于ERNIR3.0文本分类:WOS数据集为例(层次分类)
相关项目链接: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Pad ...
最新文章
- linux ubuntu 虚拟机中配置samba的实现文件共享的方法
- CentOS 6.7构建 OpenResty(Nginx)+PHP 7(php-fpm)+MySQL5.7 运行环境
- [机器学习] XGBoost 样本不平衡问题
- VMwareWorkstation设置U盘启动(或U盘使用)
- 使用dotnet Cli向nuget发布包
- 微信自定义tabbar有小红点_自定义微信小程序tabBar组件上边框的颜色
- 信息学奥赛一本通(1328:【例7.7】光荣的梦想)
- Algorithms-Part1最后一周的作业——KdTree
- ubuntu环境下,ubuntu16.04装机到nvdia显卡驱动安装、cuda8安装、cudnn安装
- Java面试题全集(上)
- c语言编程绝对质数,C语言《绝对素数》
- [原创] 婚纱照PS处理技术精粹(视频教程1.2G免费下载,11个核心技术点)
- 基于单片机的数控直流稳压电源设计
- 4699. 如此编码
- Linux系统查看不到IP地址的解决方法(虚拟机)
- 手动修改Spyder的背景颜色(手动配色)
- 进行码分多址CDMA通信
- VM虚拟机去虚拟化教程(三)修改内存品牌和序列号
- 【网红流水线车间】“制造”李佳琦们的神秘组织,到底是怎么让网红火起来的?...
- iPhone4升级iOS7输入卡顿的完美解决办法