毕业设计时简单研究了聚类和分类问题,整理了一下用到的数据集,有需要的可以参考一下。。。

聚类数据集信息

序号 数据集 记录数 特征数 类别 简单分布 是否有overlap 来源
1 iris 150 4 3 50/50/50 No UCI
2 wine 178 13 3 59/71/48 No UCI
3 emotions(music) 593 72 6 173/166/264/148/168/189 YES sourceforge
4 yeast 2417 103 14 混合分布 YES sourceforge
5 scene 2407 294 6 427/364/397/433/533/431 YES sourceforge
6 wdbc 569 30 2 212/357 No UCI
7 breasttissue 106 9 6 21/15/18/16/14/22 No UCI
8 seeds 210 7 3 70/70/70 No UCI
9 glass 214 9 6(7) 70/76/17/13/9/29 No UCI

分类数据集信息

序号 数据集 记录数 特征数 类别 简单分布 是否有缺失值 来源
1 appendicitis 106 7 2 21/85 No KEEL
2 balance 625 4 3 288/49/288 No KEEL,UCI
3 banana 5300 2 2 2924/2376 No KEEL
4 bands 365(539) 19 2 230/135 Yes KEEL,UCI
5 bupa 345 6 2 145/200 No KEEL,UCI
6 cleveland 297(303) 13 5 160/54/35/35/13 Yes KEEL,UCI
7 dermatology 358(366) 34 6 111/60/71/48/48/20 Yes KEEL,UCI
8 haberman 306 3 2 225/81 No KEEL,UCI
9 hayes-roth 160 4 3 65/64/31 No KEEL,UCI
10 heart 270 13 2 150/120 No KEEL,UCI
11 hepatitis 80(155) 19 2 13/67 Yes KEEL,UCI
12 ionosphere 351 34 2 225/126 No KEEL,UCI
13 iris 150 4 3 50/50/50 No KEEL,UCI
14 led7digit 500 7 10 45/37/51/57/52/52/47/57/53/49 No KEEL,UCI
15 mammographic 830(961) 5 2 427/403 No KEEL,UCI
16 marketing 6876(8993) 13 9 1255/529/505/618/527/846/784/1069/743 Yes KEEL,biolab
17 monks2 432 7 2 290/142 No KEEL,UCI
18 movement_libras 360 90 15 24/…/24 No KEEL,UCI
19 newthyroid 215 5 3 150/35/30 No KEEL,UCI
20 pageblocks 5473 10 5 4913/329/28/88/115 No KEEL,UCI
21 penbased 10092 16 10 No KEEL,UCI
22 phoneme 5404 5 2 3818/1586 No KEEL,UCL
23 pima 768 8 2 500/268 No KEEL,UCI
24 ring 7400 20 2 3664/3736 No KEEL,UTO
25 satimage 6435 36 7 1533/703/1358/626/707/0/1508 No KEEL,UCI
26 segment 2310 19 7 330/…/330 No KEEL,UCI
27 sonar 208 60 2 97/111 No KEEL,UCI
28 spambase 4597(4601) 57 2 2788/1813 Yes KEEL,UCI
29 spectfheart 267 44 2 55/212 No KEEL,UCI
30 tae 151 5 3 49/50/52 No KEEL,UCI
31 texture 5500 40 11 500/…/500 No KEEL,UCL
32 thyroid 7200 21 3 166/368/6666 No KEEL,UCI
33 titanic 2201 3 2 1490/711 No KEEL,TOR
34 twonorm 7400 20 2 3703/3697 No KEEL,UTO
35 vehicle 846 18 4 212/218/199/217 No KEEL,UCI
36 vowel 990 13 11 90/…/90 No KEEL,UCI
37 wdbc 569 30 2 212/357 No UCI
38 wine 178 13 3 59/71/48 No UCI
39 winequality-red 1599 11 11 10/53/681/638/199/18 No KEEL,UCI
40 wisconsin 683(699) 9 2 444/239 No KEEL,UCI

一些用于聚类和分类问题的数据集相关推荐

  1. 【论文简读】Diffusion Kernel Attention Network for Brain Disorder Classification用于脑疾病分类的扩散核注意力网络

    期刊:MIA 2022 early accept 作者:Jianjia Zhang, Luping Zhou, Lei Wang, Mengting Liu and Dinggang Shen 摘要 ...

  2. 【Java应用】使用Java实现机器学习算法:聚类、分类、预测

    一.引言 1.机器学习算法概述 机器学习是一种人工智能技术,旨在通过使用数据和统计分析来让计算机系统自动改进性能.机器学习算法可分为三大类:聚类.分类和预测.聚类算法用于将数据集分成不同的群组:分类算 ...

  3. SCS【7】单细胞转录组之轨迹分析 (Monocle 3) 聚类、分类和计数细胞

    点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...

  4. 推荐引擎算法学习导论:协同过滤、聚类、分类(2011年旧文)

    推荐引擎算法学习导论:协同过滤.聚类.分类 作者:July 出处:结构之法算法之道 引言 昨日看到几个关键词:语义分析,协同过滤,智能推荐,想着想着便兴奋了.于是昨天下午开始到今天凌晨3点,便研究了一 ...

  5. 姜敬哲/孙燕妮/原丽红合作开发可用于病毒快速分类的工具PhaGCN2

    南海水产研究所姜敬哲团队.香港城市大学孙燕妮团队.广东药科大学原丽红合作开发的可用于病毒快速分类生信工具 使用PhaGCN2对病毒基因组片段分类 Virus classification for vi ...

  6. 深度学习 自组织映射网络 ——python实现SOM(用于聚类)

    深度学习 自组织映射网络 --python实现SOM(用于聚类) 摘要 python实现代码 计算实例 摘要 SOM(Self Organizing Maps ) 的目标是用低维目标空间的点来表示高维 ...

  7. Rail-5k:一个用于轨道表面缺陷检测的真实数据集

    Rail-5k:一个用于轨道表面缺陷检测的真实数据集 文章目录 Rail-5k:一个用于轨道表面缺陷检测的真实数据集 摘要 1 介绍 2 相关工作 2.1自然图像数据集 2.2合成缺陷数据集 2.3铁 ...

  8. Python实现Logistc回归分类(西瓜数据集、鸢尾花数据集)详解

    文章目录 Logistic回归原理讲解 逻辑回归的损失函数 梯度下降 代码实现 西瓜数据集 全代码 鸢尾花(Iris)数据集 LogisticModel 全代码 主函数实现 全代码 Logistic回 ...

  9. PaddleNLP基于ERNIR3.0文本分类:WOS数据集为例(层次分类)

    相关项目链接: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Pad ...

最新文章

  1. linux ubuntu 虚拟机中配置samba的实现文件共享的方法
  2. CentOS 6.7构建 OpenResty(Nginx)+PHP 7(php-fpm)+MySQL5.7 运行环境
  3. [机器学习] XGBoost 样本不平衡问题
  4. VMwareWorkstation设置U盘启动(或U盘使用)
  5. 使用dotnet Cli向nuget发布包
  6. 微信自定义tabbar有小红点_自定义微信小程序tabBar组件上边框的颜色
  7. 信息学奥赛一本通(1328:【例7.7】光荣的梦想)
  8. Algorithms-Part1最后一周的作业——KdTree
  9. ubuntu环境下,ubuntu16.04装机到nvdia显卡驱动安装、cuda8安装、cudnn安装
  10. Java面试题全集(上)
  11. c语言编程绝对质数,C语言《绝对素数》
  12. [原创] 婚纱照PS处理技术精粹(视频教程1.2G免费下载,11个核心技术点)
  13. 基于单片机的数控直流稳压电源设计
  14. 4699. 如此编码
  15. Linux系统查看不到IP地址的解决方法(虚拟机)
  16. 手动修改Spyder的背景颜色(手动配色)
  17. 进行码分多址CDMA通信
  18. VM虚拟机去虚拟化教程(三)修改内存品牌和序列号
  19. 【网红流水线车间】“制造”李佳琦们的神秘组织,到底是怎么让网红火起来的?...
  20. iPhone4升级iOS7输入卡顿的完美解决办法

热门文章

  1. ProtoBuf 生成 Go 代码去掉 JSON tag omitempty
  2. 书籍是人类进步的阶梯
  3. 解决Oracle Temp01.dbf文件过大
  4. 【20岁的时候决定自己的一生】
  5. 互联网金融: 十大信息安全风险与十大最佳安全实践
  6. mysql workbench是什么意思_MySQL Workbench是干什么的?
  7. 大白话 5 分钟带你走进人工智能:神经网络之反向传播详细案例及解释
  8. QDateEdit日历修改之QCalendarWidget 样式设置
  9. .NET MAUI 安卓 UI 资源设置
  10. 计算机控制及网络技术pdf,计算机控制系统pdf