西瓜数据集介绍以及获取。
西瓜数据集介绍。
这里介绍一下《机器学习》中的西瓜数据。数据集也不少,放在别的文章中介绍就会略占篇幅,还是单独的介绍一下并且给出数据样本。
在西瓜书中,主要使用到的数据样本共有2.0、3.0、4.0这三个版本,但是还有一些用到的数据集。
西瓜数据集2.0
在西瓜数据集2.0中的特征主要有以下几种:色泽、根蒂、敲声、纹理、脐部、触感。这几个数值都是离散数值,每个特征共有三个离散值。
来自西瓜书中的西瓜数据集2.0:
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 好瓜 |
---|---|---|---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 是 |
2 | 乌黑 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 是 |
3 | 乌黑 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 是 |
4 | 青绿 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 是 |
5 | 浅白 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 是 |
6 | 青绿 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 是 |
7 | 乌黑 | 稍蜷 | 浊响 | 稍糊 | 稍凹 | 软粘 | 是 |
8 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 硬滑 | 是 |
9 | 乌黑 | 稍蜷 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 否 |
10 | 青绿 | 硬挺 | 清脆 | 清晰 | 平坦 | 软粘 | 否 |
11 | 浅白 | 硬挺 | 清脆 | 模糊 | 平坦 | 硬滑 | 否 |
12 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 软粘 | 否 |
13 | 青绿 | 稍蜷 | 浊响 | 稍糊 | 凹陷 | 硬滑 | 否 |
14 | 浅白 | 稍蜷 | 沉闷 | 稍糊 | 凹陷 | 硬滑 | 否 |
15 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 否 |
16 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 硬滑 | 否 |
17 | 青绿 | 蜷缩 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 否 |
看的也是眼花缭乱,这里共有8个好瓜和9个坏瓜样本。
以下代码可以获取带上面你的样本数据和对应的标签,以及某个特征值的所有可能性。
def createDataSet():"""创建测试的数据集:return:"""dataSet = [# 1['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],# 2['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],# 3['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],# 4['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],# 5['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],# 6['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '好瓜'],# 7['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', '好瓜'],# 8['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', '好瓜'],# ----------------------------------------------------# 9['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜'],# 10['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', '坏瓜'],# 11['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', '坏瓜'],# 12['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', '坏瓜'],# 13['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', '坏瓜'],# 14['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', '坏瓜'],# 15['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '坏瓜'],# 16['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', '坏瓜'],# 17['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜']]# 特征值列表labels = ['色泽', '根蒂', '敲击', '纹理', '脐部', '触感']# 特征对应的所有可能的情况labels_full = {}for i in range(len(labels)):labelList = [example[i] for example in dataSet]uniqueLabel = set(labelList)labels_full[labels[i]] = uniqueLabelreturn dataSet, labels, labels_full
西瓜数据集3.0
相较于上面的2.0数据集,3.0又增添了两个特征值:密度和含糖率。这两个特征值都是连续数值。这里不再列出表格,直接给出获取样本数据的代码。
def createDataSet():"""创建测试的数据集,里面的数值中具有连续值:return:"""dataSet = [# 1['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, '好瓜'],# 2['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, '好瓜'],# 3['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, '好瓜'],# 4['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, '好瓜'],# 5['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, '好瓜'],# 6['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, '好瓜'],# 7['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, '好瓜'],# 8['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, '好瓜'],# ----------------------------------------------------# 9['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, '坏瓜'],# 10['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, '坏瓜'],# 11['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, '坏瓜'],# 12['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, '坏瓜'],# 13['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, '坏瓜'],# 14['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, '坏瓜'],# 15['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, '坏瓜'],# 16['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, '坏瓜'],# 17['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, '坏瓜']]# 特征值列表labels = ['色泽', '根蒂', '敲击', '纹理', '脐部', '触感', '密度', '含糖率']# 特征对应的所有可能的情况labels_full = {}for i in range(len(labels)):labelList = [example[i] for example in dataSet]uniqueLabel = set(labelList)labels_full[labels[i]] = uniqueLabelreturn dataSet, labels, labels_full
西瓜数据集4.0
西瓜数据集只包含了密度和含糖率,并没有给出分类标签,在聚类中出现了4.0数据集。
def createDataSet():"""创建测试的数据集,里面的数值中具有连续值:return:"""dataSet = [# 1[0.697, 0.460],# 2[0.774, 0.376],# 3[0.634, 0.264],# 4[0.608, 0.318],# 5[0.556, 0.215],# 6[0.403, 0.237],# 7[0.481, 0.149],# 8[0.437, 0.211],# 9[0.666, 0.091],# 10[0.243, 0.267],# 11[0.245, 0.057],# 12[0.343, 0.099],# 13[0.639, 0.161],# 14[0.657, 0.198],# 15[0.360, 0.370],# 16[0.593, 0.042],# 17[0.719, 0.103]# 18[0.359, 0.188]# 19[0.339, 0.241]# 20[0.282, 0.257]# 21[0.748, 0.232]# 22[0.714, 0.346]# 23[0.483, 0.312]# 24[0.478, 0.437]# 25[0.525, 0.369]# 26[0.751, 0.489]# 27[0.532, 0.472]# 28[0.473, 0.376]# 29[0.725, 0.445]# 30[0.446, 0.459]]# 特征值列表labels = ['密度', '含糖率']# 特征对应的所有可能的情况labels_full = {}for i in range(len(labels)):labelList = [example[i] for example in dataSet]uniqueLabel = set(labelList)labels_full[labels[i]] = uniqueLabelreturn dataSet, labels, labels_full
具有缺失数据的3.0数据集
在决策树部分介绍如何处理缺失值的时候用到了该数据集。
def createDataSet():"""创建测试的数据集:return:"""dataSet = [# 1['-', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],# 2['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '-', '好瓜'],# 3['乌黑', '蜷缩', '-', '清晰', '凹陷', '硬滑', '好瓜'],# 4['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],# 5['-', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],# 6['青绿', '稍蜷', '浊响', '清晰', '-', '软粘', '好瓜'],# 7['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', '好瓜'],# 8['乌黑', '稍蜷', '浊响', '-', '稍凹', '硬滑', '好瓜'],# ----------------------------------------------------# 9['乌黑', '-', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜'],# 10['青绿', '硬挺', '清脆', '-', '平坦', '软粘', '坏瓜'],# 11['浅白', '硬挺', '清脆', '模糊', '平坦', '-', '坏瓜'],# 12['浅白', '蜷缩', '-', '模糊', '平坦', '软粘', '坏瓜'],# 13['-', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', '坏瓜'],# 14['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', '坏瓜'],# 15['乌黑', '稍蜷', '浊响', '清晰', '-', '软粘', '坏瓜'],# 16['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', '坏瓜'],# 17['青绿', '-', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜']]# 特征值列表labels = ['色泽', '根蒂', '敲击', '纹理', '脐部', '触感']# 各个样本的权重Wx = []for i in range(len(dataSet)):Wx.append(1)# 特征对应的所有可能的情况labels_full = {}for i in range(len(labels)):labelList = [example[i] for example in dataSet if example[i] != '-']uniqueLabel = set(labelList)labels_full[labels[i]] = uniqueLabelreturn dataSet, labels, labels_full, Wx
西瓜数据集介绍以及获取。相关推荐
- 轴承故障诊断分类中常用的一些数据集介绍和获取方法
轴承故障诊断分类中常用的一些数据集介绍和获取方法 ------本文旨在学习过程中进行数据记录,仅供参考------ 做轴承故障诊断重要的是需要多个数据集,一些数据集是难获取的,-------
- [数据集][VOC][目标检测]西瓜数据集目标检测可用yolo训练-1702张介绍
数据集名称:高质量西瓜目标检测数据集 数据集地址:数据集VOC格式目标检测数据集西瓜数据集-1702张-数据集文档类资源-CSDN下载 数据集介绍: 数据集格式:Pascal VOC格式(不包含分割路 ...
- Python实现Logistc回归分类(西瓜数据集、鸢尾花数据集)详解
文章目录 Logistic回归原理讲解 逻辑回归的损失函数 梯度下降 代码实现 西瓜数据集 全代码 鸢尾花(Iris)数据集 LogisticModel 全代码 主函数实现 全代码 Logistic回 ...
- K-近邻算法之案例:鸢尾花种类预测--数据集介绍
K-近邻算法之案例:鸢尾花种类预测--数据集介绍 本实验介绍了使用Python进行机器学习的一些基本概念. 在本案例中,将使用K-Nearest Neighbor(KNN)算法对鸢尾花的种类进行分类, ...
- 目标检测实战篇1——数据集介绍(PASCAL VOC,MS COCO)
前言 前面我们讲过了目标检测的YOLO系列算法,SSD算法.从这个博文开始,我们要真实开启实战篇章.在正式介绍实战篇之前,我们需要先知道两个数据集:PASCAL VOC和COCO数据集. 一.PA ...
- Market1501数据集介绍及相关代码
Market1501数据集介绍及相关代码 1.数据集介绍 文件夹介绍 bounding_box_test:测试集,gallery bounding_box_train:训练集 query:prob g ...
- 朴素贝叶斯(西瓜数据集分类,社区恶意留言分类,垃圾邮件分类,新浪新闻分类),AODE分类器 代码实现
朴素贝叶斯(西瓜数据集分类,社区恶意留言分类,垃圾邮件分类,新浪新闻分类),AODE分类器 代码实现 以下代码为本人学习后,修改或补充后的代码实现,数据集和原代码请参考:https://github. ...
- 【数据集介绍】The Idiap Research Institute REPLAY-Mobile Database
[时间]2018.11.14 [数据集介绍]The Idiap Research Institute REPLAY-Mobile Database 概述 本文是对数据集REPLAY-Mobile Da ...
- 动作识别、检测、分割、解析相关数据集介绍
文章目录 动作识别 UCF101(UCF101 Human Actions dataset) Kinetics (Kinetics Human Action Video Dataset) 动作检测 / ...
- 西瓜数据集读取的详细解决方案
大家好,我是爱编程的喵喵.双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中.从事机器学习以及相关的前后端开发工作.曾在阿里云.科大讯飞.CCF等比赛获得多次Top名次.喜 ...
最新文章
- GPT-3数学不及格,愁坏团队,于是他们出了12500道数学
- git2.29.2.2怎么安装_MySQL5.5怎么安装
- 【opencv学习】单应性变换Homography
- 这位 50 岁的海归程序员,当着老板还在天天改 Bug
- java获取系统信息:java的信息、操作系统的信息、用户的信息、虚拟机的信息、系统设置的信息。
- python中for循环的用法a+aa+aaa-Python练习题 013:求解a+aa+aaa……
- 【考研英语语法】if 的高级用法
- MPB:南土所褚海燕组-​​利用种分布模型绘制微生物分布图谱
- iol植入手术过程_年龄相关性白内障phaco+Iol植入术的手术配合及体会
- Flowable 服务任务执行的三种方式
- 数云融合丨知识图谱在烟草零售数字化转型中的应用
- 独家 | 被大佬纷纷唱衰的AI行业,2018路在何方?
- 腾讯自研HIDS「洋葱」后台上云架构演进实践
- CSS基础————千本樱滑落的瞬间
- 马踏棋盘问题(C++版)
- jdk8 list 反转_反转人生 莫锋颜月荷六朝金粉
- mysql ERROR 1114 (HY000): The table ‘XXX‘ is full
- 大数据公司数据分析取数流程以及SQL示例
- Lattice ECP5UM5G 踩过的坑
- 机器人 郑佳佳_浙大硕士被暗恋对象拒绝后 和自己造的充气娃娃结婚了
热门文章
- 某在线学习平台自动挂视频
- android 数字 余额宝,仿余额宝数字滚动增长的效果实现
- linux就该这么学
- hibernate执行完查询操作后又执行许多更新操作
- android平板8英寸,8英寸安卓系统 Newpad P10平板电脑评测
- 手持式频谱分析仪帮助实施毫米波无线信道调查
- 【python办公自动化(17)】利用python向PPT文档中写入内容(证书生成器)
- java 一年 周数_java获取一年共有多少周
- cruzer php sandisk 闪迪u盘量产工具_sandisk量产工具(闪迪U盘量产工具) 1.4
- 【漏洞学习——任意文件上传】LAMP兄弟连旗下猿代码存在任意上传文件漏洞