这里假设 类标签为largeDoses, smallDoses, didntLike三类,假设训练样本有三个特征属性,类标签放在数据集的最后一列

import numpy as npdef file2matrix(filename):  # filename是文件保存地址love_dictionary = {'largeDoses':3, 'smallDoses':2, 'didntLike':1}fr = open(filename)arrayOLines = fr.readlines()numberOfLines = len(arrayOLines)            # 获得文件的行数returnMat = np.zeros((numberOfLines, 3))        # 用于存放训练数据classLabelVector = []                       # 用于存放类标签index = 0for line in arrayOLines:line = line.strip() # 截取掉所有的回车字符listFromLine = line.split() returnMat[index, :] = listFromLine[0:3] # 存放训练样本if(listFromLine[-1].isdigit()): # 如果标签字符串是数字,用int()函数转换为数字类型classLabelVector.append(int(listFromLine[-1]))else: # 如果标签字符串不是数字,利用字典转换为数字类型classLabelVector.append(love_dictionary.get(listFromLine[-1]))index += 1return returnMat, classLabelVector

isdigit()判断一个字符串是否为数字

b = ['a', '2a', '2']
print(b[0].isdigit())
print(b[1].isdigit())
print(b[2].isdigit())False
False
True

python将数据集分成训练样本和类标签相关推荐

  1. R语言生成螺旋形(spirals)仿真数据实战:螺旋线型线性不可分数据集、螺旋线型不可分数据集可视化、为散点图中的每个数据点添加类标签信息

    R语言生成螺旋形(spirals)仿真数据实战:螺旋线型线性不可分数据集.螺旋线型不可分数据集可视化.为散点图中的每个数据点添加类标签信息 目录

  2. Python:K折交叉验证,将数据集分成训练集与测试集

    注意文件夹格式:父文件夹/类别/图像(同torch读取图像格式保存一致),传入路径为父文件夹路径. """ 对图像进行交叉验证, 用于检验分类效果 对每个类别的n张图像进 ...

  3. 鸟巢目标检测图像数据集(1000多张高清原图;YOLO,VOC两类标签)

    下载地址: 鸟巢目标检测图像数据集(1000多张高清原图:YOLO,VOC两类标签,网盘下载链接)

  4. 将数据集类标签数字化

    将数据集类标签数字化 (一)该数据集类标签在最后一列(直接数字化标签) //打开旧文件 f = open('dataset/datingTestSet.txt','r',encoding='utf-8 ...

  5. 电网变电站安全作业行为规范检测-绝缘手套佩戴检测图像数据集(VOC,YOLO两类标签,六类目标)

      下载地址(数据集分为四个包,每个都不相同): 电网变电站安全作业行为规范检测-绝缘手套佩戴检测数据集1,(600张图像,VOC,YOLO两类标签,下载链接) 电网变电站安全作业行为规范检测-绝缘手 ...

  6. python创建数据集_使用Python从图像创建数据集以进行人脸识别

    我正在尝试用Python编写人脸识别程序(我将应用k-nn算法进行分类). 首先,我将图像转换为灰度,然后创建了一个长列向量(通过使用Opencv的imagedata函数),该向量具有图像的像素(总共 ...

  7. 基于视频理解TSM和数据集20bn-jester-v1的27类手势识别

    基于视频理解TSM-mobilenetv2和数据集20bn-jester-v1的27类手势识别 基于视频理解TSM-resnet50和数据集20bn-jester-v1的27类手势识别 基于视频理解T ...

  8. python训练数据集_Python——sklearn提供的自带的数据集

    sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downlo ...

  9. Python深度学习实战:多类花朵分类

    Python深度学习实战:多类花朵分类 鸢尾花分类数据集 导入库和函数 指定随机数种子 导入数据 输出变量编码 设计神经网络 用K折交叉检验测试模型 总结 本章我们使用Keras为多类分类开发并验证一 ...

最新文章

  1. python画图颜色-python – 在matplotlib中绘制不同的颜色
  2. java word转pdf linux_Linux平台中使用PHP把word转pdf的实现方法
  3. Docker教程(一) Docker入门教程
  4. matplotlib mysql_matplotlib简介
  5. Spug发布前端项目实战全过程
  6. 计算机网络毕业设计汇报ppt,计算机ppt毕业设计模板
  7. 更新:电脑微信多开v3.5
  8. 概率统计笔记之 “数学期望和方差”
  9. 树莓派CM4基于emmc安装Ubuntu系统及初始配置
  10. 将一个DataFrame中的一列(行),插入到另一个DataFrame中
  11. 【Jupyter Notebook】在jupyter中使用数学公式
  12. 李山甫 鳴谷 跌足折齒
  13. mysql远程服务器返回错误404_服务器常见页面访问返回错误信息(404 500 400)表示什么意思...
  14. javascript 夯实基础
  15. Java的进化之路走到了尽头
  16. 飞思卡尔单片机AD模块简述(1)
  17. (嵌入式)机器人操作系统(ROS)入门
  18. 今天到下次生日中间隔的天数C++
  19. 小程序navigator 标签open-type属性 有值
  20. php移动商城源码,GitHub - longmix/shopmallmobile: 商城系统源代码移动商城版本,完整的服务器调用,商品展示/用户中心/订单/支付/购物车/功能齐全...

热门文章

  1. c语言不会可以学好java吗_不会C语言能学Java吗
  2. 推荐模型是怎样由窄变宽、越变越深的?
  3. 人物志 | KDD Cup 2017双料冠军燕鹏
  4. 美团点评移动端基础日志库——Logan
  5. 知识工场 | CN-DBpedia 漫游指南
  6. Pytorch 实现 MLP
  7. 9 操作系统第二章 进程管理 管程
  8. 循环,函数,指针作业
  9. String, StringBuffer, StringBuilder之间的区别
  10. [python 学习] requests 库的使用