将数据集类标签数字化

(一)该数据集类标签在最后一列(直接数字化标签)

//打开旧文件
f = open('dataset/datingTestSet.txt','r',encoding='utf-8')
//打开新文件
f_new = open('dataset/datingTestSet0.txt','w',encoding='utf-8')
//循环读取旧文件
for line in f:labels=['didntLike','smallDoses','largeDoses']new_labels=['1','2','3']i=0for label in labels:# 进行判断if label in line:print(new_labels[i])line=line.replace(label,new_labels[i])print(line)breaki+=1// 如果不符合就正常的将文件中的内容读取并且输出到新文件中f_new.write(line)
f.close()
f_new.close()

备注:该数据集来自datingTestSet.txt
(二)该数据集类标签不在最后一列
此时,为了统一数据集格式便于后期处理,将类标签数字化并将类标签放到最后一列,然后写入新文件

//打开旧文件
f = open('dataset/letter-recognition.data','r',encoding='utf-8')
//打开新文件
f_new = open('dataset/letter-recognition0.data', 'w', encoding='utf-8')
//循环读取旧文件
for line in f:labels=['A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']new_labels=['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26']i=0for label in labels:// 进行判断if label in line://删掉该字符line=line.replace(label+',','')//去掉首尾'\n','\r','\t',' 'line=line.strip()//将数字化的标签添加到末尾line=line+','+new_labels[i]+'\n'breaki+=1// 如果不符合就正常的将文件中的内容读取并且输出到新文件中f_new.write(line)
f.close()
f_new.close()

备注:该数据集来自letter-recognition.data

将数据集类标签数字化相关推荐

  1. R语言生成螺旋形(spirals)仿真数据实战:螺旋线型线性不可分数据集、螺旋线型不可分数据集可视化、为散点图中的每个数据点添加类标签信息

    R语言生成螺旋形(spirals)仿真数据实战:螺旋线型线性不可分数据集.螺旋线型不可分数据集可视化.为散点图中的每个数据点添加类标签信息 目录

  2. python将数据集分成训练样本和类标签

    这里假设 类标签为largeDoses, smallDoses, didntLike三类,假设训练样本有三个特征属性,类标签放在数据集的最后一列 import numpy as npdef file2 ...

  3. 鸟巢目标检测图像数据集(1000多张高清原图;YOLO,VOC两类标签)

    下载地址: 鸟巢目标检测图像数据集(1000多张高清原图:YOLO,VOC两类标签,网盘下载链接)

  4. 电网变电站安全作业行为规范检测-绝缘手套佩戴检测图像数据集(VOC,YOLO两类标签,六类目标)

      下载地址(数据集分为四个包,每个都不相同): 电网变电站安全作业行为规范检测-绝缘手套佩戴检测数据集1,(600张图像,VOC,YOLO两类标签,下载链接) 电网变电站安全作业行为规范检测-绝缘手 ...

  5. 时间序列预测任务PyTorch数据集类——TimeSeriesDataSet 类详解

    时间序列预测任务PyTorch数据集类--TimeSeriesDataSet 类详解 当进行时间序列预测或时间序列分析时,通常需要对数据进行预处理和转换以提高模型的效果和准确性.TimeSeriesD ...

  6. spark 类标签的稀疏 特征向量

    一个向量(1.0,0.0,3.0)它有2中表示的方法 密集:[1.0,0.0,3.0]    其和一般的数组无异 稀疏:(3,[0,2],[1.0,3.0])     其表示的含义(向量大小,序号,值 ...

  7. 多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...

    原文: Label-Specific Document Representation for Multi-Label Text Classification(EMNLP 2019) 多标签文本分类 摘要: ...

  8. 超大规模数据集类的创建

    Dataset基类 import os.path as ospimport torch from torch_geometric.data import Dataset, download_urlcl ...

  9. 用python实现字符串数据的标签数字化

    python小白一枚,做实验过程中需要将字符串数据标签数字化,所以从网上搜索了一下方法,用pandas来实现: import pandas as pd c = ['A','A','A','B','B' ...

最新文章

  1. 如何让你的Nginx 提升10倍性能?
  2. WPF DataGrid横向显示
  3. Web 探索之旅 | 第二部分第一课:客户端语言
  4. UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性
  5. iOS-BMK标注覆盖物
  6. 关于批量插入数据之我见(100万级别的数据,mysql)
  7. 北妈每日一题:如何拿到 金条、蛋糕和大钻石
  8. 为什么php打开网页空白的_PHP页面出现空白页面该怎么办
  9. scrapy commandline
  10. HDOJ水题集合8:DBFS
  11. linux队列运行任务查看,Linux work queue工作队列小结与使用
  12. 什么是Code Review
  13. 机器学习(8):朴素贝叶斯
  14. COM组件和DLL的区别
  15. android webview同步,android httpclient与webview cookie同步
  16. Java实现手机号码、邮箱账号加密
  17. 地图上如何量方位角_利用GPS测量方位角的方法
  18. 2020 dns排名_2020年新版全球/全国各地ISP的DNS服务器地址表
  19. 网速/带宽与下载速度对照表
  20. 企鹅CMS开源影视系统

热门文章

  1. python微博批量快速删文章,关注
  2. 宇信易诚Liana银行系统软件界面设计
  3. lammps教程:推荐一个不同单位下压强自动转换网站
  4. 找工作总结-机会往往留给有准备的人
  5. 用 JavaScript 实现三次贝塞尔动画库 - 前端组件化
  6. 神经网络计算量及参数量
  7. 多视角聚类学习(一)An overview of recent multi-view clustering
  8. 电商无货源网店真的赚钱吗?
  9. 一些常用软件和网站资源
  10. Tophatter绑定万里汇WorldFirst账户收款教程!