将数据集类标签数字化
将数据集类标签数字化
(一)该数据集类标签在最后一列(直接数字化标签)
//打开旧文件
f = open('dataset/datingTestSet.txt','r',encoding='utf-8')
//打开新文件
f_new = open('dataset/datingTestSet0.txt','w',encoding='utf-8')
//循环读取旧文件
for line in f:labels=['didntLike','smallDoses','largeDoses']new_labels=['1','2','3']i=0for label in labels:# 进行判断if label in line:print(new_labels[i])line=line.replace(label,new_labels[i])print(line)breaki+=1// 如果不符合就正常的将文件中的内容读取并且输出到新文件中f_new.write(line)
f.close()
f_new.close()
备注:该数据集来自datingTestSet.txt
(二)该数据集类标签不在最后一列
此时,为了统一数据集格式便于后期处理,将类标签数字化并将类标签放到最后一列,然后写入新文件
//打开旧文件
f = open('dataset/letter-recognition.data','r',encoding='utf-8')
//打开新文件
f_new = open('dataset/letter-recognition0.data', 'w', encoding='utf-8')
//循环读取旧文件
for line in f:labels=['A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']new_labels=['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26']i=0for label in labels:// 进行判断if label in line://删掉该字符line=line.replace(label+',','')//去掉首尾'\n','\r','\t',' 'line=line.strip()//将数字化的标签添加到末尾line=line+','+new_labels[i]+'\n'breaki+=1// 如果不符合就正常的将文件中的内容读取并且输出到新文件中f_new.write(line)
f.close()
f_new.close()
备注:该数据集来自letter-recognition.data
将数据集类标签数字化相关推荐
- R语言生成螺旋形(spirals)仿真数据实战:螺旋线型线性不可分数据集、螺旋线型不可分数据集可视化、为散点图中的每个数据点添加类标签信息
R语言生成螺旋形(spirals)仿真数据实战:螺旋线型线性不可分数据集.螺旋线型不可分数据集可视化.为散点图中的每个数据点添加类标签信息 目录
- python将数据集分成训练样本和类标签
这里假设 类标签为largeDoses, smallDoses, didntLike三类,假设训练样本有三个特征属性,类标签放在数据集的最后一列 import numpy as npdef file2 ...
- 鸟巢目标检测图像数据集(1000多张高清原图;YOLO,VOC两类标签)
下载地址: 鸟巢目标检测图像数据集(1000多张高清原图:YOLO,VOC两类标签,网盘下载链接)
- 电网变电站安全作业行为规范检测-绝缘手套佩戴检测图像数据集(VOC,YOLO两类标签,六类目标)
下载地址(数据集分为四个包,每个都不相同): 电网变电站安全作业行为规范检测-绝缘手套佩戴检测数据集1,(600张图像,VOC,YOLO两类标签,下载链接) 电网变电站安全作业行为规范检测-绝缘手 ...
- 时间序列预测任务PyTorch数据集类——TimeSeriesDataSet 类详解
时间序列预测任务PyTorch数据集类--TimeSeriesDataSet 类详解 当进行时间序列预测或时间序列分析时,通常需要对数据进行预处理和转换以提高模型的效果和准确性.TimeSeriesD ...
- spark 类标签的稀疏 特征向量
一个向量(1.0,0.0,3.0)它有2中表示的方法 密集:[1.0,0.0,3.0] 其和一般的数组无异 稀疏:(3,[0,2],[1.0,3.0]) 其表示的含义(向量大小,序号,值 ...
- 多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...
原文: Label-Specific Document Representation for Multi-Label Text Classification(EMNLP 2019) 多标签文本分类 摘要: ...
- 超大规模数据集类的创建
Dataset基类 import os.path as ospimport torch from torch_geometric.data import Dataset, download_urlcl ...
- 用python实现字符串数据的标签数字化
python小白一枚,做实验过程中需要将字符串数据标签数字化,所以从网上搜索了一下方法,用pandas来实现: import pandas as pd c = ['A','A','A','B','B' ...
最新文章
- 如何让你的Nginx 提升10倍性能?
- WPF DataGrid横向显示
- Web 探索之旅 | 第二部分第一课:客户端语言
- UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性
- iOS-BMK标注覆盖物
- 关于批量插入数据之我见(100万级别的数据,mysql)
- 北妈每日一题:如何拿到 金条、蛋糕和大钻石
- 为什么php打开网页空白的_PHP页面出现空白页面该怎么办
- scrapy commandline
- HDOJ水题集合8:DBFS
- linux队列运行任务查看,Linux work queue工作队列小结与使用
- 什么是Code Review
- 机器学习(8):朴素贝叶斯
- COM组件和DLL的区别
- android webview同步,android httpclient与webview cookie同步
- Java实现手机号码、邮箱账号加密
- 地图上如何量方位角_利用GPS测量方位角的方法
- 2020 dns排名_2020年新版全球/全国各地ISP的DNS服务器地址表
- 网速/带宽与下载速度对照表
- 企鹅CMS开源影视系统