深度学习数据集制作_一篇文章搞定人工智能之深度学习创建训练数据集的方法
基础数据准备
训练所需要的数据集合都存储在数据库中,还有部分文本文件
首先对数据进行分类结构化存储[因为涉及到的是多分类问题]
整理并存储原始数据集
使用numpy将所有需要数据读取出来
splitlines() ==> 按照 或者分割
import numpy as npimport pandas as pdvalues1 = np.array(open(r'text1.txt', 'r', encoding='utf-8').read().splitlines())values2 = np.random.choice(open(r'text2.txt', 'r', encoding='utf-8').read().splitlines(),100000)
设计标识符
label_map = { 1: 'values1', 2: 'values2',}
将所有数据进行拼接
data = np.concatenate([values1,values2])
生产相应数量的标识
lable = np.concatenate([np.array([4]*len(values1)),np.array([5]*len(values2))])
生成DataFrame数据结构
df = pd.DataFrame({"data":data,"lable":lable})
提取数据结构中多余的字符
df.replace('||!', '', inplace=True, regex=True)
将整合后的原始数据存储为csv文件
df.to_csv("dataset.csv",sep="!",index=False,header=False)
使数据集向量化
from keras.preprocessing.sequence import pad_sequences # 对序列进行预处理生成长度相同的序列from keras.utils.np_utils import to_categorical # 将标签转换为 one-hot 编码
对每个字符进行old操作
def process(s: str): s = str(s).lower() return [ord(c) for c in s]data = df['data'].apply(process).values
将序列处理成相同长度的数组
MAX_SEQUENCE_LENGTH = 30data = pad_sequences(data, maxlen=MAX_SEQUENCE_LENGTH,dtype='int',padding='post',truncating='post')
去除数组内重复数字并进行排序之后输出
palette = np.unique(data)
获取每个字符在palette中的位置
data = np.digitize(data, palette, right=True)
将标签转化为 one-hot 编码
labels = to_categorical(df['lable'].values)
划分训练子集与测试子集
from sklearn.model_selection import train_test_splittrain_data, val_data, train_label, val_label = train_test_split(data, labels, test_size=0.2, random_state=42)print('train data shape: ', train_data.shape, ' train label shape: ', train_label.shape)print('val data shape: ', val_data.shape, ' val label shape: ', val_label.shape)
#人工智能##深度学习##AI科技#
深度学习数据集制作_一篇文章搞定人工智能之深度学习创建训练数据集的方法相关推荐
- Python学习入门基础:一篇文章搞定函数基础、函数进阶
一.函数基础 函数的快速体验 函数的基本使用 函数的参数 函数的返回值 函数的嵌套调用 在模块中定义函数 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在 ...
- 关于python论文2000字_一篇文章搞定Python全部基础知识
前言: 1.Python软件安装 第一章.字符串及数字变量 1.变量 2.数字型数据 要点提炼:这下面那张图就行,至于其它的,就是文本转字数(int),数字转文本(Str) 3.字符串 要点提炼:字符 ...
- python 函数进阶_Python学习入门基础:一篇文章搞定函数基础、函数进阶
一.函数基础函数的快速体验 函数的基本使用 函数的参数 函数的返回值 函数的嵌套调用 在模块中定义函数私信小编001即可获取Python学习资料01. 函数的快速体验 1.1 快速体验 所谓函数,就是 ...
- c++求矩阵的秩_一篇文章搞定矩阵相关概念及意义通俗解释汇总
最近在学习矩阵相关知识,但是其抽象的解释让人摸不着头脑,通过浏览一些博客的内容和自己的理解,本文通过通俗的语言将矩阵的内涵做了总结.其中除了书本和个人观点,部分引用博客.本文主要帮助大家理解矩阵,但不 ...
- asp.net javascrip获取session的值_一篇文章搞定 Django Cookie 与 Session
cookie Cookie的由来 大家都知道HTTP协议是无状态的. 无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请求和之后的请求都无直接关系,它不会受前面的请求响应情况直接影响,也不 ...
- matlab基于dct的图像压缩编码解码_一篇文章搞定DCT在JPEG中的本质
前序傅立叶变换,离散傅立叶变换,推荐这个回答的介绍 想和大家讨论一下jpeg中的dct变换,为什么有效?它有什么更深层次的本质吗?www.zhihu.com 全篇参考下文,英文较好可以直接看. uc ...
- mysql当前时间往后推一周_一篇文章搞定Mysql日期时间函数
前言 日期和时间函数部分也是我们日常工作中使用频率比较高的一部分.这一篇我们主要讲讲mysql里面的日期时间相关的函数,不同数据库之间基本相同,只会有个别函数的差异.大家掌握一个数据库的,其他的遇到不 ...
- 一篇文章搞定DX9.0c 环境里的3DXSpriet !!
四年前写过一篇<一篇文章搞定3DXSpriet !! >得到了很多的反馈,现在那篇文章中的好多代码已经不可以再用了,所以对其中的一些代码做了改动,为了方便初学者掌握3DXSpriet,再写 ...
- Android NDK开发之旅(2):一篇文章搞定Android Studio中使用CMake进行NDK/JNI开发
Android NDK开发之旅(2):一篇文章搞定android Studio中使用CMake进行NDK/JNI开发 (码字不易,转载请声明出处:http://blog.csdn.NET/andrex ...
最新文章
- Android 自定义View之3D骰子旋转
- python中元组的使用_Python当中tuple元组的使用
- python登录网页账号密码_python03网页用户名密码登录
- 设备树学习之(二)点灯【转】
- Xamarin iOS教程之显示和编辑文本
- python求数列的积_python小游戏学习笔记4-2(列表【】,数列矩阵排列)
- 表的基本查询(数据库篇)
- 文件上传之传统方式上传代码回顾
- 朗文3000词汇表带音标_英语零基础音标语法都不会词汇量3000 学雅思到6/6.5分 需要多久 该如何做?...
- 计算机网络(十九)-IEEE802.11无线局域网
- Abp框架默认表中如何添加字段
- 使用zabbix监控esxi
- 强悍的 Vim —— .vimrc(vim 配置文件)
- UVa 10400 记忆化搜索
- JDK源码如何启动编译
- matlab gui伪色彩增强,基于Matlab GUI的医学灰度图像伪彩色增强判读系统
- java源文件组成_java源文件由什么组成?,java源文件组成
- unity3d 火焰燃烧
- 关于Wincc 7.0 sp1 亚洲版的下载链接地址及授权,破解
- 汤臣倍健营销云与畅捷通T+系统对接方案