基础数据准备

训练所需要的数据集合都存储在数据库中,还有部分文本文件
首先对数据进行分类结构化存储[因为涉及到的是多分类问题]

整理并存储原始数据集

使用numpy将所有需要数据读取出来

splitlines() ==> 按照 或者分割

import numpy as npimport pandas as pdvalues1 = np.array(open(r'text1.txt', 'r', encoding='utf-8').read().splitlines())values2 = np.random.choice(open(r'text2.txt', 'r', encoding='utf-8').read().splitlines(),100000) 

设计标识符

label_map = {    1: 'values1',    2: 'values2',}

将所有数据进行拼接

data = np.concatenate([values1,values2])

生产相应数量的标识

lable = np.concatenate([np.array([4]*len(values1)),np.array([5]*len(values2))])

生成DataFrame数据结构

df = pd.DataFrame({"data":data,"lable":lable})

提取数据结构中多余的字符

df.replace('||!', '', inplace=True, regex=True)

将整合后的原始数据存储为csv文件

df.to_csv("dataset.csv",sep="!",index=False,header=False)

使数据集向量化

from keras.preprocessing.sequence import pad_sequences  # 对序列进行预处理生成长度相同的序列from keras.utils.np_utils import to_categorical  # 将标签转换为 one-hot 编码

对每个字符进行old操作

def process(s: str):    s = str(s).lower()    return [ord(c) for c in s]data = df['data'].apply(process).values

将序列处理成相同长度的数组

MAX_SEQUENCE_LENGTH = 30data = pad_sequences(data, maxlen=MAX_SEQUENCE_LENGTH,dtype='int',padding='post',truncating='post')

去除数组内重复数字并进行排序之后输出

palette = np.unique(data)

获取每个字符在palette中的位置

data = np.digitize(data, palette, right=True)

将标签转化为 one-hot 编码

labels = to_categorical(df['lable'].values)

划分训练子集与测试子集

from sklearn.model_selection import train_test_splittrain_data, val_data, train_label, val_label = train_test_split(data, labels, test_size=0.2, random_state=42)print('train data shape: ', train_data.shape, '   train label shape: ', train_label.shape)print('val data shape: ', val_data.shape, '   val label shape: ', val_label.shape)

#人工智能##深度学习##AI科技#

深度学习数据集制作_一篇文章搞定人工智能之深度学习创建训练数据集的方法相关推荐

  1. Python学习入门基础:一篇文章搞定函数基础、函数进阶

    一.函数基础 函数的快速体验 函数的基本使用 函数的参数 函数的返回值 函数的嵌套调用 在模块中定义函数 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在 ...

  2. 关于python论文2000字_一篇文章搞定Python全部基础知识

    前言: 1.Python软件安装 第一章.字符串及数字变量 1.变量 2.数字型数据 要点提炼:这下面那张图就行,至于其它的,就是文本转字数(int),数字转文本(Str) 3.字符串 要点提炼:字符 ...

  3. python 函数进阶_Python学习入门基础:一篇文章搞定函数基础、函数进阶

    一.函数基础函数的快速体验 函数的基本使用 函数的参数 函数的返回值 函数的嵌套调用 在模块中定义函数私信小编001即可获取Python学习资料01. 函数的快速体验 1.1 快速体验 所谓函数,就是 ...

  4. c++求矩阵的秩_一篇文章搞定矩阵相关概念及意义通俗解释汇总

    最近在学习矩阵相关知识,但是其抽象的解释让人摸不着头脑,通过浏览一些博客的内容和自己的理解,本文通过通俗的语言将矩阵的内涵做了总结.其中除了书本和个人观点,部分引用博客.本文主要帮助大家理解矩阵,但不 ...

  5. asp.net javascrip获取session的值_一篇文章搞定 Django Cookie 与 Session

    cookie Cookie的由来 大家都知道HTTP协议是无状态的. 无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请求和之后的请求都无直接关系,它不会受前面的请求响应情况直接影响,也不 ...

  6. matlab基于dct的图像压缩编码解码_一篇文章搞定DCT在JPEG中的本质

    前序傅立叶变换,离散傅立叶变换,推荐这个回答的介绍 想和大家讨论一下jpeg中的dct变换,为什么有效?它有什么更深层次的本质吗?​www.zhihu.com 全篇参考下文,英文较好可以直接看. uc ...

  7. mysql当前时间往后推一周_一篇文章搞定Mysql日期时间函数

    前言 日期和时间函数部分也是我们日常工作中使用频率比较高的一部分.这一篇我们主要讲讲mysql里面的日期时间相关的函数,不同数据库之间基本相同,只会有个别函数的差异.大家掌握一个数据库的,其他的遇到不 ...

  8. 一篇文章搞定DX9.0c 环境里的3DXSpriet !!

    四年前写过一篇<一篇文章搞定3DXSpriet !! >得到了很多的反馈,现在那篇文章中的好多代码已经不可以再用了,所以对其中的一些代码做了改动,为了方便初学者掌握3DXSpriet,再写 ...

  9. Android NDK开发之旅(2):一篇文章搞定Android Studio中使用CMake进行NDK/JNI开发

    Android NDK开发之旅(2):一篇文章搞定android Studio中使用CMake进行NDK/JNI开发 (码字不易,转载请声明出处:http://blog.csdn.NET/andrex ...

最新文章

  1. Android 自定义View之3D骰子旋转
  2. python中元组的使用_Python当中tuple元组的使用
  3. python登录网页账号密码_python03网页用户名密码登录
  4. 设备树学习之(二)点灯【转】
  5. Xamarin iOS教程之显示和编辑文本
  6. python求数列的积_python小游戏学习笔记4-2(列表【】,数列矩阵排列)
  7. 表的基本查询(数据库篇)
  8. 文件上传之传统方式上传代码回顾
  9. 朗文3000词汇表带音标_英语零基础音标语法都不会词汇量3000 学雅思到6/6.5分 需要多久 该如何做?...
  10. 计算机网络(十九)-IEEE802.11无线局域网
  11. Abp框架默认表中如何添加字段
  12. 使用zabbix监控esxi
  13. 强悍的 Vim —— .vimrc(vim 配置文件)
  14. UVa 10400 记忆化搜索
  15. JDK源码如何启动编译
  16. matlab gui伪色彩增强,基于Matlab GUI的医学灰度图像伪彩色增强判读系统
  17. java源文件组成_java源文件由什么组成?,java源文件组成
  18. unity3d 火焰燃烧
  19. 关于Wincc 7.0 sp1 亚洲版的下载链接地址及授权,破解
  20. 汤臣倍健营销云与畅捷通T+系统对接方案

热门文章

  1. 用C读取INI配置文件 (可在linux平台上用)
  2. 移动端点击输入框,弹出键盘,底部被顶起问题(vue)
  3. HDU 2639(01背包求第K大值)
  4. 铁乐学python_day02-作业
  5. 智力问答 48倒计时
  6. 数组求和forEach方法
  7. C/C++面试之算法系列--去除数组中的重复数字
  8. VC++实现数据包嗅探
  9. 宝宝的成长脚印9/29
  10. 菜单 optionmenu