官网地址下载链接:http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html

血泪的教训史:不要把文件夹存放在目录为/var/tmp或者/tmp下,默认情况下,Linux系统每个一段时间会自动清理var/tmp或者/tmp文件的,第二天开机发现辛辛苦苦下载的数据集不见了,又重新下载了一次。

安装unzip命令解压.zip文件,打开终端输入命令:

sudo apt install unzip


安装unalz命令解压.alz文件,打开终端输入命令:

sudo apt install unalz


官网地址下载链接:
http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1trn_gnt.zip
http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1tst_gnt.zip
找到文件存放目录,解锁权限,打开终端输入命令:

解压文件,打开终端输入命令:
解压号的文件应该都为.gnt文件,放入自己建立好的对应文件夹:

将.gnt文件转化为.png格式,打开终端输入spyder,进入搭建好的python环境,运行代码:

import os
import numpy as np
import struct
from PIL import Image
# data文件夹存放转换后的.png文件
data_dir = './data'
# 路径为存放数据集解压后的.gnt文件
train_data_dir = os.path.join(data_dir, '/home/admina/下载/OCR数据集/HWDB1.1trn_gnt')
test_data_dir = os.path.join(data_dir, '/home/admina/下载/OCR数据集/HWDB1.1tst_gnt')def read_from_gnt_dir(gnt_dir=train_data_dir):def one_file(f):header_size = 10while True:header = np.fromfile(f, dtype='uint8', count=header_size)if not header.size: breaksample_size = header[0] + (header[1] << 8) + (header[2] << 16) + (header[3] << 24)tagcode = header[5] + (header[4] << 8)width = header[6] + (header[7] << 8)height = header[8] + (header[9] << 8)if header_size + width * height != sample_size:breakimage = np.fromfile(f, dtype='uint8', count=width * height).reshape((height, width))yield image, tagcodefor file_name in os.listdir(gnt_dir):if file_name.endswith('.gnt'):file_path = os.path.join(gnt_dir, file_name)with open(file_path, 'rb') as f:for image, tagcode in one_file(f):yield image, tagcodechar_set = set()
for _, tagcode in read_from_gnt_dir(gnt_dir=train_data_dir):tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')char_set.add(tagcode_unicode)
char_list = list(char_set)
char_dict = dict(zip(sorted(char_list), range(len(char_list))))
print(len(char_dict))
print("char_dict=", char_dict)import picklef = open('char_dict', 'wb')
pickle.dump(char_dict, f)
f.close()
train_counter = 0
test_counter = 0
for image, tagcode in read_from_gnt_dir(gnt_dir=train_data_dir):tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')im = Image.fromarray(image)
# 路径为data文件夹下的子文件夹,train为存放训练集.png的文件夹  dir_name = '/home/admina/下载/OCR数据集/HWDB1.1trn_gnt_train' + '%0.5d' % char_dict[tagcode_unicode]if not os.path.exists(dir_name):os.mkdir(dir_name)im.convert('RGB').save(dir_name + '/' + str(train_counter) + '.png')print("train_counter=", train_counter)train_counter += 1
for image, tagcode in read_from_gnt_dir(gnt_dir=test_data_dir):tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')im = Image.fromarray(image)
# 路径为data文件夹下的子文件夹,test为存放测试集.png的文件夹 dir_name = '/home/admina/下载/OCR数据集/HWDB1.1tst_gnt_test' + '%0.5d' % char_dict[tagcode_unicode]if not os.path.exists(dir_name):os.mkdir(dir_name)im.convert('RGB').save(dir_name + '/' + str(test_counter) + '.png')print("test_counter=", test_counter)test_counter += 1

需要改路径的地方有四处,前两处为读取.gnt的路径,后面为存储.png的路径。
最后可以得到.png图片:

CASIA-HWDB数据集下载和预处理相关推荐

  1. HWDB数据集gnt格式转为png格式

    HWDB数据集下载地址: http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html 一.数据集 HWDB数据集是解压之后,是gnt格式的 ...

  2. 数据预处理 泰坦尼克号_了解泰坦尼克号数据集的数据预处理

    数据预处理 泰坦尼克号 什么是数据预处理? (What is Data Pre-Processing?) We know from my last blog that data preprocessi ...

  3. 脑机接口竞赛( BCI competition)数据集,其他数据集下载链接

    写在前面: 发现一个给出多种数据集下载链接的博客,包含金融.医疗健康.推荐系统.图像等多种数据https://blog.csdn.net/alec1987/article/details/693886 ...

  4. 国内外深度学习开放数据集下载集合(值得收藏,不断更新)

    国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一.Image processing data set 1.MNIST ,是最流行的深度学习数据集之一.这是一个手写数字数据集,包含一个有着 6 ...

  5. pytorch Fashion MNIST 数据集下载慢怎么办

    import torch # 导入pytorch from torchvision import datasets, transforms ## 导入数据集与数据预处理的方法 import matpl ...

  6. ICDAR 2019比赛及数据集下载-任务-ICDAR2019任意形状文本的鲁棒阅读挑战

    ICDAR 2019比赛及数据集下载 https://rrc.cvc.uab.es/?ch=14&com=tasks 任务-ICDAR2019任意形状文本的鲁棒阅读挑战 我们提议的比赛包括三个 ...

  7. 机器学习数据集读取和预处理

    本文以干豆数据集为例,数据集下载位置如下:干豆数据集 import pandas as pd import sklearn import numpy as np 数据读取与预处理 dry = pd.r ...

  8. mnist等常用数据集下载地址,现成的.mat文件

    推荐一个机器学习常用数据集下载网址,LIIBSVM 数据集已经处理好的,可以直接用.

  9. Flickr30k图像标注数据集下载及使用方法(转载的,备忘)

    Flickr30k图像标注数据集下载及使用方法 这是该博主贴的链接:Flickr30k图像标注数据集下载及使用方法 直接从百度云盘中下载 链接:https://pan.baidu.com/s/1r0R ...

最新文章

  1. 英语模板末尾【希望可以记着】
  2. Spring Cloud Feign 熔断机制填坑
  3. Android应用开发—TextView的动态创建
  4. 神奇的互换身体术--java的类型擦除
  5. 【图像分割模型】多分辨率特征融合—RefineNet
  6. CSerialPort多线程串口编程工具详解
  7. wxWidgets:调试
  8. 用户体验改善案例_改善用户体验研究的5种习惯
  9. 在Windows Azure中使用自己的域名
  10. redis--服务器与客户端
  11. php 统计fasta 序列长度和GC含量
  12. Airtest 之 poco 避坑大法
  13. cheatsheet 使用_使用CheatSheet快速查看任何Mac App的所有键盘快捷键
  14. oracle RAC asm管理
  15. ai怎么取消颗粒效果_怎么用AI制作粒子消散效果字体?
  16. logistic回归模型总结
  17. Matlab 版本对照
  18. 关于计算机固态硬盘正确的是,SSD的不正确使用说明,建议你们不要打开
  19. 2万字深度解读麦克斯韦方程组,最美的方程,你也能懂她的美
  20. ROS-3DSLAM(十六)lvi-sam项目总结

热门文章

  1. CodeGear Rad Studio2007新特性(本人搜集Waiting4you的帖子)
  2. GDKOI 2017 滚粗记
  3. 需要更新以前的Visual Studio 2010实例
  4. 华为战略:关于战略沙盘的几点散谈
  5. 基于springboot+vue(thymeleaf)+mysql下的自创音乐网站平台--CrushMusic(开发日志七)
  6. x264参数介绍(帧类型和码率控制,分析和视频可用性信息)
  7. 密码学实验1 凯撒密码实验
  8. 腾讯云服务器安装配置rabbitmq
  9. 货币分拣设备行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  10. [github 源码收集] == tflearn examples