制作TEC数据集的步骤

数据集制作步骤:

第一步将元器件检测结果裁剪成独立的元器件图片
1.crop_roi_from_detect_result.py
folder_path中存放存放主板和主板对应的元器件输出文件,这个脚本是将检测的区域截取出来,并按照主板名称分别保存

2.match_high_low_lumi.py
这个python文件是用于由低曝光的图片的检测结果,同时截取低曝光和高曝光图片的元器件图片,并分别保存.需要对低曝光和高曝光图像进行匹配,才能抠出对应的图片.

if  __name__ == '__main__':parms = [{"img_path_low":"/home/u1/mikeyna/data/tec/test-data/ocr-test/img_low_lumi/20X18-Front.jpg","img_path_high": "/home/u1/mikeyna/data/tec/test-data/ocr-test/img_high_lumi/20X18-Front.jpg","detect_result":"/home/u1/mikeyna/data/tec/test-data/ocr-test/json/20X18-Front.json","shit_parm":[746,222]}]excel_path = "/home/u1/mikeyna/data/tec/component-ocr-list/Components_category_list_20201112.csv"crop_base_path = "/home/u1/mikeyna/data/tec/test-data/ocr-test/high_low_lumi"for parm in parms:result_path = parm['detect_result']low_lumi_image_path = parm['img_path_low']high_lumi_image_path = parm['img_path_high']start_x = parm['shit_parm'][0]start_y = parm['shit_parm'][1]img_name = os.path.basename(low_lumi_image_path).split(".")[0]crop_path_high = os.path.join(crop_base_path, img_name + "/high")crop_path_low = os.path.join(crop_base_path, img_name + "/low")crop_detect_result_high_and_low(high_lumi_image_path,low_lumi_image_path, result_path, excel_path, crop_path_high, crop_path_low, start_x, start_y)

第二步手动矫正文字的方向
做这一步的目的原因之一是为了能够利用算法达到更好的标注效果,目前的算法,如果不是正方向,经常会误检.原因之二是因为后续的ocr是需要有方向性的,目前算法端没有判断文字的方向,所以进行统计的时候都是假设他是向上的文字.
high_low_lumi_crop_up存放的是文字正方向的元器件图片
第三步对crop图片进行文字检测,并保存为via支持的.csv格式
gen_via_annotation.py
第四步用via人工再次标注
text_detect_annotaion_set1–很早前三姆森轩明视和自己拍摄图片的数据集
text_detect_annotaion_set2–三姆森拍摄的低曝光数据集
text_detect_annotaion_set3–三姆森拍摄的高曝光数据集

数据集img表示图片,gt表示icdar格式的标注文件和visualization显示标注结果

第五步用校验好的via标注文件转成训练时使用的icdar标注格式
via_annotation_to_idcar_annotation.py

第六步将不同批次的数据集合并
merge_dataset.py
将不同批次的数据集整合起来,重新命名,序号从0开始命名

第七步划分数据集
split_dataset.py
将数据集划分成train,val,test

根据划分数据集的文件,生成对应格式的数据集

1.生成icdar数据集,可用于east训练
根据上述第七步生成的划分文件,生成对应的数据集

def gen_icdar_dataset(filename, img_folder_path, annl_folder_path, save_folder):fileprocess.mkdir(save_folder)f2 = open(filename, "r")lines = f2.readlines()print(len(lines))for i,name in enumerate(lines):print(i)name = name[:-1]annl_file_path = os.path.join(annl_folder_path, str(name) + ".txt")img_path = os.path.join(img_folder_path, str(name) + ".png")img_save_path = os.path.join(save_folder, str(i) + ".jpg")annl_save_path = os.path.join(save_folder, str(i) + ".txt")im = cv2.imread(img_path)if im is None:continueret = cv2.imwrite(img_save_path, im)print(img_save_path)copyfile(annl_file_path, annl_save_path)gen_icdar_dataset(test_file_list, img_folder_path, annl_folder_path, img_prefix_test)
gen_icdar_dataset(train_file_list, img_folder_path, annl_folder_path, img_prefix_train)
gen_icdar_dataset(val_file_list, img_folder_path, annl_folder_path, img_prefix_val)

gen_icdar_dataset.py
2.生成coco数据集,可用于maskrcnn训练
gen_coco_dataset.py

dataset_type = 'cocoDataSet'
data_root = '/home/u1/mikeyna/data/data_set/tec_data_set/txt_detect_set_icdar/img_gt_coco/'
import os
import cv2
import fileprocess
import gen_icdar_dataset
import icdar2lableme
from pathlib import Pathfrom shutil import copyfiledataset_type = 'cocoDataSet'
data_root = '/home/u1/mikeyna/data/data_set/tec_data_set/txt_detect_set_icdar/'
img_prefix_train=data_root + 'coco/train/'
img_prefix_val=data_root + 'coco/val/'
img_prefix_test=data_root + 'coco/test/'test_file_list = data_root + "Main/test.txt"
train_file_list = data_root + "Main/train.txt"
val_file_list = data_root + "Main/val.txt"
annl_folder_path = data_root + "gt"
img_folder_path = data_root + "img"
labels_path = data_root + "labels.txt"
script_path ="/home/u1/mikeyna/tools/labelme/examples/instance_segmentation/labelme2coco.py"def gen_coco_dataset(filename, img_folder_path, annl_folder_path, coco_save_folder, labels):icdar_folder_path = os.path.join(data_root, "tmp_icdar")labelme_folder_path = os.path.join(data_root, "tmp_labelme")fileprocess.del_files_in_folder(coco_save_folder)my_file = Path(coco_save_folder)if my_file.exists():os.removedirs(coco_save_folder)fileprocess.del_files_in_folder(icdar_folder_path)my_file = Path(icdar_folder_path)if my_file.exists():os.removedirs(icdar_folder_path)fileprocess.del_files_in_folder(labelme_folder_path)my_file = Path(labelme_folder_path)if my_file.exists():os.removedirs(labelme_folder_path)gen_icdar_dataset.gen_icdar_dataset(filename, img_folder_path, annl_folder_path, icdar_folder_path)icdar2lableme.convert_icdar2labelme(icdar_folder_path, labelme_folder_path)os.system("python " + script_path + " "+ labelme_folder_path + " " + coco_save_folder + " " + "--labels" + " " + labels)gen_coco_dataset(test_file_list, img_folder_path, annl_folder_path, img_prefix_test, labels_path)
gen_coco_dataset(train_file_list, img_folder_path, annl_folder_path, img_prefix_train, labels_path)
gen_coco_dataset(val_file_list, img_folder_path, annl_folder_path, img_prefix_val, labels_path)