记录下第一次正式参加线上算法比赛的解题流程。虽然错过了B榜时间,但收获匪浅!
相关数据集及下文代码可见 识别高空作业及安全带_数据集及相关代码.txt

目录

  • 项目介绍
  • 数据处理
    • 标签数据提取
    • 标签数据集制作
  • 模型训练
  • 数据整合
  • 可视化显示
  • 继续改进思路
    • 数据增强
      • 赛道一二数据提取
  • 最终结果

项目介绍

大赛链接:广东电网智慧现场作业挑战赛 赛道三:识别高空作业及安全带佩戴。

数据处理

标签数据提取

从csv中提取出标签数据转存成json文件,再将json文件转为单个的coco数据集格式标签,其中box坐标为归一化后的x,y,w,h。

(1)将csv数据标签存为json文件。(data_deal.py)根据具体文本格式改写自己的数据处理的代码。

'''
官方给出的csv中的
{"meta":{},"id":"88eb919f-6f12-486d-9223-cd0c4b581dbf","items":
[{"meta":{"rectStartPointerXY":[622,2728],"pointRatio":0.5,"geometry":[622,2728,745,3368],"type":"BBOX"},"id":"e520a291-bbf7-4032-92c6-dc84a1fc864e","properties":{"create_time":1620610883573,"accept_meta":{},"mark_by":"LABEL","is_system_map":false},"labels":{"鏍囩":"ground"}}{"meta":{"pointRatio":0.5,"geometry":[402.87,621.81,909,1472.01],"type":"BBOX"},"id":"2c097366-fbb3-4f9d-b5bb-286e70970eba","properties":{"create_time":1620610907831,"accept_meta":{},"mark_by":"LABEL","is_system_map":false},"labels":{"鏍囩":"safebelt"}}{"meta":{"rectStartPointerXY":[692,1063],"pointRatio":0.5,"geometry":[697.02,1063,1224,1761],"type":"BBOX"},"id":"8981c722-79e8-4ae8-a3a3-ae451300d625","properties":{"create_time":1620610943766,"accept_meta":{},"mark_by":"LABEL","is_system_map":false},"labels":{"鏍囩":"offground"}}],"properties":{"seq":"1714"},"labels":{"invalid":"false"},"timestamp":1620644812068}
'''import pandas as pd
import json
import os
from PIL import Imagedf = pd.read_csv("3train_rname.csv",header=None)
df_img_path = df[4]
df_img_mark = df[5]
# print(df_img_mark)
# 统计一下类别,并且重新生成原数据集标注文件,保存到json文件中
dict_class = {"badge": 0,"offground": 0,"ground": 0,"safebelt": 0
}
dict_lable = {"badge": 1,"offground": 2,"ground": 3,"safebelt": 4
}
data_dict_json = []
image_width, image_height = 0, 0
ids = 0
false = False  # 将其中false字段转化为布尔值False
true = True  # 将其中true字段转化为布尔值True
for img_id, one_img in enumerate(df_img_mark):# print('img_id',img_id)one_img = eval(one_img)["items"]# print('one_img',one_img)one_img_name = df_img_path[img_id]img = Image.open(os.path.join("./", one_img_name))# print(os.path.join("./", one_img_name))ids = ids + 1w, h = img.sizeimage_width += w# print(image_width)image_height += h# print(one_img_name)i=1for one_mark in one_img:# print('%d      '%i,one_mark)one_label = one_mark["labels"]['标签']# print('%d      '%i,one_label)try:dict_class[str(one_label)] += 1# category = str(one_label)category = dict_lable[str(one_label)]bbox = one_mark["meta"]["geometry"]except:dict_class["badge"] += 1  # 标签为"监护袖章(红only)"表示类别"badge"# category = "badge"category = 1bbox = one_mark["meta"]["geometry"]i+=1one_dict = {}one_dict["name"] = str(one_img_name)one_dict["category"] = categoryone_dict["bbox"] = bboxdata_dict_json.append(one_dict)
print(image_height / ids, image_width / ids)
print(dict_class)
print(len(data_dict_json))
print(data_dict_json[0])
with open("./data.json2", 'w') as fp:json.dump(data_dict_json, fp, indent=1, separators=(',', ': '))  # 缩进设置为1,元素之间用逗号隔开 , key和内容之间 用冒号隔开fp.close()


生成data.json文件:

标签数据集制作

(2)将data.json文件按照coco数据的标签格式准备数据(将json文件按照图片的名称保存labels信息)json_to_txt.py 这里将所有的标签都减了一,可以不改,自己对的上就可以,当前标签:“badge”: 0,“offground”: 1,“ground”: 2,“safebelt”:3 bbox做了归一化(这个分数据集,有的数据集格式不一样,具体情况具体改)

import json
import os
import cv2file_name_list = {}with open("./data.json", 'r', encoding='utf-8') as fr:data_list = json.load(fr)
file_name = ''
label = 0
[x1, y1, x2, y2] = [0, 0, 0, 0]for data_dict in data_list:for k,v in data_dict.items():if k == "category":label = vif k == "bbox":[x1, y1, x2, y2] = vif k == "name":file_name = v[9:-4]if not os.path.exists('./data1/'):os.mkdir('./data1/')print('./3_images/' + file_name + '.jpg')img = cv2.imread('./3_images/' + file_name + '.jpg')    size = img.shape # (h, w, channel)dh = 1. / size[0]dw = 1. / size[1]x = (x1 + x2) / 2.0y = (y1 + y2) / 2.0w = x2 - x1h = y2 - y1x = x * dww = w * dwy = y * dhh = h * dh# print(size)# cv2.imshow('image', img)# cv2.waitKey(0)content = str(label-1) + " " + str(x) + " " + str(y) + " " + str(w) + " " + str(h) + "\n"if not content:print(file_name)with open('./data1/' + file_name + '.txt', 'a+', encoding='utf-8') as fw:fw.write(content)


模型训练

参考:yolov5训练自己的数据集(一文搞定训练)

数据集划分(这里之前有一个步骤! 因为划分数据集的时候的脚本是按照文件名索引的,但是这次的图片的格式不止一种,所以在此之前先将所有的图片都改为统一的后缀:remane.py)

import os
class BatchRename():# 批量重命名文件夹中的图片文件def __init__(self):self.path = './3_images' #表示需要命名处理的文件夹def rename(self):filelist = os.listdir(self.path)      #获取文件路径total_num = len(filelist)             #获取文件长度(个数)print(total_num)i = 1                                 #表示文件的命名是从1开始的for item in filelist:# print(item)file_name=item.split('.',-1)[0]# print(file_name)src = os.path.join(os.path.abspath(self.path), item)# print(src)dst = os.path.join(os.path.abspath(self.path), file_name + '.jpg')# print(dst)try:os.rename(src, dst)print ('converting %s to %s ...' % (src, dst))i = i + 1except:continueprint ('total %d to rename & converted %d jpgs' % (total_num, i))
if __name__ == '__main__':demo = BatchRename()demo.rename()

修改训练参数(路径及自己的类别)

训练

编写自己的detect.py文件(这里其实不用改,只需要将所需要的参数都存下来就行,都在检测结果中,detect.py文件里传入下面参数)

数据整合

检测出的结果(图片和所有的标签文件):

每个txt中存了当前图片检测出的cls bbox score:

我们要做的是按照主办方提供的测试数据的csv中的图片顺序,去到结果文件夹中索引对应的检测结果,并将所有的结果按照主办方给出的数据格式存到json文件中。result_imerge_2.py文件(这里由于训练数据标签与提交的标签并不完全相同,提交的结果必须是所属类的对应的人的标签,所以这里需要对结果整合,提取有用数据,目前我们的逻辑关系还需要进一步改善)

import pandas as pd
import json
import os
import copyglobal data_dict_json
data_dict_json = []def check_equip(id, equip_list, people_list, cls_result, cls_result2=-1):for people in people_list:dict4 = {}dict_cls = {'image_id': id, 'category_id': -1, 'bbox': [], 'score': 0}x1, y1, x2, y2, score2 = peopleif equip_list:for equip in equip_list:dict1, dict2, dict3 = {}, {}, {}equip_x1, equip_y1, equip_x2, equip_y2, score = equipcenter_x = (int(equip_x1) + int(equip_x2)) / 2center_y = (int(equip_y1) + int(equip_y2)) / 2if center_x > int(x1) and center_x < int(x2) and center_y < int(y2) and center_y > int(y1):dict1 = copy.deepcopy(dict_cls)dict1['image_id'] = iddict1['category_id'] = cls_resultdict1['bbox'] = list(map(int, people[:-1]))dict1['score'] = float(score2)if dict1['category_id'] != -1:if not dict1 in data_dict_json:data_dict_json.append(dict1)dict2 = copy.deepcopy(dict_cls)dict2['image_id'] = iddict2['category_id'] = cls_result2dict2['bbox'] = list(map(int, people[:-1]))dict2['score'] = float(score2)if dict2['category_id'] != -1:if not dict2 in data_dict_json:data_dict_json.append(dict2)else:dict3 = copy.deepcopy(dict3)dict3['image_id'] = iddict3['category_id'] = cls_result2dict3['bbox'] = list(map(int, people[:-1]))dict3['score'] = float(score2)if dict3['category_id'] != -1:if not dict3 in data_dict_json:data_dict_json.append(dict3)else:dict4 = copy.deepcopy(dict_cls)dict4['image_id'] = iddict4['category_id'] = cls_result2dict4['bbox'] = list(map(int, people[:-1]))dict4['score'] = float(score2)if dict4['category_id'] != -1:if not dict4 in data_dict_json:data_dict_json.append(dict4)def save_json(file_lines):badge_list = []off_list = []ground_list = []safebelt_list = []person_list=[]for line in file_lines:line2 = str(line.strip('\n'))content = line2.split(' ', -1)if int(content[0]) == 0:badge_list.append(content[:])elif int(content[0]) == 1:off_list.append(content[:])person_list.append(content[:-1])elif int(content[0]) == 2:ground_list.append(content[:])person_list.append(content[:-1])elif int(content[0]) == 3:safebelt_list.append(content[:])# print('+++++++',person_list)return person_listdf = pd.read_csv("3_testa_user.csv", header=None)
df_img_path = df[0]
for id, one_img in enumerate(df_img_path):# dict_data={}file_name_img = (str(one_img)).split('/', -1)[1]# print(file_name_img)file_name_label = file_name_img.split('.', -1)[0] + '.txt'# print(file_name_label)path = os.path.join("./exp_epo50_089/labels/", file_name_label)  # +file_name_labelfile = open(path, 'r')file_lines = file.readlines()# print(id, file_lines)person_list=save_json(file_lines)dict1, dict2, dict3 = {}, {}, {}for line in file_lines:# dict1, dict2, dict3 = {}, {}, {}# print('___+++___')line2 = str(line.strip('\n'))content = line2.split(' ', -1)cls, equip_x1, equip_y1, equip_x2, equip_y2, score = content[:]center_x = (int(equip_x1) + int(equip_x2)) / 2center_y = (int(equip_y1) + int(equip_y2)) / 2# print(content)if int(content[0])==1:dict3['image_id'] = int(id)dict3['category_id'] = 3dict3['bbox'] = list(map(int, content[1:-1]))dict3['score'] = float(content[-1])if dict3 not in data_dict_json:data_dict_json.append(dict3)elif int(content[0])==0:for i in person_list:print(i)cls,x1,y1,x2,y2=iif int(center_x)<int(x2) and int(x1)<int(center_x) and int(y1)<int(center_y) and int(center_y)<int(y2):dict1['image_id'] = int(id)dict1['category_id'] = 1dict1['bbox'] = list(map(int, i[1:]))# print('       ',list(map(int, i_list[1:-1])))dict1['score'] = float(content[-1])if dict1 not in data_dict_json:data_dict_json.append(dict1)elif int(content[0])==3:for i in person_list:cls,x1,y1,x2,y2=iif int(center_x) < int(x2) and int(x1) < int(center_x) and int(y1) < int(center_y) and int(center_y) < int(y2):dict2['image_id'] = int(id)dict2['category_id'] = 2dict2['bbox'] = list(map(int, i[1:]))dict2['score'] = float(content[-1])if dict2 not in data_dict_json:data_dict_json.append(dict2)with open("./data_result2.json", 'w') as fp:json.dump(data_dict_json, fp, indent=1, separators=(',', ': '))  # 缩进设置为1,元素之间用逗号隔开 , key和内容之间 用冒号隔开fp.close()

生成结果:data_result.json文件

可视化显示

将最后的结果在原图上画出来。可以方便我们查看结果的正确程度。result_show.py

import cv2
import json
import os
import pandas as pdfile_name_list= {}
df = pd.read_csv("3_testa_user.csv",header=None)
# print(df[0][0])dict_cls={1:'guarder',2:'safebeltperson',3:'offgroundperson'}with open("data_resultcopy2.json",'r',encoding='utf-8')as fr:data_list = json.load(fr)# file_name = ''
# label = 0
# [x, y, w, h] = [0, 0, 0, 0]
i=0
for data_dict in data_list:print(data_dict)img_id = data_dict['image_id']print(img_id)file_path=df[0][img_id]save_path='test_view_data_resultcopy2/'if not os.path.exists(save_path):os.mkdir(save_path)save_name=save_path+str(i)+'_'+(str(df[0][img_id])).split('/',-1)[1]print(save_name)img = cv2.imread(file_path)# cv2.imshow('a',img)# cv2.waitKey(0)cls=dict_cls[data_dict['category_id']]score=data_dict['score']x1,y1,x2,y2=data_dict['bbox']# print(x1,y1,x2,y2)cv2.rectangle(img, (x1, y1), (x2, y2), (0, 0, 255), 2)cv2.putText(img,str(cls)+' '+str(score),(x1,y1),cv2.FONT_HERSHEY_SIMPLEX,2,(0,0,255),3)cv2.imwrite(save_name,img)i+=1

继续改进思路

数据增强

观察得到offground与ground都是人。所以为了最后提交的人的框的准确度提高,将所有的offground与ground还有赛道一和二中的person类组成一个大的person数据集作为第4个标签。最后索引person类的bbox会更准确点。然后对于小目标袖标,我们将赛道一和二中的数据进行提取。

赛道一二数据提取

根据所给的csv标签,单独提取出袖标和person的标签数据,存入json文件。利用data_deal.py文件,如下:

对提出来的数据进行可视化:

将json标签转为归一化后的coco数据集格式json_to_txt.py

将原始数据集中的图片统一成jpg格式(方便划分数据集)

将所需的标签对应的图片copy出来,然后加到赛道三的数据中copy_file.py (继续将赛道二,赛道一都用该方法将袖标数据提出来,所要注意的是每个赛道的label要改的与官方提示一致)

最终结果

天池算法赛——广东电网智慧现场作业挑战赛 赛道三:识别高空作业及安全带佩戴相关推荐

  1. 天池算法赛:数据挖掘经典赛事!DCIC 2020 数字中国创新大赛启动!

    2020数字中国创新大赛(Digital China Innovation Contest, DCIC2020),以"培育数字经济新动能,助推数字中国新发展"为主题,采取多赛道并行 ...

  2. 2020DCIC智慧海洋建设算法赛学习01-赛题北京及地理数据分析常用工具

    序: 本系列的博客旨在学习2020DCIC智能算法赛-智慧海洋建设的优秀方案,对地理数据分析问题积累一些思路和经验. 作为这一系列博客的开篇,这篇博客主要内容包括对赛题的解析和对项目中会用到的一些常用 ...

  3. 【竞赛】智能算法赛:智慧海洋建设Top1方案代码

    海上安全治理是海洋发展中至关重要的环节,了解各个区域船只的工作情况以及具体位置,可以对于防止因为船只的碰撞等事故而造成的巨大损失,而要提升海上安全治理能力,首要任务是"看得清",即 ...

  4. 智慧中国杯算法赛解读 | 精准资助数据探索(一)

    2019独角兽企业重金招聘Python工程师标准>>> 智慧中国杯是由DataCastle(数据城堡)主办的全国大数据创新应用大赛,提供了百万的竞赛奖金,数据城堡的创始人周涛是< ...

  5. 【比赛实战篇】智能算法赛:智慧海洋建设Top1方案代码

    海上安全治理是海洋发展中至关重要的环节,了解各个区域船只的工作情况以及具体位置,可以对于防止因为船只的碰撞等事故而造成的巨大损失,而要提升海上安全治理能力,首要任务是"看得清",即 ...

  6. 【阿里天池算法学习赛】测测你的一见钟情指数/机器学习/深度学习/数据处理/Python基础

    [阿里天池算法学习赛]测测你的一见钟情指数 地址:https://tianchi.aliyun.com/competition/entrance/531825/introduction?spm=517 ...

  7. 2020数字中国创新大赛-智能算法赛-冠军方案

    写在前面的话 大家好,我是 Champion Chasing Boy 的 DOTA,在队友 鱼遇雨欲语与余. 尘沙杰少.林有夕.嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的 ...

  8. 2020数字中国创新大赛-智能算法赛-冠军方案分享

    写在前面的话 大家好,我是 Champion Chasing Boy 的 DOTA,在队友 鱼遇雨欲语与余. 尘沙杰少.林有夕.嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的 ...

  9. 重磅 CV、NLP 算法赛,科大讯飞2020 A.I.开发者大赛正式启动!

    赛事摘要: 总奖池180+万元,还有绿色就业通道&讯飞Offer.权威证书. 核心A.I.开放能力.千万优质数据.A.I.全链创业扶持等多样化的赛事福利! 大赛期间将开放科大讯飞海量数据资源及 ...

最新文章

  1. nodejs端口被占用。
  2. 毕业五年,几个月入百万阿里系大神的公众号!
  3. 没解决这个7次方程问题,为何这三个数学家却很开心
  4. 【Win32汇编】__declspec(naked)裸函数
  5. python opencv 录制视频_OpenCV Python 录制视频
  6. 地址栏中的问号有什么作用
  7. 螺钉装弹垫平垫机器人_【经验总结】什么时候用平垫,什么时候用弹垫?
  8. jquery刷新页面
  9. VC6.0常见英文错误对照表
  10. 20110128 学习记录:Datalist中的item项不自动换行而只用空格隔开
  11. 阿里巴巴Python工程师面试题之一:单引号,双引号,三引号的区别
  12. HTTP状态:202、301、304、404、503
  13. python-socket2
  14. mac设置多个屏幕显示的问题
  15. centos linux7 开启桌面命令,centos7如何在桌面打开终端
  16. 怎么把qlv格式转成mp4
  17. 源码主干分支开发四大模式
  18. 微信公众平台开通业务域名
  19. 微信公众号开发之(35)地图导航
  20. 百度云服务器上安装docker步骤

热门文章

  1. html 空格占位符_HTML常用英文单词,快来背单词吧
  2. 在位置 0 处没有任何行。_我家孩子最爱这个小零食,外酥里糯,没有任何添加剂,0失败教程...
  3. pytorch学习笔记(二十五):VGG
  4. Java 1.2.3 文件输入与输出
  5. 【干货】sql-labs、请求方式、注入类型、拼接方式
  6. 一行命令直接拷贝ssh公钥到远程服务器
  7. flask中的static_path和static_path_url和static_folder
  8. 查看tar文件的顶层目录
  9. 为什么 npm 要为每个项目单独安装一遍 node_modules?
  10. 使用requests库实现多线程下载