零基础入门CV之街道字符识别 Task1 赛题理解
赛题任务
以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。
赛题数据
数据来源于公开数据集SVHN街道字符。
提供训练集数据3W张照片,验证集数据1W张照片;
每张照片包括颜色图像和对应的编码类别和具体位置;
为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片;
提供了训练集、验证集中所有字符的位置框。
评测指标
以编码整体识别准确率为评价指标。任何一个字符错误都为错误,最终评测指标结果越大越好,具体计算公式如下:
Score=编码识别正确的数量/测试集图片数量
解题思路
给定数据图片中有的图片的字符个数为2,有的图片字符个数为3,有的图片字符个数为4,因此赛题的难点是需要对不定长的字符进行识别。解题思路有以下几种。
定长字符识别
可以将赛题抽象为一个定长字符识别问题,在赛题数据集中大部分图像中字符个数为2-4个,最多的字符 个数为6个。
因此可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。
经过填充之后,原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行11个类别的分类,假如分类为填充字符,则表明该字符为空。
不定长字符识别
在字符识别研究中,有特定的方法来解决此种不定长的字符识别问题,比较典型的有CRNN字符识别模型。
在本次赛题中给定的图像数据都比较规整,可以视为一个单词或者一个句子。
检测再识别
在赛题数据中已经给出了训练集、验证集中所有图片中字符的位置,因此可以首先将字符的位置进行识别,利用物体检测的思路完成。
此种思路需要构建字符检测模型,对测试集中的字符进行识别。可以参考物体检测模型SSD或者YOLO来完成。
最后,拟采用定长字符识别方式完成本实验。加油ヾ(◍°∇°◍)ノ゙
零基础入门CV之街道字符识别 Task1 赛题理解相关推荐
- 零基础入门CV之街道字符识别----Task1赛题的理解
Datawhale 零基础入门CV赛事-Task1 赛题理解 本章内容将会对街景字符识别赛题进行赛题背景讲解,对赛题数据的读取进行说明,并给出集中解题思路. 1 赛题理解 赛题名称:零基础入门CV之街 ...
- 计算机视觉入门CV之街道字符识别—01赛题理解
计算机视觉入门CV之街道字符识别-01赛题理解 赛题 赛题理解 1.赛题数据 2.数据标签 3.数据读取 思路分析 赛题 以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符 ...
- Task01——零基础入门NLP - 新闻文本分类之赛题理解
本篇目标 首先本篇文章会对赛题进行介绍以及个人对赛题的理解,带大家接触NLP的预处理.模型构建和模型训练等知识点. 赛题介绍 赛题名称:零基础入门NLP - 新闻文本分类 赛题任务:赛题以自然语言处理 ...
- Datawhale 零基础入门CV赛事-Task3 字符识别模型
文章目录 1.CNN实现 2.Pytorch实现CNN 3.使用ImangeNet预训练模型 1.CNN实现 CNN基础 2.Pytorch实现CNN 构建一个简单的CNN模型和训练过程 import ...
- 零基础入门CV - Task 03 字符识别模型.md
1. 数据特征提取 学习了解数据特征的概念,实现用python进行数据特征提取. 以sklearn为例进行学习 我们将城市和环境作为字典数据,来进行特征的提取. sklearn.feature_ext ...
- 零基础入门CV赛事,理论结合实践
Datawhale干货 作者:阿水,Datawhale成员 本次分享的背景是,Datawhle联合天池发布的学习赛:零基础入门CV赛事之街景字符识别.本文以该比赛为例,对计算机视觉赛事中,赛事理解和B ...
- 零基础入门CV赛事- 街景字符编码识别
零基础入门CV赛事- 街景字符编码识别 Task01 学习目标 数据介绍 Task01任务内容 数据读取 解题思路 学习目标 熟悉计算机视觉赛事 完成典型的字符识别问题 掌握CV领域赛事的编程和解题思 ...
- Task1 赛题理解---zpz
Task1 赛题理解学习记录 项目名称:零基础入门数据挖掘 - 二手车交易价格预测 1 赛题背景 本次的赛题名称为:零基础入门数据挖掘之二手车交易价格预测大赛.赛题以二手车市场为背景,要求选手预测二手 ...
- 【算法竞赛学习】二手车交易价格预测-Task1赛题理解
二手车交易价格预测-Task1 赛题理解 一. 赛题理解 Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分,为大家入门数据挖掘比赛提供一个基本的赛题入门讲解,欢迎后续大家多多交流. 赛 ...
最新文章
- JavaScipt 中的事件循环(event loop),以及微任务 和宏任务的概念
- 计算机课四年级说课稿,小学信息技术说课稿
- php wap页下拉刷新代码,js实现的移动端下拉刷新功能代码实例
- OpenKruise:阿里巴巴 双11 全链路应用的云原生部署基座
- docker三剑客之docker-machine
- 在 ASP.NET 使用 jQuery BlockUI 插件
- 音视频技术开发周刊 67期
- Opencv基础画图函数——line、circle、rectangle、Rect、ellipse、polylines、putText函数的用法
- 嫦娥回来了,还有哪些浪漫传说已经实现?
- python多线程写同一个文件_Python多线程快速写入文件,python,飞速
- YurunOAuthLogin v2.0.2,第三方 OAuth2 授权一把梭
- leetcode-189. Rotate Array
- 计算机管理可以更新吗,微信可以批量管理好友吗(电脑版微信3.0.0更新规则了)...
- Producer向Broker发送心跳的作用-知识点
- firefox vimperator (图)
- 十八、完成登录与注册页面的前端
- ext2文件系统源代码之ext2.h
- 论文查重的软件有哪些?
- APL开发日志--2012-12-03
- Android中Parcel的解读
热门文章
- 深大uooc学术道德与学术规范教育第二章
- 学计算机做纸质笔记,详细图文教你康奈尔大学推荐的超级笔记法,只要一张A4纸张,你也可以做学霸...
- 之和质数c语言题判断,C语言经典例题100例——C语言练习实例33解答(质数判断)...
- h5支付——前端需要处理什么?
- Linux apache 默认目录结构
- 宝石熔炼设备可以融化黄金吗?
- 7.scala初识 柯里化、隐式参数、隐式转换、视图边界、上界、下界、协变、逆变
- java 几种生成海报的方式
- 51nod 1535 深海探险【思维+并查集】
- 交互设计师怎样理解信息架构?