ICDAR 2019比赛及数据集下载

https://rrc.cvc.uab.es/?ch=14&com=tasks

任务-ICDAR2019任意形状文本的鲁棒阅读挑战

我们提议的比赛包括三个主要任务:

  1. 场景文字检测,
  2. 场景文字识别
  3. 场景文字发现。

注意

参赛者可以自由使用公开可用的数据集(例如ICDAR2015,MSRA-TD500,COCO-Text和MLT。)或合成图像作为本次比赛的额外训练数据,而不允许公开访问的私人数据不被使用。

基本事实格式

任务1和3

我们按照命名约定创建一个覆盖数据集中所有图像的JSON文件,以结构化格式存储基本事实:

gt_ [image_id]其中image_id表示数据集中图像的索引。

在JSON文件中,每个gt_ [image_id]对应于一个列表,其中列表中的每一行对应于图像中的一个单词,并以以下格式给出其边界框坐标,转录,语言类型和难度标志:

{

“ gt_1”:[{“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“转录”:“ trans1”,“语言”:“拉丁语”,“难以辨认“:false},

{“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“转录”:“ trans2”,“语言”:“中文”,“难以辨认”:false}] ,

“ gt_2”:[

{“ points”:[[x1,y1],[x2,y2],…,[xn,yn]],“ transcription”:“ trans3”,“ language”:“ Latin”,“难以辨认”:false}] ,

……

}

其中“点”中的x1,y1,x2,y2,...,xn,yn是多边形边界框的坐标,可以是4、8、10、12个多边形顶点。“转录”表示每个文本行的文本,“语言”表示转录的语言类型,可以是“拉丁”和“中文”。与COCOtext [3]和ICDAR2015 [2]相似,当设置为“ true”时,“模糊性”表示“无关”文本区域,这不会影响结果。

任务2

给定的输入将是带有相应文本实例的裁剪图像块,以及相对的多边形空间坐标。与任务1相似,对于数据集中的所有图像,我们按照命名约定创建一个JSON文件以结构化格式存储基本事实:

gt_ [image_id]其中image_id表示数据集中图像的索引。

{

“ gt_1”:[{“点”:[[x1,y1],[x2,y2],...,[xn,yn]],“转录”:“ trans1”,“语言”:“拉丁语”,“难以辨认“:false}],

“ gt_3”:[{“点”:[[x1,y1],[x2,y2],...,[xn,yn]],“转录”:“ trans2”,“语言”:“拉丁语”,“难以辨认“:false}],

“ gt_3”:[{“点”:[[x1,y1],[x2,y2],...,[xn,yn]],“转录”:“ trans3”,“语言”:“拉丁语”,“难以辨认“:false}],

……

}

注意,多边形坐标是作为可选信息提供的。参与者可以自由决定是否使用该信息。

图1:ArT数据集的示例图像。红色的装订线与多边形的地面真实顶点一起形成。该数据集中的所有图像均以“ jpg”后缀保存。

图2. ArT的多边形地面真值格式

 

图2说明了所有提到的属性。值得指出的是,这种多边形地面实况格式与所有以前的RRC不同,后者使用了轴对齐的边界框[1、3]或四边形[2]作为唯一的地面实况格式。两者分别具有两个和四个顶点,这被认为不适用于ArT中面向任意方向的文本实例,尤其是弯曲的文本实例。中文和拉丁文字均在ArT中进行了注释。遵循MLT数据集的做法[5],我们用行级粒度注释中文脚本,并以单词级粒度注释拉丁文脚本。

在此处下载提交示例:ArT-gt-example.zip

任务1:场景文本检测

此任务的主要目的是在给定输入图像的情况下检测每个文本实例的位置,这与所有先前的RRC场景文本检测任务相似。此任务的输入严格限制为仅图像,不允许任何其他形式的输入来在检测文本实例的过程中帮助模型。

  • 输入:场景文字图像
  • 输出:每个文本实例在拉丁语脚本的单词级别和在中文脚本的行级别的空间位置。

结果格式

所有提交结果的命名应遵循以下格式:res_ [image_id]。例如,与输入图像“ gt_1.jpg”相对应的文本文件的名称应为“ res_1”。要求参与者在单个JSON文件中提交所有图像的检测结果。提交文件格式如下:

{

“ res_1”:[

{“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c},

{“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c}],

“ res_2”:[

{“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c}],

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。同样,n是顶点的总数(可以是不固定的,在不同的预测文本实例之间可以变化),而c是预测的置信度得分。为了鼓励尝试此挑战的不同方法,我们为参与者提供了一个默认包装脚本,这些参与者的模型将最终生成遮罩作为其最终输出,并在将其结果提交进行评估之前将其转换为多边形顶点。参与者可以自由使用并鼓励他们使用自己的方法将其遮罩输出转换为多边形顶点。

在此处下载提交示例:ArT-detection-example.zip

评估指标

对于T1,我们遵循CTW1500 [4]采用基于IoU的评估协议。IoU是基于阈值的评估协议,默认阈值设置为0.5。我们将在0.5和0.7阈值上报告结果,但只有低于0.5的H均值将被视为每个提交模型的最终分数,并用作提交排名的目的。为了确保公平,竞争对手需要为每次检测提交可信度评分,因此我们可以迭代所有可信度阈值以找到最佳的H均值。同时,在有多个匹配项的情况下,我们仅考虑具有最高IOU的检测区域,其余匹配项将被视为误报。精度,召回率和F分数的计算如下:

其中TP,FP,FN和F分别表示真阳性,假阳性,假阴性和H均值。

所有难以辨认的文本实例和符号都标记为“无关”区域,这不会对评估结果有所帮助。

任务2:场景文本识别

该任务的主要目的是识别裁剪图像补丁中的每个字符,这也是以前RRC中的常见任务之一。考虑到与拉丁文字相比,中文文字识别的研究还不成熟,我们决定将T2进一步细分为两个子类别:

  1. T2.1-仅拉丁文字,
  2. T2.2-拉丁文字和中文文字。

我们希望这样的划分可以使非汉语的人更容易完成这项任务,因为我们在这场比赛中要解决的主要问题是对任意形状文本的挑战。

  • 输入:裁剪的带有文本实例的图像补丁。
  • 输出:一串预测字符。

结果格式

对于T2,要求参与者在单个JSON文件中提交所有图像的预测成绩单:

{

“ res_1”:[{“ transcription”:“ trans1”}],

“ res_2”:[{“ transcription”:“ trans2”}],

“ res_3”:[{“ transcription”:“ trans3”}],

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。

注意:无论脚本如何,参与者都只需要提交一份即可。我们将按照拉丁和混合(拉丁和中文)两种类别评估所有提交的内容。在评估拉丁文字的识别性能时,所有非拉丁文字都将被视为“无关”区域。

在此处下载提交示例:  ArT_recognition_example.zip

评估指标

对于T2.1,不区分大小写的单词准确性将作为主要的挑战度量标准。除此之外,所有针对文本斑点评估的标准实践(例如i)对于包含符号的地面真相,我们将在中间考虑符号ii),但在基本事实和陈述的开头和结尾都删除符号(!?。:: *“()·[] /'_)。

对于T2.2,我们采用归一化编辑距离度量(特别是1-NED)和不区分大小写的单词精度。1-NED还用于ICDAR 2017竞赛ICPR-MTWI [6]。尽管将发布两个指标的结果,但仅将1-NED视为正式排名指标。归一化编辑距离(NED)的公式如下:

其中d(:)代表的Levenshtein距离,和 与 表示字符串的预测文本行,并在区域中的对应的基础事实。注意,在所有地面真实位置上都计算了相应的地面真实,以选择最大IoU中的 一个作为预测对。N是“配对” GT和检测到的区域的最大数量,其中包括单例:与任何检测都不匹配的GT区域(与NULL /空字符串配对)和与任何GT区域不匹配的检测(与NULL /空配对)空字符串)。

之所以选择1-NED作为T2.2的官方排名度量标准,是因为中文脚本比拉丁文字具有更多的词汇量,而且通常还有更长的词汇量,这使得单词准确度指标过于苛刻,无法正确评估T2.2。在1-NED评估协议中,将以一致的方式对待所有字符(拉丁文和中文)。

注意:为避免注释中的歧义,我们在评估前执行某些预处理步骤:1)英文字母不区分大小写;2)繁体字和简体字被视为同一标签;3)空格和符号将被删除;4)所有难以辨认的图像均不会影响评估结果。

任务3:场景文字识别

该任务的主要目的是以端到端的方式检测和识别所提供图像中的每个文本实例。与RRC 2017相似,将提供通用词汇表(9万个常用英语单词)作为此挑战的参考。与T2相同,我们将T3分为两个子类别:

  1. T3.1拉丁文字仅能识别文字,
  2. T3.2拉丁和中文脚本文本识别。 
  • 输入:场景文字图像
  • 输出:拉丁文字的每个文本实例在单词级别的空间位置,中文脚本的每个文本实例的空间位置以及每次检测的预测单词的空间位置。

结果格式

最后,要求参与者以以下格式在一个JSON文件中提交所有图像的结果:

{

“ res_1”:[

{“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“转录”:“ trans1”},

{“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“转录”:“ trans2”}],

“ res_2”:[

{“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“转录”:“ trans3”}],

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。

注意:无论脚本是什么,参与者都只需要提交一次即可。我们将按照拉丁和混合(拉丁和中文)两种类别评估所有提交的内容。在评估拉丁文字的识别性能时,所有非拉丁文字都将被视为“无关”区域。

在此处下载提交示例:ArT-end-to-end-result-example.zip

评估指标

对于T3,我们首先通过计算检测结果与相应的地面真相交点(IoU)来进行评估。IoU值高于0.5的检测区域将与识别基础事实(即特定文本区域的成绩单基础事实)匹配。同时,在有多个匹配项的情况下,我们仅考虑具有最高IOU的检测区域,其余匹配项将被视为误报。然后,我们将使用不区分大小写的单词准确性H均值和1-NED(以1-NED作为官方排名)评估T3.1的预测转录(而该评估中的中文区域将被忽略)。与T2.2相似,我们将同时发布T3.2的度量标准(1-NED和不区分大小写的单词准确性),

注意:识别部分的预处理步骤与任务2相同。

参考文献

  1. Karatzas,Dimosthenis等。“ ICDAR 2013健壮的阅读比赛。” 文件分析与识别(ICDAR),2013年第12届。IEEE,2013年。
  2. Karatzas,Dimosthenis等。“ ICDAR 2015强劲阅读竞赛。” 文档分析与识别(ICDAR),2015年第13届。IEEE,2015年。
  3. 戈麦斯,劳尔等人。“ ICDAR2017对COCO-Text的强大阅读挑战。” 第14届IAPR国际文件分析与识别会议(ICDAR)。IEEE,2017年。
  4. 于良,刘,连文,金,等。“通过横向和纵向序列连接的弯曲场景文本检测。” 模式识别,2019年。
  5. Nayef,Nibal等。“ ICDAR2017在多语言场景文本检测和脚本识别-RRC-MLT上的强大阅读挑战。” 文件分析与识别(ICDAR),2017年第14届IAPR国际会议。卷 1. IEEE,2017年
  6. 石宝光等。“ ICDAR2017野外阅读中文比赛(RCTW-17)。” 文件分析与识别(ICDAR),2017年第14届IAPR国际会议。卷 1. IEEE,2017年。

=======

下载-ICDAR2019任意形状文本的鲁棒阅读挑战

ArT数据集将包含10,166张图像。它分为具有5,603张图像的训练集和4,563张图像的测试集。

训练数据和测试集的第一部分也可以从百度镜像中找到:  ArT数据集

注意

参赛者可以自由使用公开可用的数据集(例如ICDAR2015,MSRA-TD500,COCO-Text和MLT。)或合成图像作为本次比赛的额外训练数据,而不允许公众访问的私人数据不被使用。

注册确认

1)要确认是否参加了RRC竞赛2019的ICDAR-2019 ArT挑战,请发送电子邮件至  ICDAR-2019@baidu.com  ,标题为“ 参加ICDAR-2019 ArT挑战 ” 
2)您参与或提交结果,这是一种兴趣表达。您可以参加挑战的一项或多项任务。没有必要参加所有任务。

训练套

  • 对于任务1和任务3

    • train_images.tar.gz  (1.6G)-5,603张图片
    • train_labels.json  (41M)- 用于 5,603张图像的地面真实文件
  • 对于任务2
    • train_task2_images.tar.gz  (439M)-50,029图片
    • train_labels_task2.json  (35M)- 用于 50,029张图像的地面真实文件

测试集

  • 测试集的第一部分:

    • 对于任务1和任务3

      • test_part1_images.tar.gz  (1.4G)-2271张图片
    • 对于任务2
      • test_part1_task2_images.tar.gz  (439M)-24836图片
  • 测试集的最后一部分:
    • 对于任务1和任务3

      • test_part2_images.tar.gz (1.4G) -2292张图片
    • 对于任务2
      • test_part2_task2_images.tar.gz  (467M)-27795  图片

注意:  测试集的第一部分和第二部分的结果应一起 提交,评估结果将在4月30日之后提供 。

建议使用OpenCV 3.1进行图像处理。

ICDAR 2019比赛及数据集下载-任务-ICDAR2019任意形状文本的鲁棒阅读挑战相关推荐

  1. ICDAR 2019国际竞赛召开在即,百度联合学界重奖破局者!

    素有文档图像识别领域"世界杯"之称的 ICDAR 2019国际权威竞赛将于3月1日正式开赛. 奖金总计17400美元! 作为 ICDAR 2019 Robust Reading C ...

  2. 数字时代,谁能成为小功率UPS领域的“王者”?

    在数字时代,电力作为支撑现代化.智能化和智慧化的关键因素,扮演着不可替代的角色,已渗透到生产生活的方方面面. 在这其中,UPS有了更大的用武之地,发挥着越来越来越重要的作用.尤其是在不断涌现的边缘计算 ...

  3. ICDAR 2019 CROHME + TFD比赛 手写数学表达识别与排版公式检测的竞争

    ICDAR 2019 CROHME + TFD比赛 手写数学表达识别与排版公式检测的竞争 家 任务 数据和工具 寄存器 主办单位 有用的链接 最后的CROHME数据集 以前的CROHME 在线提交工具 ...

  4. ICDAR 2019 论文下载

    点击我爱计算机视觉标星,更快获取CVML新技术 ICDAR( International Conference on Document Analysis and Recognition )是文档分析与 ...

  5. Understanding Clouds from Satellite Images比赛的discussion调研与colab数据集下载配置

    colab数据集下载配置代码: %%time !pip install -U -q kaggle !mkdir -p ~/.kaggle!echo '{"username":&qu ...

  6. ICDAR 2019论文:自然场景文字定位技术详解

    自然场景文字定位是文字识别中非常重要的一部分.与通用的物体检测相比,文字定位更具挑战性,文字在长宽比.尺度和方向上有更大范围的变化.针对这些问题,本文介绍一种融合文字片段及金字塔网络的场景文字定位方法 ...

  7. 腾讯数平精准推荐 | 横扫ICDAR 2019,斩获七项冠军

    2019年6月,两年一届的国际文档分析与识别竞赛(ICDAR)落下帷幕,这是全球文字识别(OCR)领域最顶级赛事.腾讯数平精准推荐团队(Data Platform Precision Recommen ...

  8. 常见目标跟踪数据集下载链接整理(更新中)

    搜罗一下,感觉没人把常见的目标跟踪数据集下载链接汇总整理的,这里就整理一下,因为有些网址很难打开,这里也是想方便之后大家获取,来看看吧!我就从大佬图中来找几个吧!因为不是全接触过,有些链接不是很好,有 ...

  9. 【机器学习】 - 各种人脸数据集下载地址及说明汇总

    1. Olivetti Faces人脸数据集 由40个人组成,共计400张人脸: 每人的人脸图片为10张,包含正脸.侧脸以及不同的表情: 整个数据集就是一张大的人脸组合图片,下载地址:https:// ...

最新文章

  1. 美多商城后台管理之登录、浏览器的同源策略
  2. R语言使用str_replace函数和str_replace_all函数替换字符串中匹配到的模式:str_replace函数替换第一个匹配到的字符串、str_replace_all函数替换所有匹配到的
  3. python使用sklearn的RocCurveDisplay来可视化ROC曲线(受试者工作特征曲线)
  4. python requests 爬取数据
  5. 【手写系列】纯手写实现JDK动态代理
  6. ICML 2020 | 第四范式基于AutoML的深度网络记忆性自动化挖掘
  7. 以计算机为话题写作文,以我的发现为话题作文(通用3篇)
  8. python 定义method_python进阶14:实例方法和类方法、types.MethodType()
  9. 云小课|想实现资源全自动备份?看完这篇秘籍,不再蕉绿~
  10. 使用telnet命令测试网络时连接建立后无法退出解决办法
  11. 语音识别学习笔记(一)【概述】
  12. C++基础::字符串流(stringstream)
  13. Flink开发需要的环境
  14. AS数据库自动备份的DOS语句
  15. 2015职称计算机考试模拟,2015职称计算机考试《Dreamweaver》模拟试题(9)
  16. win10同步服务器文件夹,和彩云如何设置同步文件夹?
  17. IT30:12年前电脑笔记,回忆杀(1)
  18. 【002】龙芯CPU实时系统解决方案
  19. 二级分销系统开发源码可以用多久?
  20. 新手上路必备的 DAX 函数(下)

热门文章

  1. python编程获取续蜀山剑侠传:目录名称、网址、内容,保存到文件
  2. LKT6830C安全MCU(一):资源介绍
  3. linux使用rdesktop-vrdp进行远程连接
  4. NGUI 中,长技能图标显示技能Tips的核心代码
  5. 成功创业小成靠智,大成靠德
  6. 如何用gitee的pull request交作业?网页端5步轻松完成
  7. 半导体器件物理【17】非平衡过剩载流子 —— 复合
  8. 【微电子】半导体器件物理:0-2半导体器件基本架构与类型、半导体器件与电路技术之发展
  9. [附源码]java毕业设计车辆违章信息管理系统
  10. CPU性能篇-CPU使用率