阅读文章:《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》

  这篇文章是对一项中文检测和识别比赛项目(RCTW)的介绍和总结,这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于,包含12263张标注过的中文数据集,有两项任务,文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日,共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明 。

-数据介绍
-任务及评价标准
-结果总结与分析

1. 数据介绍
  数据集的名字叫做CTW-12k,由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。
  数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
  数据集划分为两部分,训练集和验证集包含8034张图片,这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片,并在截止日期前一个星期发布。

2. 任务及评价标准
  任务分为两个:文本检测,end-to-end文本识别。与之前的比赛不同的是,没有设置cropped text recognition task,因为相比之下,进行end-to-end的识别设定效果更好。

1) Task 1 - Text Localization
  文本定位是一项传统的竞赛任务,目标是确定图像中包含文本行的四边形位置,同时提供每个四边形的置信分数。
  对于这项任务,主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值,即所有类别PR曲线下面积的平均值,由于本次竞赛中只有文本这一个类别,故mAP也就等同于AP。
  原始的AP是定义在轴对齐的bounding box基础上的,而本次竞赛项目中的文本由四边形定位,所以在四边形上计算IoU而不是矩形,如下图所示,计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确:(1)IoU大于0.5;(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时,选择IoU最大的一个。

  之前的竞赛普遍使用F-score作为评价标准,F-score是在P和R之间做出一些调整,但AP在调整中保持不变。本任务以AP作为主要的评价标准,并以此根据提交结果进行排行。为了与之前的竞赛对比,同时对每一个提交结果计算出最大F-meansure分数,两个分数均在结果表上列出。

  (a) PR(precision-recall)曲线:以查全率R为横坐标,以查准率P为纵坐标的曲线。查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题。查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。

  (b) mAP:每个类别都可以绘制一条PR曲线,曲线下方与X轴之间的面积为AP值,对每个类的AP再求mean,就是mAP。
  (c) ROC曲线:曲线的坐标分别为真正例率(TPR)和假正例率(FPR)

  (d) F-score:综合考虑PR曲线中P和R两个指标
当β=1β=1时称为F1-score,即P和R的权重相同。
2)Task 2 - End-to-End Recognition
  该任务的目标是同时进行文本定位和识别,参与队伍要求提交检测结果的同时提交识别结果,检测分数替换为识别的文本内容。
  评价标准为计算识别结果与groundtruth之间的编辑距离,评价过程包括两步:首先,每一个检测结果匹配为一个groundtruth(对应最大的IoU)或”None”(没有与groundtruth的IoU大于0.5的检测结果),如果多个检测结果与同一groundtruth匹配,则选择IoU最大的一个作为检测结果,其他的均设为”None”;然后,计算所有匹配对的编辑距离,如果一个检测结果被标记为”None”,则计算检测结果的文本内容与空字符之间的距离,求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
  为了与其他比赛相比较,还计算了normalized edit distance(NED)。

3. 结果总结与分析
1)结果提交
Table 1 总结了Task 1的top10,并在结果列表中列出了AP和最大F-measure分数。

其中排在前3名的队伍:
(i)”Foo&Bar”:采用的是faster-rcnn算法,网络为resnet101及基于imagenet预训练的模型。
(ii)”NLPR_PAL”:采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
(iii)”gmh“:CNN算法。

Table 2列举了Task 2的结果:

2)结果分析
Task 1:普遍的错误有两种,(1)由于text line过长导致的错误;(2)检测结果有冗余。
Task 2:主要错误有3种,(1)错误的检测结果导致识别错误;(2)视角问题导致的文字形变;(3)相似的文字结构导致的错误识别(如“园”和“国”)
---------------------

转自:https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy

转载于:https://www.cnblogs.com/Allen-rg/p/9791792.html

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍相关推荐

  1. Chinese Text in the Wild (CTW data)

    Chinese Text in the Wild (CTW data)数据集 清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the Wild,CTW)--一个超大的街景图 ...

  2. Chinese Text Detection and Recognition

    原文站点:https://senitco.github.io/2017/03/03/text-detection-recognition/   The task of Chinese text det ...

  3. 《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》论文阅读

    参考博文: CRNN的一个变种,可以读一读,看看相对于CRNN来说有什么变化?以及为什么? 文章目录 make decision step1:读摘要 step2:读Introduction step3 ...

  4. 《Editing Text in the wild》学习笔记

    Editing Text in the wild Abstract 对自然图像中的文本进行编辑,其目的是在保持原始图像的真实感的同时,将源图像中的一个词替换或修改为另一个词.这项任务具有挑战性,因为背 ...

  5. A Large Chinese Text Dataset in the Wild | OCR数据集 | 正确下载方式

    ❤️[专栏:数据集整理]❤️ 之[有效拒绝假数据]

  6. Sublime Text 3 全套快捷键及功能介绍

    Sublime text 3 是我最喜欢的代码编辑器,每天使用,是一款 Code 效率神器.如果掌握基本的代码编辑器的快捷键,能让你打码更有效率.结合自己的需求,有选择的使用.练习.熟悉相关快捷键,一 ...

  7. Sublime Text 2插件安装及快捷键介绍

    Sublime Text 2是一款不错的编码工具,不仅具有丰富的插件扩展,还有利于提高编码速度的快捷键,下面我们就来了解一下这款神器吧. 1.Sublime Text 2插件 建议先启用Package ...

  8. sublime text的插件emmet的功能介绍页

    http://docs.emmet.io/cheat-sheet/ 转载于:https://www.cnblogs.com/liu-l/p/3619783.html

  9. ICDAR2017中文检测数据集

    http://valser.org/thread-1200-1-1.html 端到端场景文本识别 M. Liao, B. Shi, X. Bai, X. Wang, W. Liu. TextBoxes ...

  10. TextDetection文本检测数据集汇总

    字符识别和文本检测在实际生活中十分重要,从最简单的车牌检测到复杂的环境文本识别都需要这一技术的支持.目前这一领域最著名的会议是International Conference on Document ...

最新文章

  1. C++:随笔4--对象
  2. 多个VSTO解决方案间传输变量
  3. Java案例-用户注册邮箱绑定激活功能实现
  4. dart系列之:dart语言中的函数
  5. 人机猜拳代码python_python实现人机猜拳小游戏
  6. 灯亮怎么办_发动机故障灯亮了怎么办?看了这些,也许根本不用去4S店
  7. array在java_在Java中的ArrayLists之间进行转换
  8. win10PPT不支持Flash动画
  9. c语言试题答题卡,c语言题目及答题卡.docx
  10. SSM框架整合及详解
  11. 百度披露被黑原委 黑客骗得邮箱
  12. ACM题解——贪心——卫星安装
  13. 使用计算机进行会计核算的 只要,用电子计算机生成的会计资料?
  14. vue run dev报错 缺少package.json文件、missing dev 命令 解决办法
  15. Louvain 社团发现算法学习(我的java实现+数据用例)
  16. 博士申请 | 香港科技大学陈浩老师招收人工智能医疗方向全奖博士/博后
  17. Android系统Crash/ANR类型弹框
  18. 系统分析和设计方法之全书总结
  19. 多种UI和界面设计汇总(一)
  20. 前端入门之(vuex源码解析一)

热门文章

  1. VLAN的分类与实验
  2. 杭电计算机2010年笔试真题详解
  3. 虚拟机和电脑共享文件夹
  4. window.open在Safari浏览器出现的问题
  5. Java基础知识(一) 自增、自减运算符
  6. 可以这样去理解group by和聚合函数
  7. Red5服务器端报错:无法解析类型ResourcePatternResolver
  8. XHTML学习资料(三)—— 表格
  9. smart link和聚合链路综合实验
  10. 对象用[]来获取属性的注意点