导语:在刚刚结束的第15届国际文档分析与识别大会(澳大利亚悉尼)上,腾讯数据平台部(下称“数平”)团队获颁7项冠军证书,并受邀在会议上做技术分享。
9.20 - 9.25,作为全球OCR领域标杆性盛会,第15届国际文档分析与识别大会(ICDAR 2019)在澳大利亚悉尼召开,同时也揭晓了本年度ICDAR竞赛的结果并为冠军团队颁发获奖证书。
腾讯数平图像团队(Tencent-DPPR Team)依靠领先的文字检测与识别技术能力,在本次竞赛的三个大项比赛中(MLT19,LSVT,ReCTS, 共10个子任务)获得了7项第一,2项第二的优异成绩,并受邀在会议上做技术报告分享。这也是团队自2017年获得4项OCR冠军之后,再次代表腾讯在OCR领域最权威国际赛场中折桂。

MLT-文本检测 冠军
MLT-语种识别 冠军
MLT-端到端语种识别 冠军
MLT-端到端文字识别 冠军
LSVT-文本检测 冠军
LSVT-端到端文字识别 冠军
ReCTS-端到端文字识别 冠军

ICDAR 2019 群英荟萃
文档分析与识别大会 (ICDAR,International Conference on Document Analysis and Recognition) 是由国际模式识别协会 (IAPR, International Association of Pattern Recognition) 举办,专注于文本识别领域的技术研究与应用。会议每两年举办一次,自1991年第一届开始,至今已经成功举办了十五届。自从2003年大会开始设立“Robust Reading Competitions”以来,该竞赛已成为评估自然场景/网络图片/复杂视频文本检测与识别新技术进展的最权威国际赛事及国际评测标准,在国际模式识别、文档分析与识别等领域具有重要的影响力。同时该竞赛由于其较高技术难度、贴合各类实际应用场景,多年来一直是各大科研院校、科技公司关注竞逐的焦点。截止目前,已经有128个国家的11000多支队伍在ICDAR竞赛中参加过竞逐。其中Google、微软、腾讯、阿里巴巴、百度、三星、商汤、旷视、海康等国内外科技公司都取得过不错的成绩,竞赛中涌现出的许多方法都对OCR技术的发展起到了强大的推动作用。目前,ICDAR竞赛已经成为业界影响力最大、参赛队伍最多、水平最高、覆盖面最广的文字识别竞赛。
本次ICDAR竞赛更加贴合实际业务场景,针对中英文的识别任务更多、图片数量更大、测评标准更符合中英文,同时中国团队的影响力越发强大。百度、美团点评、中科院、华南理工、上海交通大学、华中科技大学等公司和高校积极参与了竞赛组织工作。同时更多的团队参与了竞赛角逐,据赛后不完全统计,仅中国团队就有过百支队伍队伍参赛, 其中包括:
(1)企业团队:腾讯、阿里、百度、华为、联想、平安、商汤、旷视、美团点评、科大讯飞、VIVO、北大方正、搜狗、第四范式、合合信息等;
(2)学校团队:清华、北大、中科院、华中科大、复旦、上海交大、中科大、北航、南京大学、南京航空、华南理工、同济大学、哈工大、山东大学、四川大学、天津大学等。
这也标志着在文字识别技术领域,中国团队当前已经走在了世界前列。
腾讯数平图像团队
腾讯数平图像团队(参赛队名Tencent-DPPR Team)基于自研算法,共参加了三大项目比赛共10项子任务,获得了其中的7项冠军:
  1. LSVT项目(大规模弱标注街景文字识别): 包揽全部两项冠军
  2. MLT-19项目(多语言自然场景文字识别):包揽全部四项冠军
  3. ReCTS项目(中文招牌文字识别):端到端文字识别Task获得冠军
三大比赛任务均源自于实际应用场景,具有较大的技术难点,且各自侧重点不一。LSVT侧重中英文街景拍摄图,MLT-19侧重多语言的自然场景和文档,而ReCTS侧重商户拍摄的招牌图片。
LSVT 文本检测官方排名(Top-10)
官方结果: https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=1

LSVT 端到端文字识别官方排名(Top-10)
官方结果: https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=2

MLT-19 文本检测官方排名(Top-10)
官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=1

MLT-19 词条语种识别官方排名(Top-10)
官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=2

MLT-19 端到端文本检测和语种识别官方排名(Top-10)
官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=3

MLT-19 端到端多语种文字识别官方排名(Top-10)
官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=4

ReCTS 端到端文字识别官方排名(Top-10)
官方结果:https://rrc.cvc.uab.es/?ch=12&com=evaluation&task=4

腾讯数平图像团队本次参赛

OCR算法概要介绍

在检测算法上,此次ICDAR2019比赛中,我们的基础模型从2017年的基于Faster R-CNN升级到了Mask R-CNN改进版,并且增加了基于FCN的实例分割算法模型。
在Mask-RCNN基础上我们改进了诸多技术点,包括:增加采用了困难样本挖掘策略的Cascade级联回归,更准确地预测检测框;同时增加可变形卷积以及Anchor学习机制等诸多模块;由于自然场景非常复杂,很多时候根据候选框本身去判定是否为文字区域比较困难,我们还在Mask-RCNN中引入了全局的语义信息监督,去辅助判定。针对任意角度的文本候选框,我们采用多边形Soft NMS来得到最后的文本位置。我们充分结合Mask-RCNN和FCN两种算法的优势,发挥在不同场景下方法的互补性。
检测算法流程图
在识别算法方面,相比于我们在2017年获胜所用的CNN+LSTM结构的识别算法,本届比赛中我们采用了更多样、更强力的网络结构。我们在原有的VGGNet+BiRNN的编码网络的基础上进行改进,使用了更具表达能力的SE_ResNeXt卷积模块和Multi-Head Self-Attention时序编码模块。CNN+BiRNN使用的基于CTC的解码网络能够很好地捕获局部特征,但在全局语义信息的理解上有所不足,为此我们引入了基于Attention的解码网络形成互补。使用这些模块,我们设计了多个不同的网络结构,之后采用集成方法将不同模型的识别结果进行基于置信度的整合。整体流程图如下所示:
识别算法流程图
腾讯数平图像团队专注于OCR技术领域的研究,多年的研究与应用实践经验积累起了丰富的OCR能力矩阵,形成了自己的技术特色:
  1. 多平台:支持GPU、CPU、FPGA、iOS、Android等多个系统平台, 支持在线、离线识别;
  2. 多语言:支持中文简体、中文繁体、英文、各类符号、以及日文、韩文、拉丁文、斯拉夫文、印地语等超过20个语种;
  3. 高精度:在广告图片、文档图片、自然场景图片等多个具有较大难度的数据集上识别精度超过92%,远超行业内竞品;
  4. 高性能:平均每张图片时耗<100ms,且支持高并发;
  5. 高鲁棒:对于垂直文本、倾斜文本、超长文本、复杂排版、超大尺寸、手写体、艺术字体、低分辨率、透视畸变、超密集等各类场景可有效识别;
  6. 多功能:除了支持字符识别,也支持段落合并、文字面积占比、字体识别、置信度过滤等各项实用功能;
  7. 高可靠:团队OCR技术能够兼容各类异常图片请求,具备企业级服务的可靠性,并提供云端部署、私有化本地加密部署等多类可靠方案;
  8. 快接入:提供快速接入系统,小批量业务可10分钟内极速接入,大批量业务可一天内接入,为各业务带来方便快捷的OCR服务;
除OCR技术外,团队也积极研发了20多项计算机视觉AI能力, 包括 清晰度识别、品牌识别、物体识别、场景识别、色彩分析、风格识别、服装标签、布局分析、商品分割、显著性检测、人脸属性、美学度量、二维码检测、智能裁剪,视频跟踪、深度估计、光流计算、全景分割、字幕识别、明星识别等,涵盖了图像与视频中重要的技术点。相关技术在公司内部50多个重要业务团队中得到使用,例如:腾讯广告、QQ、微信、微视、翻译君等。尤其是在腾讯广告场景中,团队结合大数据处理能力、实时精准推荐能力,为广告智能审核、广告精准推荐、广告智能制图等提供了大量图像AI技术能力,极大提升了腾讯广告的效率与效果。
此次ICDAR 2019国际竞赛,是一场工业界与学术界技术碰撞与学术交流的盛会,将国际文字识别技术的研究和应用推到一个新高度,同时也进一步加强了腾讯技术的国际影响力。未来团队将继续坚持“一切以用户价值为依归”和“科技向善”的理念,持续打造核心技术,为用户创造价值,为人类生活品质的提升贡献技术力量!

腾讯数平团队 荣获第15届国际文档分析与识别竞赛七项冠军相关推荐

  1. 腾讯数平精准推荐 | 横扫ICDAR 2019,斩获七项冠军

    2019年6月,两年一届的国际文档分析与识别竞赛(ICDAR)落下帷幕,这是全球文字识别(OCR)领域最顶级赛事.腾讯数平精准推荐团队(Data Platform Precision Recommen ...

  2. 腾讯数平精准推荐 | OCR技术之识别篇

    腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐.海量大数据挖掘等领域的技术研发与落地. 在社交广告推荐领域,团队自研的深度在线点击率预估算法及全流程实时推荐系统,持续多年提升社 ...

  3. 华农c语言程序设计教程陈湘骥,华农数信学子在第44届国际大学生程序设计竞赛勇夺金牌...

    数信学子在第44届国际大学生程序设计竞赛勇夺金牌 中国区决赛 上海站 南京站 哈尔滨站 近日,第44届国际大学程序设计竞赛(中国区决赛)在西北工业大学落下帷幕.我校数学与信息学院.软件学院的张宏海.何 ...

  4. java毕业设计腾讯网游辅助小助手源码+lw文档+mybatis+系统+mysql数据库+调试

    java毕业设计腾讯网游辅助小助手源码+lw文档+mybatis+系统+mysql数据库+调试 java毕业设计腾讯网游辅助小助手源码+lw文档+mybatis+系统+mysql数据库+调试 本源码技 ...

  5. JAVA毕业设计科研团队管理系统计算机源码+lw文档+系统+调试部署+数据库

    JAVA毕业设计科研团队管理系统计算机源码+lw文档+系统+调试部署+数据库 JAVA毕业设计科研团队管理系统计算机源码+lw文档+系统+调试部署+数据库 本源码技术栈: 项目架构:B/S架构 开发语 ...

  6. 中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

    中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救"金融民工" | CCF-GAIR 2017 本文作者:叨叨 2017-07-09 22:22 专题:GAIR 2017 ...

  7. 中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解

    中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救"金融民工" | CCF-GAIR 2017 本文作者:叨叨 2017-07-09 22:22 专题:GAIR 2017 ...

  8. 【资源推荐】良心之作!超过 10000+ 的互联网团队正在使用的在线 API 文档、技术文档工具...

    搞开发的同学都知道一个好的 API 文档是有多重要! 每当接手一个别人开发好的项目,看着那些没有注释的代码,真的头大. 程序员都很希望别人能写技术文档,因为可以提高自己开发的效率,而往往自己却很不希望 ...

  9. 良心之作!超过 10000+ 的互联网团队正在使用的在线 API 文档、技术文档工具

    搞开发的同学都知道一个好的 API 文档是有多重要! 每当接手一个别人开发好的项目,看着那些没有注释的代码,真的头大. 程序员都很希望别人能写技术文档,因为可以提高自己开发的效率,而往往自己却很不希望 ...

最新文章

  1. 提升深度学习模型性能及网络调参
  2. SCOM2016 安装OS或应用管理包
  3. C#资源文件与与资源名称字符串之间的互相转化
  4. hdu-4825(01字典树)
  5. 大数据互联网架构阶段 Linux下安装mysql启动的常见问题
  6. 为什么我喜欢写即时通讯软件呢?
  7. 2006年博客之星(小废物点评版)
  8. window操作大全
  9. 无线通信基础(一):高斯随机变量
  10. 没项目经验,这7个前端项目让你脱颖而出
  11. 许愿墙|爱墙 js代码
  12. 乐心健康php,《乐心健康》修改步数网页【获取方法】入口
  13. 详细设计的工具——PAD图
  14. 什么是BSP? 概念解析
  15. 明星粉丝经济“叫好不叫座”?变现需找准“窍门儿”
  16. python的中文分词
  17. 恒大股价创新高许家印再成首富;惠普宣布停产Windows手机丨价值早报
  18. 软件测试工程师自我介绍范文_软件测试面试自我介绍范文3篇
  19. 2023-01-18 ClickHouse之聚合功能源码分析
  20. 缓存的6种常见的使用场景

热门文章

  1. Linux运维工程师面试题第三套
  2. Exchange 2007 申请多域名证书
  3. SOAP协议 访问Webservice
  4. 安装memcached服务和PECL关于memcache的两个PHP扩展
  5. “《面对面---做好每一天》--中国短道速滑教练李琰”读后感
  6. 四、启动OpenLDAP服务器
  7. 2021牛客多校7 - xay loves monotonicity(线段树区间合并)
  8. 牛客 - 血压游戏(虚树+dp)
  9. HDU - 6214 Smallest Minimum Cut(最小割最少边数)
  10. POJ - 3630 Phone List(字典树)