前言

丰富准确的地图数据大大提升了我们在使用高德地图出行的体验。相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置。商家招牌上的艺术字、LOGO五花八门,文字背景复杂或被遮挡,拍摄的图像质量差,如此复杂的场景下,如何解决文字识别技术全、准、快的问题?本文分享文字识别技术在高德地图数据生产中的演进与实践,介绍了文字识别自研算法的主要发展历程和框架,以及未来的发展和挑战。

一  背景

作为一个DAU过亿的国民级软件,高德地图每天为用户提供海量的查询、定位和导航服务。地图数据的丰富性和准确性决定了用户体验。传统的地图数据的采集和制作过程,是在数据采集设备实地采集的基础上,再对采集资料进行人工编辑和上线。这样的模式下,数据更新慢、加工成本高。为解决这一问题,高德地图采用图像识别技术从采集资料中直接识别地图数据的各项要素,实现用机器代替人工进行数据的自动化生产。通过对现实世界高频的数据采集,运用图像算法能力,在海量的采集图片库中自动检测识别出各项地图要素的内容和位置,构建出实时更新的基础地图数据。而基础地图数据中最为重要的是POI(Point of Interest)和道路数据,这两种数据可以构建出高德地图的底图,从而承载用户的行为与商家的动态数据。

图像识别能力决定了数据自动化生产的效率,其中场景文字识别技术占据了重要位置。不同采集设备的图像信息都需要通过场景文字识别(Scene Text Recognition,STR)获得文字信息。这要求我们致力于解决场景文字识别技术全、准、快的问题。在POI业务场景中,识别算法不仅需要尽可能多的识别街边新开商铺的文字信息&#

纯干货!文字识别在高德地图数据生产中的演进相关推荐

  1. 揭秘!文字识别在高德地图数据生产中的演进

    简介:丰富准确的地图数据大大提升了我们在使用高德地图出行的体验.相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置.商家招牌上的 ...

  2. 文字识别在高德地图数据生产中的演进

    导读:丰富准确的地图数据大大提升了我们在使用高德地图出行的体验.相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置.商家招牌上的 ...

  3. poi hssfcellstyle 文字方向_揭秘!文字识别在高德地图数据生产中的演进

    简介:丰富准确的地图数据大大提升了我们在使用高德地图出行的体验.相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置.商家招牌上的 ...

  4. 高德POI数据生产中的计算机视觉技术

    前言:又到春招季!作为国民级出行服务平台,高德业务快速发展,大量校招/社招名额开放,欢迎大家投递简历,详情见文末.为帮助大家更了解高德技术,我们策划了#春招专栏#的系列文章,组织各业务团队的高年级同学 ...

  5. 图像检索在高德地图POI数据生产中的应用

    简介: 高德通过自有海量的图像源,来保证现实世界的每一个新增的POI及时制作成数据.在较短时间间隔内(小于月度),同一个地方的POI 的变化量是很低的. 作者 | 灵笼.怀迩 来源 | 阿里技术公众号 ...

  6. 高德SD地图数据生产自动化技术的路线与实践(道路篇)

    一.背景及现状 近些年,国内道路交通及相关设施的基础建设日新月异.广大用户日常出行需求旺盛,对所使用到的电子地图产品的数据质量和现势性提出了更高的要求.传统的地图数据采集和生产过程,即通过采集设备实地 ...

  7. 腾讯云文字识别API提取表格数据并生成Excel文件

    腾讯云文字识别API提取表格数据并生成Excel文件 本文主要介绍了利用腾讯云表格文字识别API提取图片表格数据并生成Excel文件.主要涉及的知识点有:腾讯云API的调用.json文件的处理以及Ex ...

  8. 文字识别(输入为自然场景中的图像)

    大老板给我定的方向是文字识别.所以在回所之前先把基础知识看一下,相当于综述~ 我的方向与目前的文字识别区别在于,目前的文字识别输入主要是自然场景中的图像,从图像进行文字检测再继而文字识别:而我要做的输 ...

  9. python爬取高德地图数据_你的未来有我导航----教你如何爬取高德地图

    简单一文教你如何爬取高德地图 目录 推荐 一. 分析网页结构 二.拿到相关网址 三.代码实现 3.1 查询所有城市名称和编号 3.2 根据编号查询天气 四.完整代码 五.保存结果 一. 分析网页结构 ...

最新文章

  1. 切记!MySQL中ORDER BY与LIMIT 不要一起用,有大坑
  2. 【小假期】反思与计划。6.9-6.10
  3. Entity Framework Unit Testing problem and solution(转)
  4. 内存容量对计算机运行影响大吗,探索内存容量对基础应用的性能影响有多大
  5. 「MacOS」无法打开***,因为无法验证开发者。
  6. 下载matlab安装包太慢_MATLAB 2020a商业数学中文版软件下载安装教程
  7. php文件里搜索关键字,php - PHP从文本文件中搜索关键字(Action'),使用该关键字打印所有行,然后计算打印的行数 - SO中文参考 - www.soinside.com...
  8. 使用arpspoof实现内网ARP欺骗
  9. 带着canvas去流浪系列之一:绘制柱状图
  10. Android 8.0 EditText 焦点无法移动到其他控件
  11. Linux 共享库LD_PRELOAD环境变量
  12. [51nod1232]完美数
  13. proteus 仿真软件
  14. robot---百度百科
  15. 星巴克推出含萃取后咖啡粉制作的渣渣管;麦咖啡四款新品登陆全国1600家门店;可口可乐业绩恢复至疫情前水平 | 美通企业日报...
  16. python如何安装numpy模块?
  17. (CVPR-2021)具有深度通用线性嵌入的跨视角步态识别
  18. 为国内软件质量呐喊:《2021年国内质量调查报告》发布
  19. 非常出色的数字音乐编辑器-Cool Edit Pro提供下载
  20. Apache Commons Codec介绍

热门文章

  1. 电脑svchost进程占用内存
  2. HTTP,FTP,TCP,UDP及SOCKET
  3. linux 系统负载
  4. centos nfs端口固定
  5. ASP.NET MVC 音乐商店 - 7.成员管理和授权
  6. 当adobe flash player不能安装时
  7. Cacti安装插件:email,msn,fetion报警(转载)
  8. who killed my time?
  9. Android使用AudioRecord录制pcm音频原始数据以及使用AudioTrack播放
  10. 安卓实训项目:基于储存卡音乐播放器实训报告4.0