现实中,你可以轻松无障碍地阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢?

统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士。但我们在日常生活中却很少见到他们,那是因为视障群体在日常生活中会有诸多不便,出门对他们而言危机四伏。AI 有可能成为他们的“眼睛”吗?

成为他们的眼睛 白描 App 与视障群体的故事

如果手机上只能有一款 App,你会选择哪一款?视障人士安之坚定地给出了答案——白描。因为白描 App 让视力不佳的他用另一种方式“看”清世界,文字不再遥不可及。他用白描“看”过优美的诗篇,“听”过动人的乐章,甚至在独自上楼看不清所在楼层时,白描也准确地将答案告诉了他,将他从窘境中解救出来。一个 App 让曾经望“字”兴叹的他更加勇敢地走出家门,参与丰富多彩的生活。

“白描是我的眼。”同为视障人士的小杰从不吝啬对白描的夸赞,甚至直言白描是视障伙伴赖以生存的工具。白描帮助他解决了生活的难题,从各类电器、数码产品、药品说明书到各种洗漱用品包装都可以识别,他还可以给可爱的小侄女讲绘本故事。如果没有白描,这种事情是他难以想象的。

白描是如何做到被视障群体视若珍宝的呢?

白描 App 是一款简洁高效的 OCR 文字识别软件,不仅简单好用,而且设计美观,可以轻松实现“拍照-识别文字-朗读结果”一系列流程。同时,白描适配了手机无障碍辅助功能,视障者可以在手机上非常轻松地操作。

“白描”这个词本意是一种文学写作手法,鲁迅先生曾把这种手法概括成十二个字,即“有真意,去粉饰,少做作,勿卖弄”。白描 App 的开发者陶新乐正是这样的一个人,他观察到了不同人群的实际需求,用虚拟世界的代码满足了现实世界有需求的人,让他们的生活变得更加美好、便捷。

白描 App 开发者的心路历程 切入不同场景、优化产品细节

你或许很难想象,作为一名个人开发者的陶新乐,他最早开发白描 App 是为了女朋友。陶新乐的女友热爱阅读,经常做读书笔记。为了减轻抄录压力,她尝试使用了当时市面上的各类文字识别软件,但她发现:有的软件操作流程繁琐,有的费用高昂,有的则识别不准确……看到女朋友痛苦不已,陶新乐当下决定亲自做个体验好、效果佳的 OCR 文字识别工具给女朋友使用,并且很快付诸了行动。这或许就是开发者独有的浪漫。

然而,一款 App 的开发过程是充满未知与挑战的。在当时的条件下,开发一款具有 OCR 功能的软件,面临的一个巨大挑战是:如何让文字识别得又快又准。因此,他调研了市面上提供此服务的厂商,并对不同厂商的产品进行了对比,尝试识别不同场景的图片,找出识别效果最好的那个。于是他发现,百度智能云的 OCR 技术能力和使用体验都是最好的,尤其是识别准确度更领先于其他厂商,所以在2017年他就毫不犹豫地选择了百度智能云 OCR 技术,并一直使用至今。

但是优秀的底层技术并不意味着全部,百度智能云 OCR 已提供近60项技术能力,好的技术也需要应用于匹配的场景才能发挥更大的价值。

于是,陶新乐首先对白描的使用场景做了细分研究,比如:学生上课拍 PPT 提取文字记笔记、企业员工把纸质合同扫描成电子版并且制作 PDF、把纸质表格转成 Excel 电子版、翻译图片上的文字、老师拍摄并识别试题后对试题再加工、律师用来提取纸质文书上的文字等等。特别是视障人群特殊的使用需求,他都有关注和调研。

考虑完用户的使用场景之后,再就是对产品的不断打磨。当时,图片转文字常常会有识别错误的情况发生,为了解决这一问题,在识别之前,白描 App 会进行一些技术上的处理,比如图像压缩如何保证清晰度又尽量减小图片大小;如何在进行长图自动裁剪时,检测到长图的空行位置自动裁剪,且不会裁到文字;如何针对文章进行自动分段,更便于读者阅读等等。这些精细化的产品设计保证了图片的清晰度,让文字信息更易于被识别。而在识别之后,白描的校对功能,可以让识别结果与原图显示在同一界面上,方便用户快速找到需要修改的地方,在此基础上进行编辑。

依托百度智能云优秀的深度学习算法,以及自身的图像预处理能力,白描 App 最终实现了关键字段识别准确率99%+。看到女友使用白描时绽放的笑颜,陶新乐觉得一切都是值得的,他也希望更多人能够享受到这份快乐。

成功的背后 用“匠人”之心雕琢产品之光

程序员出身的陶新乐在做产品这件事上一直怀揣一颗“匠人”之心。陶新乐提到,AI 在落地的过程中会遇到很多困难,很多时候都是一边踩坑一边向前走。当遇到无法解决的问题时,就需要不断学习,攻坚克难。

百度智能云 OCR 技术与无数像陶新乐一样的开发者并肩同行。作为最早规模化应用的 AI 技术之一,OCR 技术的产业级应用持续取得突破。百度智能云 OCR 技术可提供多场景、多语种、高精度的文字检测与识别服务,多项 ICDAR 指标居世界第一,已广泛适用于远程身份认证、财税报销、文档电子化等场景,为企业降本增效,为用户带来更智能化的应用体验。

当然,AI 技术的应用落地,除了需要有百度智能云这样提供领先 AI 技术能力的平台外,还需要更多像陶新乐这样的开发者们,发挥想象将 AI 应用在更多真实场景中,满足不同用户群体,甚至是容易被忽视的残障人群的需求,让社会更有“AI”。同时,为了降低独立开发者和企业自主训练 OCR 文字识别模型的门槛,百度智能云推出业界首个 EasyDL OCR 自训练平台,提供零门槛、定制化、低成本的一站式 OCR 模型训练服务。保证高准确率的同时,满足多元化的场景需求,并有效保障数据安全。

在这个科技为大众生活赋能的时代,产品的设计更是一种普惠理念的输出。已拥有超过800万用户的白描 App,已经成为业界的口碑产品。相信,未来还将有越来越多的开发者通过百度大脑 AI 开放平台提供的 AI 技术与服务,创造出更多与场景相结合的智能应用,让更多人生活更便捷、更美好。

点击进入了解更多技术资讯~~

OCR加持白描App,让AI成为视障者的眼睛相关推荐

  1. 百度大脑 OCR 技术加持白描 App :让 AI 成为视障者的眼睛

    现实中,你可以轻松无障碍的阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢? 统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士.但我们在日 ...

  2. 百度大脑OCR技术加持白描App:让AI成为视障者的眼睛

    现实中,你可以轻松无障碍的阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢? 统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士.但我们在日 ...

  3. 为白描App的“匠人之心”加码,百度OCR让文字识别更智能

    现实中,你可以轻松无障碍的阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢? 统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士.但我们在日 ...

  4. webgl 着色器_如何使用AI,AR和WebGL着色器来帮助视障人士

    webgl 着色器 by Dan Ruta 通过Dan Ruta 如何使用AI,AR和WebGL着色器来帮助视障人士 (How you can use AI, AR, and WebGL shader ...

  5. 淘宝因无障碍工作再获奖 引入读光OCR助视障者无差别网购

    刚刚,淘宝因无障碍工作又双叒叕获奖啦! 今天,第二届科技无障碍发展大会公布了最新科技产品信息无障碍评测结果并现场颁奖,淘宝和支付宝客户端从50多款APP中脱颖而出.双双获奖. 这次大会由信息无障碍产品 ...

  6. 活动招募 HUAWEI HiAI公开课·北京站-如何在4小时把你的APP变身AI应用

    人工智能和机器学习是全球关注的新趋势,也是当前最火爆.最流行的话题.当你拿手机用语音助手帮你点外卖,智能推荐帮你把周边美食一网打尽:当你拿起P20拍照时,它将自动识别场景进行最美优化,让你成为摄影大师 ...

  7. 助力视障人士,微软等公司捐赠首批AI有声内容

    12月2日,微软与周迅AI语音红丹丹公益项目发起人鹿音苑文化传播公司,以及来自微软及各界的150名余志愿者,将创作的首批人工智能有声内容,包括鲁迅.老舍.萧红.朱自清等作家的一系列经典作品.红丹丹文化 ...

  8. 饿了么是视障者非常喜欢的APP,你们要加油哦!

    晓马是饿了么的一名产品经理,这天早上,他上班第一件事是打开微博.昨天饿了么新版的APP在App Store上线,他知道"老朋友"小G会在微博私信里给他留言反馈,他需要这些意见去改进 ...

  9. Gamma.app:由AI驱动,一种呈现想法的新媒介

    Gamma.app是一种由AI驱动的新媒介,可以快速生成工作演示文稿.文档或网页,无需格式和设计工作.它具有美丽的品牌化PPT.简洁的上下文和简洁.直观.互动的特点,可以嵌入任何内容,包括GIF.视频 ...

最新文章

  1. 083、Prometheus架构(2019-05-05 周日)
  2. 跟我学Springboot开发后端管理系统9:AOP+logback+MDC日志输出
  3. AI应届生年薪涨到40万了,你现在转行还来得及!
  4. Python:更改默认启动的python程序及其对应的安装包路径(更改pip的默认安装包的路径)图文教程之详细攻略
  5. python fork 守护进程
  6. spring整合mybatis接口无法注入问题
  7. ascii码扩展 php,php与ascii码
  8. 论文中baseline是什么意思?
  9. Linux I2C总线驱动调试之i2c-tools工具使用
  10. 如何永久删除360SANDBOX?问题解决
  11. SVN checkout 之后图标没有显示(绿色勾)的问题
  12. JVM标配、X和XX参数
  13. IDEA,Pycharm等环境中复制代码到word去除黑色背景
  14. githug关卡小游戏,练习git
  15. 小白的RFID宿舍智能锁
  16. 传智博客(JavaWeb方面的所有知识)听课记录(经典)
  17. 外贸B2B网站如何做Google SEO获取流量?
  18. Java版工程行业管理系统源码-专业的工程管理软件-提供一站式服务
  19. 【图论专题二】【网络流部分】狼和羊的故事
  20. mysql导入导出语句6_mysql的导入导出 | 吴老二

热门文章

  1. FL Studio21官方中文版本下载详细图文安装激活教程及FL21系统配置要求
  2. [GFL]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Dete
  3. 保姆级——Java使用腾讯云实现手机号验证码登录
  4. 【Matlab学习手记】二次多项式曲面拟合
  5. 巅峰之作:柯尼卡美能达 bizhub 958产品百科
  6. canvas绘图色块区域+多边形区域色块显示功能
  7. python 五子棋单机个人版-pygame
  8. C# 控制电脑本地时间修改
  9. 508任务一:用pytorch简单实现LeNet5网络对MNIST数据集训练
  10. [转载]锤子官网的 banner 的 3D 悬浮效果