晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

有时你遇到一篇古老的文献,PDF文档还是扫描版。又或者是遇到一幅网页版海报,上面的文字你完全看不懂。

但你无法把图片中的文字复制下来做进一步处理,是不是让人头大?

虽然市场上有很多OCR软件可以识别图片中的文字,但还是有种种局限性,比如无法识别文字排版,需要转成其他文件后才能处理,无法直接操作。

最近,一位来自MIT的学生Kevin Kwok解决了以上这些问题。他用计算机视觉算法写了个Chrome插件Naptha,可以直接识别网页图片中的文字,并直接对它们进行高亮、复制粘贴、翻译、修改等操作。

拾取图片中的文字

Naptha无需在电脑上安装App,直接在Chrome应用商店中搜索Project Naptha,就可以看到这款插件,一键安装后即可在Chrome浏览器中使用。

Naptha可以用于在线漫画、扫描文档,甚至连拍摄照片中的文字也能识别出来。

普通的网页文字自然不在话下:

如果是别人给你发过来的扫描文件也没关系,直接把文件拖到Chrome浏览器中(Chrome支持打开多种本地文件),Naptha就能识别。

对于照片中的图片,Naptha也能够读出。作者Kevin拍摄了一本书的封面,除了文字不清晰、竖向排列的情况,封面的书名和简介都能正常识别出来。

Naptha还支持读取表格文字,并将复制下来的文字粘贴到Excel里。

Kevin承诺,Naptha未来还会加入翻译、除去文字水印、直接在图片上修改文字等功能。这些功能目前还处在beta测试阶段,处于不稳定或者不可用状态。

不是OCR,是文本检测

光学字符识别(OCR)已经不是什么新鲜事了,虽然Naptha实现的功能看起来像OCR,但实际上它主要功能实际上是文本检测。

一般的OCR不包含语言模型,而Naptha则可以根据上下文的概率输出一系列字母。比如把一串字符判定成“hello”,而不是“he1 | o”。

OCR需要知道图片中的语言才能正确识别文本,Naptha使用的是一种称为“ 笔划宽度变换”的算法,该算法由微软研究院于2008年提出,它就像人一样,即使不知道是何种语言,也能猜到文字就在那里。

结合其他算法,如连通分量分析(识别不同的字母)、otsu阈值(确定字间距)、不相交的集合森林(识别文本行),Naptha可以非常快速地建立文本区域、单词和字母的模型,识别图中存在哪些特定字母。

通过一些基本的布局分析和文本度量,Naptha还可以找出文本的对齐参数、字体大小和字体粗细。有了这些信息,它可以在同一个地方以类似的字体重新打印文本,或者将文本改成同字体的其他文字。

传送门

博客地址:

Chrome插件下载地址:

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

能直接复制图片中文字,功能远超普通OCR软件,MIT学生开发了一款强大Chrome插件...相关推荐

  1. MIT开发的一款最新Chrome插件,功能远超OCR软件,可快速识别和复制图中文字

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 有时你遇到一篇古老的文献,PDF文档还是扫描版.又或者是遇到一幅网页版海报,上面的 ...

  2. android beam苹果,安卓版隔空投送:功能远超苹果!

    最近,据9to5google等外媒报道称, 谷歌将推出一款名为Fast Share的文件传输工具,它的技术原理.使用方法以及主要功能都和苹果的隔空投送相当接近. Fast Share强调的也是无需联网 ...

  3. php 中文朗读,能说会道 学生版 官方网站 | 功能最强大的语音朗读软件,支持全世界近30种语言...

    [概括介绍] "能说会道"学生版 完美支持 Windows XP/Windows Vista/Windows 7/Windows 8/Windows 10 操作系统,是一款面向学生 ...

  4. chrome插件infinity_5款超好用Chrome插件,快试试看!

    现在应该很多人使用Chrome浏览器吧,大家安装了浏览器,如果不懂得安装插件,那真的很可惜!今天给大家推荐几款Hack君认为不错的插件给大家 .Infinity New TabInfinity新标签页 ...

  5. 手机办公总被质疑效率低?合理地使用手机功能,办公效率远超电脑

    不知道大家有没有发现?随着国内科技的进步,很多上班族已经开始逐渐脱离电脑的存在,开始使用手机进行办公,但是使用手机办公真的效率高吗? 小酱总是质疑使用手机办公的人们,不过最近小酱发现自己真的是跟不上时 ...

  6. 华为语音解锁设置_华为手机免费语音转文字功能如何开启?手把手教你如何设置,超赞...

    原标题:华为手机免费语音转文字功能如何开启?手把手教你如何设置,超赞 关于华为手机免费语音转文字功能,相信你也有所了解,但还有很大部份华为手机用户表示:我的手机为什么没有语音转文字的功能. 如果你是华 ...

  7. ai图像识别python的项目_Python3调用百度AI识别图片中的文字功能示例【测试可用】...

    本文实例讲述了Python3调用百度AI识别图片中的文字功能.分享给大家供大家参考,具体如下: 首先pip install命令安装baidu-aip模块,如下图所示(这里使用pip3 install ...

  8. Flutter学习第十三天,2021最新版超详细Flutter2.0实现百度语音转文字功能,Android和Flutter混合开发?

    Flutter实现百度语音转文字功能 1.新建一个flutter项目,来实现View端. 2.新建android端的module 1.打开flutter里面的Android文件 1.新建一个modul ...

  9. mac 文字识别软件ocr_mac超快速ocr文字识别软件 mac上超好用的文字识别软件推荐...

    OCR文字识别软件是在日常的生活和工作中十分常用的一款软件.而当下使用mac系统的用户也越来越多了,相比较于windows不同的是,mac上能够使用的ocr用具基本上会比较难找.这里就为大家推荐几款在 ...

最新文章

  1. 7.0系统设备xposed框架激活经验
  2. 中级软考 计算机指令执行过程(取指、分析、执行)计算机重叠流水线问题
  3. 基因分子生物学~强和弱化学键
  4. ITK:创建一个二进制球结构元素
  5. python sqlalchemy mysql 自动映射
  6. 奔跑吧linux内核_别了,Linux 的魔法时代!
  7. 一周学好python_耗时一周整理的Python资料,包含各阶段所需网站、项目,收藏了?慢慢来...
  8. 程序员每天少吃===活120岁
  9. 疯了,要建飞铁!比飞机快3倍,4000km/h,北京到深圳半小时
  10. SQL“多字段模糊匹配关键字查询”
  11. android百度云和谐,视频总被百度云和谐?这个小工具帮你完美解决
  12. U盘启动盘还原的方法
  13. 项目进度管理方法——里程碑式管理
  14. 计算机云班课王清答案,基于蓝墨云班课的移动学习实践
  15. Speedoffice(Excel)怎样给文字添加删除线?
  16. 简单spring cloud服务升级实现
  17. 基于区块链的自动抽奖系统从0到1实现探析预言机与跨链技术的融合发展
  18. linux vi 报错 E37: No write since last change (add to override)
  19. 180522 安卓-DDCTF2018(RSA)
  20. VSCode 自动检查代码出错Vetur

热门文章

  1. springboot2.0系列(二):配置属性
  2. 利器:Sublime Text 要点记录
  3. 检查mysql当前状态
  4. bootstrap搜索框样式代码及效果
  5. AIX 查看进程的内存使用情况
  6. selenium3浏览器驱动安装设置方法
  7. Java学习day_012(OOP):抽象类、接口和内部类(上)
  8. redis setnx 原子性_Redis从入门到深入-分布式锁(26)
  9. Metasploit漏洞利用基础教程要出版了
  10. 图片预览组件PhotoView