ocr字符识别

Google的光学字符识别 (OCR)软件现在可用于248多种世界语言(包括所有主要的南亚语言)。 它非常简单易用,并且可以检测大多数语言,且准确性超过90%。

该技术从图像中提取文本,对打印的文本进行扫描甚至手写,这意味着可以从几乎所有旧书,手稿或图像中提取文本。

Google的OCR可能使用Tesseract (作为免费软件发布的OCR引擎)或OCRopus (一种主要用于Google图书中的免费文档分析和光学字符识别(OCR)系统)的依赖项。 Tesseract在1995年至2006年期间作为社区项目开发,之后由Google接管 ,被认为是最准确的OCR引擎之一,可处理60多种语言。 源代码可在GitHub上获得 。

OCR项目支持页面在输出文本中的OCR之后提供了有关保留字符格式的其他详细信息,例如粗体和斜体。

在处理您的文档时,我们尝试保留基本的文本格式,例如粗体和斜体文本,字体大小和类型以及换行符。 但是,检测这些元素很困难,我们可能不会总是成功。 其他文本格式和结构元素(例如项目符号和编号列表,表格,文本列以及脚注或尾注)可能会丢失。

泰米尔语Wikimedian和印度Wikimedia印度项目总监Ravishankar Ayyakkannu经过测试后在Facebook上表示:“对于某些语言,例如Malayalam和Tamil,OCR的准确性几乎达到100%,并且支持自动裁剪等格式,并通过丢弃图像,而忽略彩色背景。” 在测试OCR之后,以下印度母语的孟加拉语(孟加拉,马拉雅拉姆语,卡纳达语,奥迪亚,泰米尔语和泰卢固语)的母语人士也在Facebook帖子上发表了评论,并提供了反馈。

但是,对于像Gurmukhi这样的脚本(用于编写旁遮普语),OCR之后的输出效果很差,并且在不同的脚本中会导致乱码。

使用Google的OCR从扫描的图像转换Odia(印度语)文本的教程。 由Subhashish Panigrahi设计。 CC BY-SA 4.0

总体而言,这对于那些具有尚未被数字化的旧文本的语言来说是一个巨大的飞跃。 现在可以使用Wikisource之类的平台将许多语言中的古老而有价值的文本数字化并通过Internet进行共享。

编者注:文章已根据社区反馈进行了更新。 我们将“ Google的OCR部分使用了作为免费软件发布的OCR引擎Tesseract”更改为“ Google的OCR可能使用了作为免费软件发布的OCR引擎Tesseract的依赖项,或者是免费文档分析和光学字符识别(OCR)的OCRopus主要用于Google图书的系统 。” 如果您对本文或技术有其他反馈意见,请在评论中告知我们。 -里奇恩德斯利

翻译自: https://opensource.com/life/15/9/open-source-extract-text-images

ocr字符识别

ocr字符识别_Google的光学字符识别(OCR)软件适用于248种以上的语言相关推荐

  1. OCR手机证件扫描光学字符识别

    OCR手机证件扫描光学字符识别 一.OCR手机证件扫描光学字符识别应用背景 这些年,随着互联网金融的极速发展,第三方支付.理财.P2P网贷.征信等APP应用成爆发式的增长,在众多APP中都涉及到对身份 ...

  2. 使用Google的Tesseract和OpenCV构建光学字符识别(OCR)系统

    总览 光学字符识别(OCR)是计算机视觉领域中广泛使用的系统 了解如何为各种任务构建自己的OCR 我们将利用OpenCV库和Tesseract来构建OCR系统 介绍 你还记得考试期间我们必须填写正确答 ...

  3. Python,OpenCV中的光学字符识别(OCR Optical Character Recognition)

    Python,OpenCV中的光学字符识别(OCR Optical Character Recognition 1. 什么是OCR? 2. 光学字符识别简史 3. 光学字符识别的应用 4. OSD 方 ...

  4. ocr人脸识别是什么原理,ocr的工作原理是什么

    ocr是什么意思 . OCR是英文opticalcharacterrecognition的缩写,意思是:文字识别OCR(opticalcharacterrecognition)文字识别是指电子设备(例 ...

  5. 7款常用的光学字符识别(OCR)软件对比

    只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的.扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的 ...

  6. 常用光学字符识别(OCR)软件比较

    只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的.扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的 ...

  7. 几款常用光学字符识别(OCR)软件比较

    ABBYY FineReader LEADTOOLS Dynamsoft OCR SDK Tesseract ExperVisionTypeReader 只要有扫描仪和光学字符识别(OCR)软件,将扫 ...

  8. 用于食品标签的光学字符识别(OCR)视觉系统

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在食品制造工厂,系统需要从传送器中剔除带有错误打印数据代码的包装食 ...

  9. 光学字符识别 OCR (Optical Character Recognition)是什么?

    OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...

最新文章

  1. OpenCL,OpenGL编译
  2. java hanoi_Hanoi问题java解法
  3. cocos2d-x 错误异常抛出捕获和崩溃拦截
  4. golang版try..catch..
  5. gin中间件中使用Goroutines
  6. 常用数据结构的一部分类
  7. wince中实现SQLite数据库及二进制文件保存与读取
  8. 有一种爱情,叫沉、重!
  9. 如何保证分布式系统数据一致性
  10. 本学期关于Android学习的总结
  11. Nessus访问报错(Corrupt Database A corrupt database has been detected which prevents Nessus from........)
  12. 弘辽科技:揭秘淘宝直通车更深层的秘密,你开对车了吗?
  13. OOP-面向对象程序设计
  14. (亲测)设​置​m​y​e​c​l​i​p​s​e​打​开​默​认​工​作​空​间...
  15. 编写一个帮助小学生练习数学的程序,帮助小学生练习 100 以内的四种数学运算:加、减、乘、除。
  16. C++游戏编程教程(七)——改进飞机大战游戏
  17. java8写一个word count
  18. AngularJS 教程
  19. GC是什么?为什么会有GC?
  20. 微信小程序如何获取用户昵称性别地区等信息

热门文章

  1. 第三章 总线和存储器
  2. Acme的cmd line模式
  3. 网页登录华为云空间,查看空间内容
  4. scanline_p8
  5. ​田溯宁投的天润云上市:市值22亿港元 年利润下降75%
  6. 研报复现:backtrader实现改进金叉策略(附代码)
  7. nodejs html 生成图片,使用nodejs将html5 canvas base64编码图片保存为文件
  8. buuctf rsarsa·wp
  9. Uncaught ReferenceError: UE is not defined at zh-cn.js:8
  10. Easy Save 3