OCR (Optical Character Recognition,光学字符识别)是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

简单来说就是将图片中的文字识别出来!

需求:业务上,客户送货过程中会携带一张打印的送货单,包含本次送货的明细,并需要把送货单明细录入到业务系统中,希望通过技术手段,高效准确的录入系统。

现状:业务上,收货人员需要核对当前货物,并将货物明细输入到业务系统中,手动输入系统。这个过程收货人员输入货物明细就是一个漫长,并且易出错的过程,并且效率低下。而另外一边的送货人员,天气炎热,多等待一秒都是煎熬,恨不得卸货之后就开车走人.... 我们希望系统能提供帮助,将纸质送货单明细快速录入系统

解决方案: 最终通过 ‘表格文字识别’ 实现送货单明细的识别,录入系统前,将识别的货物明细给收货员检查一遍,有误的地方修正,然后保存数据库,这是初期解决方案,后期还在探索如果提高识别率,比如将货物的单位数据(单位都是固定的词典数据),导入到系统,提高这部分数据的识别准确度

梳理下目前百度OCR技术,功能列表如下:

包括 通用文字识别, 办公文档识别,网络图片文字识别,数字识别,手写文字识别,表格文字识别,二维码识别(条形码识别) 7大功能块!!

1. 通用文字识别
基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务
https://cloud.baidu.com/product/ocr/general

·高精度版
在通用文字识别(标准版)的基础上,提供更高精度的识别服务,支持更多语种识别(丹麦语、荷兰语、马来语、瑞典语、印尼语、波兰语、罗马尼亚语、土耳其语、希腊语、匈牙利语),并将字库从1w+扩展到2w+,能识别所有常用字和大部分生僻字

·标准版
对图片中的文字进行检测和识别,支持中、英、法、俄、西、葡、德、意、日、韩、中英混合等10种语言,并支持中、英、日、韩四语种的类型检测

·高精度含位置版
在通用文字识别(高精度版)的基础上,返回文字在图片中的位置信息,方便进行版式的二次处理

·标准含位置版
在通用文字识别(标准版)的基础上,返回文字在图片中的位置信息,方便进行版式的二次处理

应用场景分析:

··拍照/截图识别
使用通用文字识别技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验

··内容审核与监管
自动提取图像中的文字内容,结合文本审核技术识别违规内容,提示相应风险,协助进行违规处理,可应用于电商广告审核、舆情监管等场景,帮助企业有效规避业务风险

··视频内容分析
检测识别视频中的字幕、标题、弹幕等文字内容,并根据文字位置判断文字类型,可应用于视频分类和标签提取、视频内容审核、营销分析等场景,有效提升内容分类、检索的效率

··纸质文档电子化
识别提取各类医疗单据、金融财税票据、法律卷宗等纸质文档中的文字信息,并可基于位置信息进行比对、结构化处理,提高信息录入、存档、检索的效率

2. 办公文档识别
可对办公类文档的版面进行分析,输出图、表、标题、文本的位置,并输出分版块内容
https://cloud.baidu.com/product/ocr/doc_analysis_office

·文档版面分析
输出文档图片中图、表、标题、文本的位置和文本信息

·文档混排识别
支持中文、英文两种语言,适配纯手写、纯印刷和手写印刷混排多种场景

应用场景分析:

·办公场景文档识别
对办公场景的各类文档进行结构化识别,如企业年报、论文、行业报告等,可以分别返回标题、图片、表格、文本的信息,并支持返回单行、单字结果,方便对文档类图片进行结构化分析

3. 网络图片文字识别
针对网络图片进行专项优化,对艺术字体或背景复杂的文字内容具有更优的识别效果
https://cloud.baidu.com/product/ocr_others/webimage

.网络图片文字识别(基础版)
支持识别艺术字体或背景复杂的文字内容,仅返回文字信息

.网络图片文字识别(含位置版)
除文字信息外,还可返回文字的位置信息、行置信度、单字符内容和位置等

应用场景分析:

··内容审核
使用网络图片文字识别技术,实现对艺术字体或背景复杂的文字内容进行识别,应用于社交、电商、短视频、直播等场景,同时结合图像审核技术对图片或视频进行审核,识别其中存在的违规、广告内容,有效规避业务风险

4. 数字识别
识别图片中的数字,适用于手机号提取、快递单号提取、充值号码提取等场景
https://cloud.baidu.com/product/ocr_others/numbers

应用场景分析:

··快递面单识别
使用数字识别技术,对快递面单、物流单据、外卖小票中的电话号码进行识别和提取,大幅度提升收货人信息的录入效率,方便进行收件通知,同时可识别纯数字形式的快递三段码,有效提升快件分拣速度

··仪表读数识别
使用数字识别技术,对各类仪器仪表的读数进行识别和提取,可应用于对仪器仪表读数具有定时记录、数据统计、实时监控等需求的场景,有效降低人工录入成本,控制仪器使用风险

5. 手写文字识别
支持对图片中的手写中文、手写数字进行检测和识别,针对不规则的手写字体进行专项优化,识别准确率可达90%以上
https://cloud.baidu.com/product/ocr_others/handwriting

应用场景分析:

··智能阅卷
使用手写文字识别技术,对学生日常作业及考试试卷中的手写内容进行自动识别,实现学生作业、考卷的线上批阅及教学数据的自动分析,大幅度提升教师工作效率及质量,促进教学管理的数字化和智能化

··手写表单电子化
使用手写文字识别技术,实现对活动签到表、信息登记表、数据统计表等纸质表单内手写文字的识别,满足对纸质表单内信息进行统计整理、数据计算的需求,有效降低人工录入成本,便于登记信息的保存和传输

··书摘、笔记电子化
使用手写文字识别技术,实现对手写书摘、读书笔记、课堂笔记等内容的识别,实现对手写文字内容的扫描及线上存储,便于用户对书摘及笔记内容进行快速编辑、查找及传输,大幅度提升内容管理效率,优化用户使用体验

6. 表格文字识别
对单据或报表中的表格内容进行结构化识别,并以JSON或Excel形式返回
https://cloud.baidu.com/product/ocr_others/table

·简单表格文字识别
支持识别具备完整框线的常规简单表格,结构化输出表头、表尾及每个单元格的文字内容

·复杂表格文字识别
可识别无表格框线,但行、列位置明确的表格,支持含合并单元格的复杂表格文字识别

应用场景分析:

··财税报表识别
提取识别银行对账单、资产负债表、损益表等财税场景常用表格内容,快速实现表格内容的电子化,用于财税信息统计、存档及核算,大幅度提升信息录入效率

··信息登记表识别
对个人、商品、公示内容等纸质信息登记表进行识别,用于登记信息的结构化整理和统计,大幅度降低人力录入成本,提升信息管理的便捷性

7. 二维码识别+条形码识别
对二维码、条形码中对应的文字内容进行识别,返回存储的文字信息
https://cloud.baidu.com/product/ocr_others/qrcode

·二维码识别
支持对图片中的二维码进行检测和识别,返回存储的文字信息

·条形码识别
支持对图片中的条形码进行检测和识别,返回存储的文字信息

应用场景分析:

··物品信息管理
对各类物品的二维码或条形码信息进行解析识别,获取相应信息,可应用于商品、药品出入库管理及货物运输管理等场景,轻松一扫即可快速完成对物品信息的读取、登记和存储,大幅度简化物品管理流程

大厂OCR-图片文字识别功能说明,百度(baidu)OCR功能列表说明相关推荐

  1. 一篇文章搞定百度OCR图片文字识别API

    一篇文章搞定百度OCR图片文字识别API https://www.jianshu.com/p/7905d3b12104 转载于:https://www.cnblogs.com/chongdongxia ...

  2. Python3 图片文字识别翻译——调用百度AI、百度翻译和有道翻译的API

    文章目录 Python3 图片文字识别翻译--调用百度AI.百度翻译和有道翻译的API 一.演示 二. API准备 三. 图片文字识别--调用百度AI文字识别API 四. 文字翻译 1. 百度翻译 请 ...

  3. 阿里云 OCR 图片文字识别接口使用案例(java)

    阿里云 OCR 图片文字识别接口使用案例(java) 阿里云官方接口文档 前期需要完成 购买阿里云服务 购买服务 可以购买测试服务.每个阿里云用户可以购买1次免费的500次接口请求进行测试 购买完成之 ...

  4. TOOLFK工具-在线OCR图片文字识别工具

    本文要推荐的[TOOLFK]在线OCR图片文字识别工具 ,提供图像文字识别,提取图片文字,OCR图片文字识别,图片转文字,把图片拖拽到上传框中自动上传识别,图片文件最大3M 網站名稱:ToolFk 網 ...

  5. OCR图片文字识别,人工手动图片标注软件安装过程

    OCR图片文字识别,人工手动图片标注软件安装过程,本章关注标注软件的安装,启动过程 1. 下载 anaconda anaconda  下载慢的问题: 使用国内镜像地址下载: https://mirro ...

  6. Android集成百度OCR图片文字识别——总结

    近期由于工作内容的需要,我要给项目集成一个图片文字识别功能,据说百度的不错,所以今天写一个关于百度OCR的集成总结,以便以后再次使用不用去看官方文档. 首先肯定是要在百度管理平台注册账号并登录,然后照 ...

  7. 百度大脑和腾讯云的OCR图片文字识别接口

    百度大脑 通用文字识别: https://ai.baidu.com/tech/ocr/general 通用物体和场景识别:https://ai.baidu.com/tech/imagerecognit ...

  8. 基于Python的离线OCR图片文字识别(一)——命令行方式对图像文件处理生成同名txt文件

    应用背景:在正式开始文章之前,先阐述一下项目的应用背景--项目需要对已有的电子档案数据进行"大数据"处理和呈现,但是由于之前进行档案电子化时都是以扫描文件的图像格式存储在硬盘上(准 ...

  9. OCR图片文字识别工具,识别率高且免费(电脑手机版)

    首先,展示两个文字编辑的场景,这样的场景每天都在我们身边发生. 场景一.在图书馆.书店.机场.火车上.公交地铁上.旅行的路上.听音乐--发现一段不错的文字或歌词想要做书摘笔记,或者编辑成短文发到微博. ...

  10. 免费OCR图片文字识别小工具,一键提取图片中文字,支持多语言翻译和发票识别

    最近用周末和下班后的时间,开发了一款图片文字识别的小程序( 扫描识字宝 ),可以直接拍照或者扫描识别图片上的文字,并支持提取成文档.还加上了图片翻译功能,支持图片上文字提取后翻译成多国语言.也加入了增 ...

最新文章

  1. flux服务器推消息,在Spring WebFlux响应式处理程序中发送JMS消息:它是否阻塞?
  2. char* p = 123,字符串在内存中的哪个位置?
  3. 基于 Python Matplotlib 模块的高质量图形输出
  4. 华为交换机s5700学习笔记
  5. DWZ关闭navTab后刷新指定的navTab
  6. 查看服务器文件夹,远程查看服务器文件夹内的文件夹
  7. Android UI布局—— 仿QQ登录界面
  8. 计算机图形学Web前端笔记-浏览器中心点转场景坐标理论及实现(two.js)
  9. 剑指Offer系列刷题笔记汇总
  10. 时间序列研(part14)--习题
  11. cnki下载pdf文档
  12. 企业微信h5开发(即JS-SDK),一不小心,就会掉进坑,进入死胡同
  13. catia 二次开发:环境变量路径,检查路径存在,关闭文件,对象为空,获取pad对象,err,part的product,全局变量,常量,SystemService,input,选择文件 时间,函数调用
  14. 外卖行业现状分析_餐饮外卖行业现状 传统餐饮业的痛点分析
  15. WebSocket实现简单多人聊天
  16. 【百度地图API】如何利用自己的数据制作社交地图?只显示可视区域内的标注
  17. 深度学习计算模型中门函数的作用
  18. 用VS2015开发Linux程序详细教程-配置篇
  19. shepp logan matlab,怎么用MATLAB生成一个三维的Shepp-Logan头骨模型并保存下来,谢谢了...
  20. Long Short-Term Memory(长短期记忆网络)

热门文章

  1. WinServer 2019 组策略 开启远程桌面
  2. python批量解压7z等
  3. 浪潮INSPUR等ERP程序多开方法
  4. JavaScript万能比较函数
  5. PYTHON循环读取多个excel文件并处理的代码
  6. 【经典数据结构】B树与B+树(动图看转载)
  7. [深度学习论文笔记][CVPR 17 oral]A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection
  8. 最新版本 Stable Diffusion 开源 AI 绘画工具之微调模型篇
  9. android系统音量监控
  10. python模拟支付宝扫码登录_GitHub - Jaccorot/alipay_python: 支付宝 alipay python接口,支持担保交易,即时到帐和自动发货接口...