发票识别 表格票据识别
一、行业背景
财务共享这个概念很早以前就被提出,只是在实际的推广过程中遇到了很多难题。比如我们今天谈到的发票录入问题。日常生活中,我们几乎每天都在和各种各样的发票打交道,出门打车要发票,吃饭完毕要发票,发票作为报销也好,消费记录也好,都是一种重要的凭据。
尤其是增值税发票,作为全国通用的票据来讲,其重要性不言而喻。一般情况常见的是每一张发票都需要录入到ERP系统当中,并且要做到三单匹配,最关键的是要认证和抵扣。
二、行业调查
那么我们今天想解决的问题就是让财务办公人员脱离手工录入的烦恼。利用扫描仪 OCR这两者的结合,来解决这一财务痛点。扫描仪负责纸质发票的扫描,OCR则完成发票内容信息的提取。这看似非常简单的步骤其实困难重重,让我们简单来概括一下。
第一点,就是发票的独特性。打印发票所用的纸质非常的特殊,不像A4纸张那样,发票的纸质一般在40克以下,也就是说纸质很脆,贴别容易撕烂。这给纸质发票能否通过市面上的扫描仪带了了巨大的挑战。
第二点,就是打印发票所使用的打印机,一般发票一共有三联,也就是需要同时在三张纸上打印内容,目前使用的是传统的针式打印机。采用的是色带,不像市场上的激光打印机,用的是硒鼓。
第三点,不得不说的就是发票上的字体。目前主要是有两家,航天信息和百旺金赋,这两家用的是不同的字体。这个后期OCR识别也带了巨大的挑战。
三、行业方案
带着这三点,我们来看看目前的解决方案中是如何处理的。
首先就是扫描仪的选型,扫描仪必须具有发票的高通过率,通俗的讲就是不可以卡纸,因为发票易碎,一旦卡纸,很有可能就会对发票造成伤害,得不偿失。其次是图像的高度还原,生成的图像不可以产生变形,一旦变形,对OCR的识别会带来致命的一击,也就是无法识别。最后是扫描仪的速度,一分钟能扫描发票的张数,这个因素很大程度上决定了这套系统能帮财务人员提高多少效率,节省多少时间。
然后我们来研究一下OCR,理想情况,OCR识别率要达到90%以上,才能真正的给行业带来效益。那么要达到这么高的识别率,最起码要做到哪些基本的图像处理呢?想必大家能想到的无非是以下这些,譬如图像纠偏,图像方向检测,图像分色,印章提取和去除,包括红色、绿色、蓝色表格线的滤除,还有由于针式打印机导致的字符链接问题。只有把这些基本的因素处理到位,才能确保OCR拥有高识别率,让财务人员手工修改量达到最少。
四、扫描识别要素
至于扫描仪参数需要达到一个什么样的配置,OCR引擎要强大到那种程度不再这里赘述。我们来看看目前能识别发票上的哪些要素。理想状态是统统输出,但是目前没有见到这样的识别结果。所以我们今天只讨论市面上成熟的识别要素,自上而下的总结,发票代码、发票号码、开票日期、税率、金额、税额、价税合计大写、价税合计小写、购货单位名称、购货单位纳税人识别号、销货单位名称、销货单位纳税人识别号。至于大家问到的明细识别和备注栏识别,在这里不做深究,因为一般是用来做三单匹配的。
五、总结
增值税发票扫描识别必定是目前传统行业中流行的解决方案,据说最新的增值税发票匹配了当下盛行的二维码,里面包含了发票代码,发票号码,开票日期,金额这四个字段。这对于发票的录入又带了新的生机,不管怎样,大家都是在为解决这样的财务痛点而努力着。相信在互联网大数据的今后,一定会有更好的解决方案。
发票识别 表格票据识别相关推荐
- java ocr 表格票据识别_OCR表格票据识别技术。
今天继续给大家带来OCR文字识别技术的产品,而今天为大家带来的产品是一款万能的产品哦,它就是--OCR表格票据识别技术. 表格票据识别产品SDK是一项通用的数据批量采集技术,适用于处理具有固定格式的表 ...
- 文通表格票据识别系统介绍
北京文通科技有限公司简介 文通科技,源于清华,服务全球. 我们的使命就是要为您提供最好的文档图像识别管理服务,打造信息无障碍对接平台,促进信息更好更快的交流. 北京文通科技有限公司是在原国家科委的支持 ...
- 银行表格票据识别SDK
一.产品简介 表格票据识别SDK是一种通用的数据批量采集技术,适用于采集具有表格特征的表单.问卷.票据的数据,通过扫描.图像处理.自动分类.OCR(光学字符识别)技术,将表格图像中的数据信息准确.快速 ...
- java ocr 表格票据识别_局域网表格票据-OCR识别
凭借多年在OCR领域的绝对优势,应用局域网表格票据OCR识别,结合银行实际工作特点,和银行业内系统集成商密切合作,推出--快票通银行票据识别系统.使票据处理达到"自动集中处理+电子安全保存+ ...
- OCR应用:表格票据识别
表格识别引擎是基于固定表格识别的一款OCR识别软件,能快速准确的把表格.票据上所需信息提取出来. • 识别表格种类多,各种银行单据.保单.测评表等固定性表格都能识别: • 表格分类精确,可实现各种表格 ...
- python调阿里OCR_增值税发票,定额发票,混贴发票,表格_识别,处理数据写入excel
1.增值税发票识别: import os import shutil import sys import urllib.request import urllib.parse import json ...
- 百度OCR文字识别、证卡识别、票据识别原生插件
一.插件推荐 跨平台Office文档.图片在线预览,视频播放原生插件 Android和IOS图片在线预览,视频播放原生插件 二.准备工作 1. Android.IOS端证书准备工作 Android端: ...
- 通用票据识别/通用文字识别/通用表格识别/手写识别简述
经济日益繁荣,随之而来的是多如牛毛的合同.文件.表单和票据,尤其是一些大的企业集团,文件资料更是数不胜数,这些纸质资料十分占用空间,并且易丢失.易损坏,不宜传递和保存,如何有效的保存.处理和分享这些纸 ...
- 将电子版照片信息或者扫描件快速识别导出 OCR识别技术
OCR作为最早实用化的人工智能技术之一,已在产业中得到广泛应用.中安未来OCR技术经过多年的市场应用和技术积累,已推出文档识别.证照识别.票据识别.名片识别等全方位文字识别产品与服务,广泛服务于各行业 ...
- 少数民族文字识别、维文识别数据如何获取?
OCR作为最早实用化的人工智能技术之一,已在产业中得到广泛应用.中安未来OCR技术经过多年的市场应用和技术积累,已推出文档识别.证照识别.票据识别.名片识别等全方位文字识别产品与服务,广泛服务于各行业 ...
最新文章
- Bloom Filter:海量数据的HashSet
- 2019年2月26日 Unique Email Addresses、To Lower Case、Encode and Decode TinyURL
- linux的kerne启动过程,linux
- 变量命名规则_Java变量与常量
- 计算机网络参数怎么看,电脑显示器参数详解 看完秒懂! 显示器参数怎么看?...
- mysql 中文排序_mysql如何按照中文排序解决方案
- HyperLPR车牌识别代码解读
- AIML相关内容学习整理
- 分享一个十二色相环取色RGB颜色值与十六进制色码转换工具
- 《当我谈跑步时我谈些什么》:痛苦难以避免,而磨难可以选择
- python核心教程之min函数怎么使用
- 网络语言2019流行语C位解,最新骂人网络语言 2019网络骂人流行语大全
- 时间戳转换年月日天方法
- 【论文笔记】图匹配的路径跟随算法
- 计算机病毒与防治的教案,计算机病毒及防治教案
- 面试时,可以问面试官问题总结
- 悟空榜+直播,苏宁618开启数字化零售新玩法
- 解决insmod error inserting 'hello ko' -1 Invalid module form
- java 对接易宝支付完成真实网上支付
- 51单片机之DS18B20温度传感器实验
热门文章
- html替换图片上的文字,如何在图片上改字|超简单的修改图片里文字方法
- 路由器硬件升级和软件改造
- 随笔之---java版本哲学家就餐问题【信号量的实现】
- java验证码问题(不区分大小写)升级版,输入不正确则一直输入
- 常用的银行卡验证API接口——银行卡三元素API接口
- TextView设置字体透明度或背景透明度
- 集赞生成器:朋友圈集赞不求人
- excel怎么设置选项选择_使用Excel选项按钮选择答案
- php内置函数分析之ucfirst()、lcfirst()
- 计算机如何设置桌面文件筐,360安全桌面怎么设置文件筐 自定义分框其实非常简单...