电子发票(PDF)识别信息提取(JAVA)电子专票(OFD)在线预览
网上也有资料,有的只有jar包没有源码,整理好网上的资源,把源码开放出来。
https://gitee.com/kanen/invoice
欢迎使用和交流。
内容介绍
电子发票(PDF)识别与验真
1、支持电子发票(PDF)的读取
目前仅支持普通发票,如果您想解析其他发票可底部留言或者联系我
2、验真暂未实现,网上有付费的接口,如用友apilink,阿里云市场、乐税网。差不多都是几分钱一次。
不知道是跟国税局合作,还是使用验证码识别技术 调用的国税局查询接口。这个等以后有时间再研究。
识别原理:
1)使用pdfbox提取pdf文本内容,通过正则匹配到部分属性
2)第一步无法获取全部有效的属性信息,通过关键字拿到定位信息,使用定位的区域,通过pdf的区域读取问题,然后再结合正则进一步匹配得到其他有效属性信息。
特别说明:
该项目核心识别代码来源于github上的fantasyxxj的einvoice项目,在此基础上做的改动调整,在此感谢。
软件架构
springboot
pdfbox
安装教程
从git导入IDE即可
使用说明
参考demo中的电子发票读取
效果如下:
后续计划
1、当前已实现功能
pdf的在线预览,pdf通过模板导出,发票的解析与批量导出,自动读取邮箱中的发票
ofd的在线预览,ofd的解析
以上功能均已实现并在项目中应用,暂未脱敏整理出来,有需要可留言沟通
2、发票验真
难点:验证码识别、接口秘钥生成算法(频繁变动)、反爬虫技术等(IP黑名单等)
更新日志
2020-11-18
增加在线预览PDF和OFD文件的demo,启动服务后,访问首页即可 http://localhost:9088/ 具体实现方式请查看源码
更多说明:
预览pdf使用pdf.js,相关源码请到github搜索该开源项目
预览ofd使用ofd.js,相关源码请到github搜索该开源项目,需要说明的是,该项目前端用的VUE,本人才疏学浅,VUE用的不多,对ofd.js发布后的内容进行了一些修改,进而可以在普通的html项目中使用。更多用法诸如ofd转pdf可以参考原项目的实现。
电子发票(PDF)识别信息提取(JAVA)电子专票(OFD)在线预览相关推荐
- Java如何实现文档在线预览+下载
Java如何实现文档在线预览+下载 看了好多转换预览的,但是感觉都比较麻烦,所以自己就简单写了个. FileController接收需要预览的文件,替换filePath,如果是要在linux环境下运行 ...
- 用JAVA实现word文档在线预览的功能
预览Word.PPT.Excel 我之前发过一篇文章,是介绍office预览和编辑的但是大部门插件都是收费的,我这次提供的是免费的一个将Word.PPT.Excel转换为PDF然后在浏览器进行预览,之 ...
- java图片的在线预览_【Java】web实现图片在线预览
一.场景还原 用户上传了一张图片,已有服务器保存路径,现由于系统配置无法直接通过图片URL打开预览图片,需实现点击预览将图片显示在浏览器上. 二.实现方法 html: 预览 此处用预览按钮方法实现 J ...
- Java如何实现文档在线预览
文章目录 一.概述 二.Java实现文档在线预览 2.1 永中DCS简介 2.2 使用方式 2.3 centos安装部署DCS服务 编辑Java环境 安装部署Tomcat 部署DCS工程 安装ngin ...
- Java 实现图片或文件在线预览及下载
效果图 图片 pdf 代码 @GetMapping("/downFile")public void downFile(HttpServletResponse response, H ...
- java实现pptx转html在线预览
由于ppt中不能插入视频资源文件,但是因公司要求,在pptx中插入视频资源文件,用户将上传pptx在页面预览,因此只能是将视频插入到pptx中,然后将pptx再转换成html在浏览器进行播放,唉,公司 ...
- Java 在线预览pdf
参考文献 Java实现word文档在线预览,读取office(word,excel,ppt)文件 https://blog.csdn.net/weixin_34004576/article/detai ...
- Springboot 超简单实现在线预览,Word文档 doc、xlsx、pdf、txt等
前言 PDF.TXT 只要资源可访问,根本就不需要进行任何处理,直接访问查看就完事了. 也是因为这个PDF可以直接查看(现在浏览器基本支持了),那么我们实现Word文档在线预览,其实也是 把WORD文 ...
- word转图片 java_Java 利用LibreOffice将Office文档转换成 PDF,进而转图片,实现在线预览功能...
项目中需要将 Office 文档上传并实现在线预览,用到了 LibreOffice 将 Office 文档转换为 PDF 文档,然后再用 pdfbox 将 PDF 转为图片. 本文介绍借助 Libre ...
- (开源kkFileView、kkOffice)在线预览word、pdf、ofd、excel、ppt、压缩包、图片等等
(开源kkFileView.kkOffice)在线预览word.pdf.ofd.excel.ppt.压缩包.图片等 前言 此项目为文件文档在线预览项目解决方案,对标业内付费产品有[永中office][ ...
最新文章
- 16 Java面试之 HTML
- Swift -- 6.函数和闭包
- java.awt.headless_以编程方式设置java.awt.headless = true
- python 3 面向过程编程
- 基于CNN的增量学习论文的读后感
- 基于springMVC的汉字与数学计算的图片验证码
- cent7中kickstart
- PowerDesigner 表格导出为excel
- python3绝对路径,相对路径
- Atitit.spring体系结构大总结
- 背后实力大比拼 探秘七大IT巨头实验室
- MP4Box获取MP4媒体文件的播放时长
- 一款优秀的IT资产管理系统-Snipe-IT 安装及用户手册中文版(二配置使用篇)
- 怎么用计算机磁盘管理分区,在win 7中如何用磁盘管理为硬盘分区呢?
- BZOJ5077: [Ctsc2016]时空旅行(线段树+凸包)
- 你该知道的浏览器请求与Header
- 如何利用Flashback Query 恢复误删除的数据
- 南京工业大学计算机科学与技术研究生调剂,南京工业大学计算机科学与技术学院硕士研究生考试复试名单...
- CAD 学习笔记 Mac
- Mybaties框架基础原理
热门文章
- 三日月くるみ - 魔法みたいな恋したい
- 面试官常问的设计模式及常用框架中设计模式的使用(一)
- html 图片显示的几种方式
- DSP CCS12.00 芯片:TMS320F28335 结课设计 频率测量系统设计
- Identity, Positive, 和Similarity的区别
- USB通信协议与供电协议全解
- 国内新锐买手品牌BSiEE 本涩启动第三届品牌代言人招募活动
- mysql auto increment 插入_MySQL里AUTO_INCREMENT表里插入0值的问题
- 小米手环6 获取amaztools key(windows版)
- 【计算机图形学】基于OpenGL的中点Bresenham算法画直线