一、举例需求(拿较难的发票识别举例)

平时工作或者开发过程中如果遇到需要识别pdf发票中信息的情况,如获取发票代码号码,开票日期,校验码等,比如下面的发票,项目中需要读取发票中信息

二、方法原理

使用java中的pdfbox组件引用jar包使用,其中PDFTextStripper负责读取pdf中的文字信息,使用正则表达式寻找文字信息或者使用字符串定位寻找信息

首先在pom文件中引用pdfbox, 引用pdfbox代码如下

        <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.23</version></dependency>

三、代码实现

在引入pdfbox后,我们之间获取pdf文件信息,从前台传的文件中进行如下操作,

//multipartFile为multipartFile文件类型,将文件转化为文件流被PDDocument加载
PDDocument document = PDDocument.load(multipartFile.getInputStream());
document.getClass();
//使用PDFTextStripper 工具
PDFTextStripper tStripper = new PDFTextStripper();
//设置文本排序,有规则输出
tStripper.setSortByPosition(true);
//获取所有文字信息
String info = tStripper.getText(document);

获取得到的发票信息如下所示是一些杂乱的文字信息

013002100111
77537132
2022年05月31日
667131000348 07453 05811 69424 15478
河北临空集团有限公司 00-70*51<0059454+<4>/5+4/277
91131000MA0CQLC38F -*/6+320*/7<3*<>5-0+509>656<
中国(河北)自由贸易试验区大兴机场片区廊坊市临空经济区科创基地 <82/8<816545577+7>804*3*+005
20010316-591833313603278920
兴业银行股份有限公司廊坊分行574010100100390860 0<1*609-64-4/<01<><>19>10653
*水冰雪*污水处理费 吨 3578 1.3592233 4863.30 3% 145.90
*不征税自来水*水资源税 吨 3578 0.4 1431.20 不征税 ***
¥6294.50 ¥145.90
陆仟肆佰肆拾圆零肆角 ¥6440.40
廊坊市清泉供水有限责任公司廊坊临空自贸区分公司
91131000MA7GPNNA16
北京(河北)自由贸易试验区大兴机场片区廊坊临空经济区航谊道自贸
区科创基地35860316-2360278
中国农业银行股份有限公司廊坊新华支行50651201040011252
白珺 周钰晗 刘晓青

我们现在目的是从这些杂乱信息中获取我们想要的信息,如发票代码,发票号码,开票日期,校验码

下面就有两种方式获取这些信息,两种方式原理不同,可以分开使用也可以结合使用(更加万无一失)

方式一:使用正则表达式寻找关键信息

寻找相似点,例如发票代码附近就有换行符的存在【\r\n】其他信息周围存在着空格或者年月日等字眼,通过这种方式我们来写正则匹配方式(正则其实我也不很会,看着其他正则写的)

例如发票号码就是一个8位1-9的数字,周围都是是【\r\n】于是我们可以写成这样

[\r\n][0-9]{8}[\r\n]

其他的正则表达式可以写成

//发票代码
[0-9]{12}[\r]
//开票日期
\\d{4}[年]\\d{2}[月]\\d{2}[日]
//校验码
[ ]\d{5}[ ]\d{5}[ ]\d{5}[ ]\d{5}

这样正则表达式就写完成了,通过表达式可以从散乱的信息中找到我们要的信息了

方式二:通过String寻找关键词位置

这项有个缺点就是需要【发票代码:013002100111】这种形式的数据,如果不是的话就定位不到数据信息,原理是需找到【发票代码】的位置,然后取对应数量位的数字值,代码如下

        int index = info.indexOf("发票代码");if (index == -1) {index = info.indexOf(key2);if (index == -1 || index == 0) {index = info.indexOf(key + " :");}}if ("发票代码".equals(key)) {String fpdm = info.substring(index + 5, index + 18);text = fpdm.replace(" ", "").replace(":", "").trim();text = text.length() > 12 ? text.substring(0, 12) : text;text = text.length() == 12 ? text : "";}

通过定位找到对应的信息

四、总结

这种方式不单单可以识别发票的pdf,其他pdf也可以识别获取。

Java识别获取pdf中文字信息(此方法任意pdf的信息都可以拿到)相关推荐

  1. Python 利用百度文字识别 API 识别并提取图片中文字

    Python 利用百度文字识别 API 识别并提取图片中文字 利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字.首先需注册获取 API 调用的 ID 和 key,步骤如下: ...

  2. selenium+java:获取列表中的值

    selenium+java:获取列表中的值 (2011-08-23 17:14:48) 标签: 杂谈 分类: selenium 初步研究利用java+testNg框架下写selenium测试用例,今天 ...

  3. 修改PDF中文字好用的软件,PDF编辑软件,adobe acrobat DC安装教程,adobe acrobat DC和 adobe acrobat pro的区别,

    目录 修改PDF中文字好用的软件,PDF编辑软件 adobe acrobat DC和 adobe acrobat  pro的区别 adobe acrobat DC安装教程 下载资源的安装包,我已经放到 ...

  4. java筛选表格,java怎么获取excel中的数据_java筛选excel数据

    你好! 请教你个问题 java web程序如何将读取的excel表格里的数据插入到数据库,并显示在JSP页面上? 主要用poi.jar 包.包含两jar就可以了:poi-3.16.jar.poi-oo ...

  5. php 获取数据库中的信息,php获取数据库中数据的实现方法

    废话不多说,直接上代码 header("Content-type:text/html;charset=utf-8");//字符编码设置 $servername = "lo ...

  6. 在嵌入在html中的pdf电子签章,一种网页PDF中电子签章定位方法与流程

    本发明属于一种电子签章技术领域,具体涉及一种网页PDF中电子签章定位方法. 背景技术: 国密电子签章中的套章方法操作复杂,无法对电子文档中一次性加盖多个印章的,大大降低了盖章效率,尤其是无法在所有需要 ...

  7. laytpl遍历实体列表_Layui数据表格之获取表格中所有的数据方法

    数据表格中的数据是通过直接赋值的方式.这里实际上思想是反过来的,将拿数据表格中的所有数据,转换为layui数据表格拿原始数据去渲染数据表格. 1.创建一个作用域合适的js对象数组用来保存数据表格中的原 ...

  8. 企业vi标志设计中文字设计的方法

    企业vi标志设计中文字设计的方法 编辑:AGO(安可)品牌顾问 在整个企业vi标志设计中,企业标志中文字的设计是最重要的,对于企业在推广和传播中起到很大的作用,所以企业vi设计中文字的设计是一个非常值 ...

  9. 获取layui表格单元格的数据_Layui数据表格之获取表格中所有的数据方法

    数据表格中的数据是通过直接赋值的方式.这里实际上思想是反过来的,将拿数据表格中的所有数据,转换为Layui数据表格拿原始数据去渲染数据表格. 1.创建一个作用域合适的JS对象数组用来保存数据表格中的原 ...

  10. [js] 写一个获取页面中所有checkbox的方法

    [js] 写一个获取页面中所有checkbox的方法 function getAllCheckbox() {return [...document.querySelectorAll('input[ty ...

最新文章

  1. html背景音乐demo,music.html
  2. epoll与select区别
  3. 8.8 正睿暑期集训营 Day5
  4. 从壹开始 [vueAdmin后台] 之三 || 动态路由配置 项目快速开发
  5. tree(2018.10.26)
  6. python一般的基础代码-Python入门经典练习题
  7. java多张图片合成一张_利用溶图技巧把多张图片合成一张奇幻风格图片教程
  8. 设计模式09-组合模式
  9. JQuery simpleModal插件的使用-遁地龙卷风
  10. [Xamarin.Android] 儲存資料於Windows Azure (转帖)
  11. 360和腾讯QQ的那场战争!
  12. CMYK、RGB颜色对照表
  13. iOS中播放音乐和音效
  14. 《江村经济》读书摘记
  15. proximal Algorithm
  16. 苹果照片未删却不见了_关于iphone照片分类的问题以及一款照片整理app推荐
  17. 基于vue 2.x的移动端网页弹窗插件wc-messagebox(支持Alert,Confirm,Toast,Loading)
  18. BUUCTF-WarmUp
  19. NXP RT1064学习笔记(六)— RTC
  20. 联阳(ITE)IT66021FN:HDMI转RGB芯片 3D 资料

热门文章

  1. linux下安装mysql8.0(二进制方式)
  2. pygame-KidsCanCode系列jumpy-part17-mask-collide碰撞检测
  3. wps excel查找不定位_【WPS神技能】如何在WPSExcel表格中批量查找两列数据的不同?...
  4. 基于Php门禁系统设计与实现
  5. java实现数字转大写
  6. dbc批量插入、批量删除、批量更新
  7. vue中日期格式转化
  8. JAVA 调用地图API
  9. 电脑怎么了--电脑通电电源风扇不转动
  10. CSR8670 — 说说蓝牙音频常用的编解码格式