海量PDF识别（OCR），实现全文检索服务

需求：几千个pdf版电子规范，如何实现提供全文检索服务呢？
市面上有类似的应用。自己动手的话有这样的思路，代码几百行，见开源代码。
缺点：关键词搜索后，无法定位到规范的那一页，只能知道是在哪个规范里。浏览器打开那个规范后，再次ctrl+F查找。
第一步：海量pdf的识别。adobe acrobat pro是全世界最好的识别中文的软件，没有之一。走的弯路比如用myocrpdf，命令行进行识别，效果比前者还是差（如下图），但是基本可用。但前者不支持命令行，也没找到调用的API，用automate自动操作程序？或appscript模拟点击按钮？

另外，识别不是提取pdf文字，识别后还是pdf文件，但是里面的文字可以选择了。而提取文字也是首先要识别，但不一定能够放回原来的pdf上。
解决方案：用adobe acrobat pro的“动作”，如下图去设置即可。设置好动作，文件夹内的所有pdf都会识别，保存到另外一个文件夹了。

第二步：docker安装elasticsearch和tika及ik，见

中文全文检索技术路线（elasticsearch全文检索、中文分词ik、tika解析文档）https://blog.csdn.net/hotqin888/article/details/120831208https://blog.csdn.net/hotqin888/article/details/120831208第三步：上传engineercmshttps://github.com/3xxxhttps://github.com/3xxx系统自动用tika提取pdf中的文字，存入elasticsearch，进行ik中文分词。在engineercms里进行全文检索即可。
总结：都是利用目前这些已有的服务，进行组合。避免自己写全文检索，这个不简单，传统的数据库中全文检索用sql模糊查询语句是非常不合适的，开始不理解这个。

海量PDF识别（OCR），实现全文检索服务相关推荐

身份证扫描识别OCR技术的应用场景
关键词:身份证扫描识别,证件识别,身份证识别,二代身份证识别,手机移动端证件识别目前来讲:智能OCR识别技术有关于身份证扫描识别OCR技术的服务主要有两种部署模式:身份证扫描识别OCR技术和云端/服 ...
java怎么实现华为云文字识别,OCR文字识别服务快速入门教程
[入门介绍]OCR服务快速入门汇总 1.[快速入门 01] 申请华为文字识别服务现阶段,华为文字识别服务处于公测阶段,需要先申请公测,再申请开通服务,具体操作步骤如下: 步骤1 申请华为 ...
PDF Converter OCR for Mac(PDF转换器和OCR识别工具)
PDF Converter OCR for Mac是Mac平台上的一款非常实用的PDF转换器和OCR识别工具,PDF Converter OCR Mac激活版能够帮助你进行打字和格式调整,操作非常的简 ...
Cisdem PDF Converter OCR for Mac(PDF文字识别转换工具)
Cisdem PDF Converter OCR Mac特别版是Mac平台上一款功能非常强大的PDF文字识别转换工具,用户可以通过Cisdem PDF Converter OCR for Mac将任何 ...
Readiris Pro 17 for Mac(PDF和OCR图文识别软件)
Readiris Pro 17 for Mac是一款强大的可扫描的文档的光学识别OCR软件.它可共识别128种文字语言!帮助你将纸张.PDF文件.图片文件的文字元素扫描成文字.它拥有强大的识别能力和丰 ...
车牌识别OCr技术，汽车后市场服务
随着生活质量的提高和收入水平的增加,越来越多的家庭都拥有一辆甚至多辆私家车.在买车之后,也衍伸出一系列汽车后市场服务,如维修.美容.保养等等.进入4s店的车辆都需要进行车牌识别,从而在系统中调取顾客的 ...
PDF批量识别OCR，Adobe acrobat pro批量识别pdf
搜索了很久也没有找到批量识别海量pdf文件的方法,结果在adobe的官方找到了"动作" 这个功能. adobe acrobat pro是全世界最好的识别中文的软件,没有之一. 走的 ...
通用文字识别 OCR 等免费 API 大全分享
智能识别 OCR 类 API 通用文字识别OCR:多场景.多语种.高精度的整图文字检测和识别服务,多项指标行业领先,可识别中.英.日.韩.法.德多种语言. 二维码识别OCR:对图片中的二维码.条形码进 ...
名片识别信息分类python_python体验名片识别OCR
我想使用名片识别OCR,主要研究了腾讯云的智能映像和腾讯Youtu. 解析后的汉字直接是unicode,例如u'\ u90e8 \ u95e8 \ u526f \ u603b \ u7ecf \ u7 ...
html5 ocr图片识别,OCR识别控件LEADTOOLS HTML5案例：整页OCR识别
由于移动设备的处理能力和储存空间限制,在移动设备上执行光学字符识别(OCR)一直以来都是一项较大的挑战.随着LEADTOOLS HTML5的出现,在移动设备上执行光学字符识别(OCR)变成可能.凭借L ...

海量PDF识别（OCR），实现全文检索服务

海量PDF识别（OCR），实现全文检索服务相关推荐

最新文章

热门文章