海量PDF识别(OCR),实现全文检索服务
需求:几千个pdf版电子规范,如何实现提供全文检索服务呢?
市面上有类似的应用。自己动手的话有这样的思路,代码几百行,见开源代码。
缺点:关键词搜索后,无法定位到规范的那一页,只能知道是在哪个规范里。浏览器打开那个规范后,再次ctrl+F查找。
第一步:海量pdf的识别。adobe acrobat pro是全世界最好的识别中文的软件,没有之一。走的弯路比如用myocrpdf,命令行进行识别,效果比前者还是差(如下图),但是基本可用。但前者不支持命令行,也没找到调用的API,用automate自动操作程序?或appscript模拟点击按钮?
另外,识别不是提取pdf文字,识别后还是pdf文件,但是里面的文字可以选择了。而提取文字也是首先要识别,但不一定能够放回原来的pdf上。
解决方案:用adobe acrobat pro的“动作”,如下图去设置即可。设置好动作,文件夹内的所有pdf都会识别,保存到另外一个文件夹了。
第二步:docker安装elasticsearch和tika及ik,见
中文全文检索技术路线(elasticsearch全文检索、中文分词ik、tika解析文档)https://blog.csdn.net/hotqin888/article/details/120831208https://blog.csdn.net/hotqin888/article/details/120831208第三步:上传engineercmshttps://github.com/3xxxhttps://github.com/3xxx系统自动用tika提取pdf中的文字,存入elasticsearch,进行ik中文分词。在engineercms里进行全文检索即可。
总结:都是利用目前这些已有的服务,进行组合。避免自己写全文检索,这个不简单,传统的数据库中全文检索用sql模糊查询语句是非常不合适的,开始不理解这个。
海量PDF识别(OCR),实现全文检索服务相关推荐
- 身份证扫描识别OCR技术的应用场景
关键词:身份证扫描识别,证件识别,身份证识别,二代身份证识别,手机移动端证件识别 目前来讲:智能OCR识别技术有关于身份证扫描识别OCR技术的服务主要有两种部署模式:身份证扫描识别OCR技术和云端/服 ...
- java怎么实现华为云文字识别,OCR文字识别服务快速入门教程
[入门介绍]OCR服务快速入门汇总 1.[快速入门 01] 申请华为文字识别服务 现阶段,华为文字识别服务处于公测阶段,需要先申请公测,再申请开通服务,具体操作步骤如下: 步骤1 申请华为 ...
- PDF Converter OCR for Mac(PDF转换器和OCR识别工具)
PDF Converter OCR for Mac是Mac平台上的一款非常实用的PDF转换器和OCR识别工具,PDF Converter OCR Mac激活版能够帮助你进行打字和格式调整,操作非常的简 ...
- Cisdem PDF Converter OCR for Mac(PDF文字识别转换工具)
Cisdem PDF Converter OCR Mac特别版是Mac平台上一款功能非常强大的PDF文字识别转换工具,用户可以通过Cisdem PDF Converter OCR for Mac将任何 ...
- Readiris Pro 17 for Mac(PDF和OCR图文识别软件)
Readiris Pro 17 for Mac是一款强大的可扫描的文档的光学识别OCR软件.它可共识别128种文字语言!帮助你将纸张.PDF文件.图片文件的文字元素扫描成文字.它拥有强大的识别能力和丰 ...
- 车牌识别OCr技术,汽车后市场服务
随着生活质量的提高和收入水平的增加,越来越多的家庭都拥有一辆甚至多辆私家车.在买车之后,也衍伸出一系列汽车后市场服务,如维修.美容.保养等等.进入4s店的车辆都需要进行车牌识别,从而在系统中调取顾客的 ...
- PDF批量识别OCR,Adobe acrobat pro批量识别pdf
搜索了很久也没有找到批量识别海量pdf文件的方法,结果在adobe的官方找到了"动作" 这个功能. adobe acrobat pro是全世界最好的识别中文的软件,没有之一. 走的 ...
- 通用文字识别 OCR 等免费 API 大全分享
智能识别 OCR 类 API 通用文字识别OCR:多场景.多语种.高精度的整图文字检测和识别服务,多项指标行业领先,可识别中.英.日.韩.法.德多种语言. 二维码识别OCR:对图片中的二维码.条形码进 ...
- 名片识别信息分类python_python体验名片识别OCR
我想使用名片识别OCR,主要研究了腾讯云的智能映像和腾讯Youtu. 解析后的汉字直接是unicode,例如u'\ u90e8 \ u95e8 \ u526f \ u603b \ u7ecf \ u7 ...
- html5 ocr图片识别,OCR识别控件LEADTOOLS HTML5案例:整页OCR识别
由于移动设备的处理能力和储存空间限制,在移动设备上执行光学字符识别(OCR)一直以来都是一项较大的挑战.随着LEADTOOLS HTML5的出现,在移动设备上执行光学字符识别(OCR)变成可能.凭借L ...
最新文章
- Oracle新一代数据库机 助所有规模企业迈向云端
- java读取excel数据保存到数据库中_java读取excel的内容(可保存到数据库中)
- 三十七、深入Python中的网络通信
- OpenCV图像剪切,超出图像区域指定颜色填充
- Flink 状态管理:算子状态、键值分区状态、状态后端、有状态算子的扩缩容
- 看以色列话剧《安魂曲》(图)
- ES5-14 【utils】三目运算符、对象克隆、浅拷贝、深拷贝
- C语言输出字母小树,数字小树,**号小树
- 监控ajax上传进度
- php 数组作用域,如何在php中访问私有作用域命名空间数组数据?
- tensorflow中的sequence_loss_by_example
- 软件工程师关注的播客
- sqlite3在Python2.7下对于中文路径的支持
- 一支管理高效的技术团队是什么样子的?
- 人生有三重境界:看山是山,看水是水;看山不是山,看水不是水;看山还是山,看水还是水=
- Android添加手机黑名单,手机来电拦截实现详解与Demo,一个不错的练手项目,涵盖Android四大组件。
- Unity3D 放大缩小图片
- 按键精灵post请求_按键精灵安卓版能发送post和get请求吗
- Tableau 添加加权平均参考线
- 【已解决】群晖套件中心无法添加第三方源
热门文章
- 苹果iPhone手机升级系统内存空间变小不够如何解决?
- struts2与struts1区别二
- 七牛 html 上传,在七牛上传之后如何自己自定义上传完成处理并在页面显示。_html/css_WEB-ITnose...
- CODESYS学习心得(持续更新)
- 分支定界法求解整数规划
- java cobar_Cobar源码解析(二)
- 【java毕业设计】基于javaEE+SSM+MySql的BS架构微博系统设计与实现(毕业论文+程序源码)——BS架构微博系统
- 手把手教你使用XUI的正确姿势
- 智能语音呼叫中心系统
- 开发历程:网页视频流媒体播放器EasyPlayer.JS开发web H5网页播放H.265视频支持FLV与HLS直播与点播