需求:几千个pdf版电子规范,如何实现提供全文检索服务呢?
市面上有类似的应用。自己动手的话有这样的思路,代码几百行,见开源代码。
缺点:关键词搜索后,无法定位到规范的那一页,只能知道是在哪个规范里。浏览器打开那个规范后,再次ctrl+F查找。
第一步:海量pdf的识别。adobe acrobat pro是全世界最好的识别中文的软件,没有之一。走的弯路比如用myocrpdf,命令行进行识别,效果比前者还是差(如下图),但是基本可用。但前者不支持命令行,也没找到调用的API,用automate自动操作程序?或appscript模拟点击按钮?

另外,识别不是提取pdf文字,识别后还是pdf文件,但是里面的文字可以选择了。而提取文字也是首先要识别,但不一定能够放回原来的pdf上。
解决方案:用adobe acrobat pro的“动作”,如下图去设置即可。设置好动作,文件夹内的所有pdf都会识别,保存到另外一个文件夹了。

第二步:docker安装elasticsearch和tika及ik,见

中文全文检索技术路线(elasticsearch全文检索、中文分词ik、tika解析文档)https://blog.csdn.net/hotqin888/article/details/120831208https://blog.csdn.net/hotqin888/article/details/120831208第三步:上传engineercmshttps://github.com/3xxxhttps://github.com/3xxx系统自动用tika提取pdf中的文字,存入elasticsearch,进行ik中文分词。在engineercms里进行全文检索即可。
总结:都是利用目前这些已有的服务,进行组合。避免自己写全文检索,这个不简单,传统的数据库中全文检索用sql模糊查询语句是非常不合适的,开始不理解这个。

海量PDF识别(OCR),实现全文检索服务相关推荐

  1. 身份证扫描识别OCR技术的应用场景

    关键词:身份证扫描识别,证件识别,身份证识别,二代身份证识别,手机移动端证件识别 目前来讲:智能OCR识别技术有关于身份证扫描识别OCR技术的服务主要有两种部署模式:身份证扫描识别OCR技术和云端/服 ...

  2. java怎么实现华为云文字识别,OCR文字识别服务快速入门教程

    [入门介绍]OCR服务快速入门汇总 1.[快速入门 01] 申请华为文字识别服务 现阶段,华为文字识别服务处于公测阶段,需要先申请公测,再申请开通服务,具体操作步骤如下: 步骤1       申请华为 ...

  3. PDF Converter OCR for Mac(PDF转换器和OCR识别工具)

    PDF Converter OCR for Mac是Mac平台上的一款非常实用的PDF转换器和OCR识别工具,PDF Converter OCR Mac激活版能够帮助你进行打字和格式调整,操作非常的简 ...

  4. Cisdem PDF Converter OCR for Mac(PDF文字识别转换工具)

    Cisdem PDF Converter OCR Mac特别版是Mac平台上一款功能非常强大的PDF文字识别转换工具,用户可以通过Cisdem PDF Converter OCR for Mac将任何 ...

  5. Readiris Pro 17 for Mac(PDF和OCR图文识别软件)

    Readiris Pro 17 for Mac是一款强大的可扫描的文档的光学识别OCR软件.它可共识别128种文字语言!帮助你将纸张.PDF文件.图片文件的文字元素扫描成文字.它拥有强大的识别能力和丰 ...

  6. 车牌识别OCr技术,汽车后市场服务

    随着生活质量的提高和收入水平的增加,越来越多的家庭都拥有一辆甚至多辆私家车.在买车之后,也衍伸出一系列汽车后市场服务,如维修.美容.保养等等.进入4s店的车辆都需要进行车牌识别,从而在系统中调取顾客的 ...

  7. PDF批量识别OCR,Adobe acrobat pro批量识别pdf

    搜索了很久也没有找到批量识别海量pdf文件的方法,结果在adobe的官方找到了"动作" 这个功能. adobe acrobat pro是全世界最好的识别中文的软件,没有之一. 走的 ...

  8. 通用文字识别 OCR 等免费 API 大全分享

    智能识别 OCR 类 API 通用文字识别OCR:多场景.多语种.高精度的整图文字检测和识别服务,多项指标行业领先,可识别中.英.日.韩.法.德多种语言. 二维码识别OCR:对图片中的二维码.条形码进 ...

  9. 名片识别信息分类python_python体验名片识别OCR

    我想使用名片识别OCR,主要研究了腾讯云的智能映像和腾讯Youtu. 解析后的汉字直接是unicode,例如u'\ u90e8 \ u95e8 \ u526f \ u603b \ u7ecf \ u7 ...

  10. html5 ocr图片识别,OCR识别控件LEADTOOLS HTML5案例:整页OCR识别

    由于移动设备的处理能力和储存空间限制,在移动设备上执行光学字符识别(OCR)一直以来都是一项较大的挑战.随着LEADTOOLS HTML5的出现,在移动设备上执行光学字符识别(OCR)变成可能.凭借L ...

最新文章

  1. Oracle新一代数据库机 助所有规模企业迈向云端
  2. java读取excel数据保存到数据库中_java读取excel的内容(可保存到数据库中)
  3. 三十七、深入Python中的网络通信
  4. OpenCV图像剪切,超出图像区域指定颜色填充
  5. Flink 状态管理:算子状态、键值分区状态、状态后端、有状态算子的扩缩容
  6. 看以色列话剧《安魂曲》(图)
  7. ES5-14 【utils】三目运算符、对象克隆、浅拷贝、深拷贝
  8. C语言输出字母小树,数字小树,**号小树
  9. 监控ajax上传进度
  10. php 数组作用域,如何在php中访问私有作用域命名空间数组数据?
  11. tensorflow中的sequence_loss_by_example
  12. 软件工程师关注的播客
  13. sqlite3在Python2.7下对于中文路径的支持
  14. 一支管理高效的技术团队是什么样子的?
  15. 人生有三重境界:看山是山,看水是水;看山不是山,看水不是水;看山还是山,看水还是水=
  16. Android添加手机黑名单,手机来电拦截实现详解与Demo,一个不错的练手项目,涵盖Android四大组件。
  17. Unity3D 放大缩小图片
  18. 按键精灵post请求_按键精灵安卓版能发送post和get请求吗
  19. Tableau 添加加权平均参考线
  20. 【已解决】群晖套件中心无法添加第三方源

热门文章

  1. 苹果iPhone手机升级系统内存空间变小不够如何解决?
  2. struts2与struts1区别二
  3. 七牛 html 上传,在七牛上传之后如何自己自定义上传完成处理并在页面显示。_html/css_WEB-ITnose...
  4. CODESYS学习心得(持续更新)
  5. 分支定界法求解整数规划
  6. java cobar_Cobar源码解析(二)
  7. 【java毕业设计】基于javaEE+SSM+MySql的BS架构微博系统设计与实现(毕业论文+程序源码)——BS架构微博系统
  8. 手把手教你使用XUI的正确姿势
  9. 智能语音呼叫中心系统
  10. 开发历程:网页视频流媒体播放器EasyPlayer.JS开发web H5网页播放H.265视频支持FLV与HLS直播与点播