前言:由于要利用一些比较老的文献中的数据,手工输入费时费力,于是乎找到了下面的方法。如果不差钱可以使用Adobe Acrobat Reader中的文字识别,也可以尝试其中的试用版。下面的方法完全室开源免费的方式。

1. 准备工作:安装程序、软件包、配置环境变量

平台:win10, python 3.7.3, spyder3.3.3

安装软件包(用conda):pdf2image, pytesseract, numpy

配置环境变量:安装完tesseract后将其安装路径添加到path环境变量。方法自己搜

2. 过程简介

(1) 用pdf2image中的convert_from_path将pdf文件转化为ppm文件(图片)

(2)用numpy.array将ppm文件转化为三维矩阵

(3) 用pytesseract.image_to_string识别图像矩阵中的文字

(4)输出文本信息,并进行校对,可以借助word等软件进行拼写检测

3. 实操

代码如下

import numpy as np

import pytesseract

from pdf2image import convert_from_path

def pdf_ocr(fname, **kwargs):

images = convert_from_path(fname, **kwargs)

text = ''

for img in images:

img = np.array(img)

text += pytesseract.image_to_string(img)

return text

fname = 'example.pdf'

# text = pdf_ocr(fname, first_page=7, last_page=8)

text = pdf_ocr(fname)

print(text)

4. 参考资料

吐槽一下知乎:发表文章时只有两个选项:1. 虚构;2. 不声明原创。

有时候明明时原创,而且不是虚构。要想声明原创就必须选则虚构——瞎编的。难道原创的都是瞎编的吗?

python ocr 识别中文pdf_pytesseract识别PDF文件中的文字(OCR)相关推荐

  1. pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字

    从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...

  2. vscode中打开pdf文件_提取pdf文件中的文字

    环境说明 windows10系统 python3.6版本 安装 网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...

  3. 怎么修改PDF文件中的文字

    怎么修改PDF文件中的文字 最初PDF只被看作是一种页面预览格式,而不是生产格式.然而市场的感觉并非如此,市场期望转化了这种格式的焦点,从而也改变了该产品.各种各样的电子书阅读器充斥着国内外市场,已经 ...

  4. PDF如何编辑,怎么编辑PDF文件中的文字

    越来越多的小伙伴会私信小编询问小编关于PDF文件的修改技巧,在使用PDF文件的时候,往往是需要用到PDF编辑器的,编辑文件时,想要修改文件的内容,应该怎么去编辑呢,其实,还是很简单的,不会的小伙伴可以 ...

  5. 如何快速批量删除PDF文件中的文字 - PDF文字删除器

    在日常工作中,你可能经常会发现有一些PDF文件有错误的文字需要删除,或是重要的文字不能被显示.由于PDF是一个虚拟打印的文件格式,逐一在每个PDF文件上删除这些错误文字或重要文本可能会非常麻烦和复杂. ...

  6. 怎么修改和编辑PDF文件中的文字内容

    我们不论在工作和学习中都越来越多的用到PDF格式的文件,这也是令我们一个尴尬的事情.因为我们在上学的时候并没有对PDF格式的文件编辑进行过系统的学习.所以我们对于PDF编辑和修改并没有全面的了解.那难 ...

  7. 如何快速提取PDF文件中的文字?

    很多人想要把PDF里的文字提取出来,却大费周章走了弯路,到处搜索"免费PDF转Word",其实单纯提取文字福昕阅读器就能实现. 操作方法 首先使用福昕阅读器打开PDF文件,点击[视 ...

  8. 使用CAJViewer 提取PDF文件中的文字

    使用 CAJViewer 7.2 软件,把pdf格式的文件提取出文字. 操作步骤参考:http://jingyan.baidu.com/article/d45ad148cd06e469552b800f ...

  9. 如何编辑 删除 修改 pdf文件中的文字

    要编辑修改PDF文件一般用三种 软件 ,分别是:(1)Adobe Acrobat:(2)Foxit PDF Editor:(3)文电通.现介绍用Adobe Acrobat软件编辑PDF文件的方法: 你 ...

最新文章

  1. javalibrary 线上_线上的少儿口才培训班-1V1精品课程【演讲与口才吧】
  2. 关于Crypto.PublicKey.RSA,在generate后无法被赋值问题
  3. 两步验证杀手锏:Java 接入 Google 身份验证器实战
  4. ORACLE10g R2及PATH官方下载地址
  5. 16薪,六险一金,深尚科技招聘视觉/图像算法工程师 ,包含社招和校招
  6. 长城汽车旗下品牌“欧拉好猫”涉嫌虚假宣传 曾召回部分欧拉汽车
  7. cuda+cudnn下载安装
  8. ansible——inventory主机清单
  9. 怎样写好一篇英文论文
  10. C 语言绘制指针式时钟
  11. 任正非:副职要精于管理,正职要敢于进攻
  12. 微信小程序和微信H5有什么区别?
  13. 坐南京13路公交车,体验《头文字D》感觉!
  14. DTI数据TBSS组间统计对比设计矩阵
  15. 用SQLite进行全文检索
  16. 拒绝平庸 保罗格雷厄姆_保罗·格雷厄姆(Paul Graham):微软无法处理Y组合器
  17. 雷达图 The number of FixedLocator locations (4), usually from a call to set_ticks, does not match the n
  18. 别以为Facebook只是互联网公司 他们还有一间黑科技实验室
  19. 谷哥学术2022年资源分享下载列表 3/20
  20. 关于结构体的内存对齐,以及如何计算

热门文章

  1. C语言实现显示每个月的天数
  2. Keepalived常用配置及脚本
  3. Linux命令之系统五大负载(监控脚本及问题详解)
  4. 后缀名.dat文件在选择打开方式时误勾选了用记事本打开, 结果电脑上的*.dat文件的打开方式都变成了记事本,没有修改文件的内容,如何恢复.bat文件的默认打开方式
  5. PLS回归 (OLS)最小二乘法 PCA) 偏最小二乘法 (PLS) SIMPLS算法 20200723
  6. 测试相关理解(三)—边界值分析方法
  7. Silvaco TCAD 2018在Windows系统的安装教程
  8. 光束传输 matlab,matlab仿真光束的传输特性
  9. Hough变换与Radon变换的联系与区别
  10. 机房收费系统之简单的逻辑(上)下机费用运算