c# string 转 datetime_tesseract || PDF转PNG转txt

由图片扫描生成的PDF文件无法复制粘贴文字，是不是很困扰？虽然有一些阅读器和在线工具可以解析图片中的文字，但毕竟只能线下处理，不能满足批量的系统线上功能。今天写一个PDF转图片、图片转txt的代码模块，你可以将它封装起来，实现线上识别pdf中的文字！01

关于tesseract：

(1)首先，pip install pytesseract；

(2)然后，需要下载 tesseract-ocr

下载网址：https://github.com/UB-Mannheim/tesseract/wiki选择自己的版本下载，下载之后直接安装即可。修改pytesseract.py 文件里面的指向路径为你的安装路径；(3)最后，将你的安装路径.\Tesseract-OCR\tessdata添加到环境变量中；(4)其他还需要的安装包：fitz，PIL，可以直接通过pip或conda来安装，不赘述。(5)关于识别语言库的下载(原github失效中，但有热心网友提供了下载包，简体中文为chi_sim)：https://blog.csdn.net/qq_38161040/article/details/9072745602

PDF转PNG图片：

import fitzimport pytesseractfrom PIL import Imageimport datetimedef pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle):    '''    将PDF转化为png    pdfPath:pdf文件的路径    imgPath:图像要保存的文件夹    zoom_x: x方向的缩放系数    zoom_y: y方向的缩放系数    rotation_angle: 旋转角度    '''    # 打开PDF文件    pdf = fitz.open(pdfPath)    # 逐页读取PDF    for pg in range(0, pdf.pageCount):        page = pdf[pg]        # 设置缩放和旋转系数        trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle)        pm = page.getPixmap(matrix=trans, alpha=False)        # 开始写图像        pm.writePNG(imgPath+str(pg)+".png")    pdf.close()

PNG转txt：

def main():    '''    png图片转为txt    '''    for i in range(8):#假如有8页图片，分别为0.png，1.png...        starttime = datetime.datetime.now()        image = Image.open(r"C:/Users/Lenovo/Desktop/"+str(i)+".png")        text = pytesseract.image_to_string(image, lang='chi_sim')  # 使用简体中文解析图片        endtime = datetime.datetime.now()        text=text.replace(" ","")        with open(r"C:/Users/Lenovo/Desktop/"+str(i)+".txt", "a") as f: # 将识别出来的文字存到本地            # print(text)            f.write(str(text))            if __name__ == "__main__":       pdf_image(path,r"C:/Users/Lenovo/Desktop/",5,5,0)   main()

注：将路径换为你的pdf路径和图片路径

查看效果：

pdf

txt

扫码关注

立出奇迹

c# string 转 datetime_tesseract || PDF转PNG转txt相关推荐

读取DOC、DOCX、 XLS 、XLSX 、PDF 、PPTX 、TXT文档内容
读取DOC.DOCX. XLS .XLSX .PDF .PPTX .TXT文档内容 POM 依赖 <!-- https://mvnrepository.com/artifact/org.apac ...
前端-vue-文件上传（图片、word，ppt，pdf，excel，txt等文件流）
1. 文件上传(图片.word,ppt,pdf,excel,txt等文件流) 总结一下上传组件的思路 input标签的@change事件通过input标签的@change事件的绑定,进行文件的选择上 ...
如何用python修改pdf内容_如何利用python将pdf文件转化为txt文件？
https://www.wukong.com/answer/6579491774144708872/?iid=15906422033&app=news_article&share_an ...
pdf电子书转换成txt文档
pdf电子书转换成txt文档我们在收到用户发来的PDF格式的文件合同时,为了能够将里面的内容重新进行编辑,很多时候需要将PDF格式的电子书转换成TXT,有什么好的方法可以实现PDF转TXT. 在没有 ...
数据预处理：自定义PDF格式批量转换TXT系统
数据预处理:自定义文件格式转换系统 ( 白宁超 2018年8月29日15:36:24 ) 导读:随着大数据的快速发展,自然语言处理.数据挖掘.机器学习技术应用愈加广泛.针对大数据的预处理工作是一项庞杂 ...
如何将PDF文件转换成TXT文档
相信大家都知道什么是PDF文件,可是在使用PDF文件的时候我们常常会碰到一个难题,就是将 PDF文件转换成TXT或者Word文档进行编辑,今天就给大家分享一种简单的转换方法. 1.先打开手机,可借助手 ...
PDF如何转换成TXT文本
由于工作的需要,我们常常需要将大量的PDF文件进行格式转换,但是Adobe公司提供的阅读器中,对于某些加密的文件,是没有办法复制的,如果想复制的话,一些软件也是收费的.这时,我们急需要一个可以把PDF ...
批量的pdf怎么转换成txt格式的文件
工作中每次遇到为PDF转换成TXT的问题我总是绞尽了脑汁也找不到便捷的方法解答它,怎么办?最近在百度文库中查找资料时发现有一篇名为<PDF如何转换成TXT>让我找到了答案,并且亲自尝试后, ...
pdf怎么转换成txt？
pdf怎么转换成txt随着pdf格式文件使用频率的增加,人们会按照自己使用的需求把pdf转成自己需要的其他文件,比如把pdf转txt.尤其是我们下载到Pdf格式的电子书时,把它转成txt会更加方便.由 ...

c# string 转 datetime_tesseract || PDF转PNG转txt

c# string 转 datetime_tesseract || PDF转PNG转txt相关推荐

最新文章

热门文章