起因

最近报了一个PMP的培训班,然后呢,给我的一些资料是PDF文档,且不可以复制,那么,我自己的学习整理的时候,就有点不方便,所以想把PDF中的文字提取出来。

犹记得还在读书的时候,老师为了将PDF转WORD让我们找各种各样的工具,最后经过一番折腾,目的是达成了,但是安装了一个很大的工具,这工具还不好找,且是国外的,每次跑起来,我的电脑都呼呼的响,现在好啦,曾经想都不敢想的事情,现在轻轻松松就做到了。

这个你值得了解一下,有免费的接口服务,做一些日常使用的小工具,足够啦

注册账号登录,找到文字识别,创建一个应用

创建应用之后,你分别会得到AppID,API Key,Secret Key这三个值

然后找到文件识别的SDK文档

SDK提供了各种语言的版本,但是我会优先选择Python,为什么了?快啊!方便啊!

pip install baidu-aip

看了SDK之后,你会发现它只支持识别图片,莫慌,办法我已经帮你想好了,直接访问这个网址[戳我](看这个网址的后缀,应该是用.Net写的),就可以在线将PDF转成图片格式,比如Jpeg

然后,就是直接上Python代码了,一般生成的图片文件名:

061416404698_0第五章模拟题项目范围管理_1.Jpeg

061416404698_0第五章模拟题项目范围管理_2.Jpeg

061416404698_0第五章模拟题项目范围管理_10.Jpeg

Python遍历文件夹之后得到的列表顺序是这样子的

['061416404698_0第五章模拟题项目范围管理_1.Jpeg','061416404698_0第五章模拟题项目范围管理_10.Jpeg','061416404698_0第五章模拟题项目范围管理_2.Jpeg']

所以,要对文件名做一个排序

import os

from aip import AipOcr

""" 你的 APPID AK SK """

APP_ID = '换成你申请的AppID'

API_KEY = '换成你申请的API Kye'

SECRET_KEY = '换成你申请的Secret Key'

words_fiilter = ['这里例举你要过滤掉的一些字符',]

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 读取图片 """

def get_file_content(filePath):

with open(filePath, 'rb') as fp:

return fp.read()

""" 删除之前的识别结果 """

if os.path.exists("result.txt"):

os.remove("result.txt")

directory = input("请输入文件夹路径:")

for root, dirs, files in os.walk(directory): # 开始遍历文件

# 遍历文件

# 将文件重新排序

files.sort(key=lambda x: int(x.split('_')[2].split('.')[0]))

for f in files:

src = os.path.join(root, f)

image = get_file_content(src)

""" 调用通用文字识别, 图片参数为本地图片 """

result = client.basicGeneral(image)

words_result = result["words_result"]

for words in words_result:

content = words["words"]

if content in words_fiilter: # 过滤掉 页眉 页脚 和水印等信息

continue

print(content)

with open("result.txt", 'a', encoding='utf-8') as f:

f.write(content+'\n')

直接运行,输入文件夹路径,识别的内容会输出到result.txt的文件中,搞定!

python 图片文字转换成word_Python实现PDF转Words(文字提取)相关推荐

  1. python图片raw转换成jpg

    代码: import numpy as np import imageiorawfile = np.fromfile('./_DSC7472.ARW', dtype=np.float32) # 以fl ...

  2. 如何将文字转换成语音?分享两种文字转换语音小技巧

    怎么把文字转换成语音呢?大家在制作视频的时候,如果需要给视频额外配音,又不想使用自己声音的时候,该怎么办呢?其实处理这种问题很简单,我们可以直接将文字转换成语音加在视频下面就可以了,对声音的播报.方言 ...

  3. 怎么把文字转换成语音?教你一个文字转语音小妙招

    怎么把文字内容转换成语音播报呢?很多小伙伴在工作中可能会遇到需要把一段文字制作成语音来使用,用来配字幕或者是喇叭重复播报,这时候很多小伙伴就会犯难,该怎么做才能把文字转换成语音呢?其实方法很简单,只需 ...

  4. 如何把图片上的文字转换成可编辑的文档文字?

    当我们在网上搜索学习资料时,经常遇见有些资料时在图片上显示的,这时候我们通常会使用两种方法,方法一: 直接 把图片保存到电脑中: 方法二:是将图片上的文字通过打字的方法,输入到文档中保存. 以上的两种 ...

  5. 如何将pdf图片文字转换成word 文字word图片怎么转换pdf

    如今大家在工作中常常会运用到电脑来办公,电脑的运用大大提高了我们的工作效率,在带来机会的同时同样也带来了新挑战. pdf图片怎么转换成word文档?PDF格式是一种常用的文档格式,它可以保持文档内容和 ...

  6. html怎么在图片上加文字_怎么把图片文字转换成word文档

    我们在和别人交流的时候,有时候为了方便对方查看和理解,我们会使用文字图片进行交流,这是一种非常方便交流的形式.那如果我们想要将图片里的文字转换成Word文档应该怎么操作? 如果我们想要将图片识别为Wo ...

  7. 图片如何转换成PDF格式?教你一招快速转换

    怎么把图片转换成PDF文件格式呢?大家在日常中也经常是需要使用图片的,很多时候我们在记录一些重要的内容时都会选择拍照记录,因为这样会非常快速,同样的,大家在出门游玩时,也会用手机来拍照.当这些图片数量 ...

  8. 如何将图片文字转换成文本?

    不少小伙伴都会以图片格式记录着文字信息,比如把重要的内容拍下来.各种类型的票据或者对文档的内容截图等,而拍照无疑是可以快速记录的方法,还不容易出错,只是在后续的整理图片和文字会花比较长的时间.如果有可 ...

  9. 怎么把图片文件转换成PDF文件

    除了office文件外,我们最常用的就是PDF文件了.因为PDF文件格式可以将文字.字型.格式.颜色及独立于 设备和分辨率的图形图像等封装在一个文件中.该格式文件还可以包含超文本链接.声音和动态影像等 ...

最新文章

  1. Docker的使用(三:Docker Hub远程镜像管理)
  2. 多画面、实时投票,这场上了一晚热搜的超级晚,背后的技术出圈了
  3. 李迅雷+但斌+趋势的力量+对话PPT
  4. 2020-09-09学习OpenCV4:OpenCV-4.1.0+VS2017 编译(包含扩展)
  5. 百度Apollo发布中国首个自动驾驶安全报告,L3级别产品2020年量产上市
  6. HyperLedger Fabric区块链技术形成(1.2)
  7. Python语言环境错误:不支持的语言环境设置
  8. 历数玩转光伏的IT巨头们
  9. 【数字信号处理】傅里叶变换性质 ( 序列傅里叶变换共轭对称性质示例 | 证明 原序列实部 x_R(n) 的 傅里叶变换 是 原序列傅里叶变换 的 共轭对称序列 )
  10. mysql 自动分表_Mysql Event 自动分表
  11. css动画改变高度有过渡效果,css3-形变、过渡、动画
  12. Golang面试题解析(五)
  13. 自己调用NTDLL函数
  14. Android基础之Intent的几种常用方法
  15. linux入门和简单应用举例
  16. 程序员100套简历模板,全网最全
  17. 邮箱可以群发邮件吗?邮件群发怎么发?推荐邮箱邮件群发平台
  18. threejs 贴图动画总结
  19. php使用excel公式,使用PHPExcel上的公式问题(Excel2007)
  20. 【解析无线路由器信号消失原因】

热门文章

  1. 工作流管理系统开发之四 自定义表单
  2. Scratch 三种方法画圆
  3. 分布式定时任务-XXL-JOB-教程+实战
  4. Java的五个基础面试题
  5. jsp70835办公用品仓库库存管理系统servlet
  6. Postgresql实验系列(4)SIMD提升线性搜索性能24.5%(附带PG SIMD完整用例)
  7. docker rm时提示device or resource busy问题解决
  8. 浅谈大学生就业中的自我定位
  9. 《印第安纳之法柜奇兵》影评
  10. 关系的无损链接、函数依赖的判断