python中提取pdf文件某些页_人工智能|Python提取PDF中的文本并朗读
之前有老师在群里推荐这个,我看了一眼觉得还是蛮有趣的,然后就忘了……昨天又看到这个《宅男福利!我50行Python代码让小姐姐给你读Pdf》,今天于是开始自己尝试,谁知道pdfplumber库怎么也安装不了,最后才明白原来是高版本不兼容库文件,于是去python官网重新下了个3.7版本的,顺利安装pdfplumber库成功。
海龟编辑器找不到这个库文件,所以用的pip命令安装,用python3.7编辑器运行。
pip install pdfplumber
参考程序:
import pdfplumberpdf_path = "冉云飞.pdf"pdf = pdfplumber.open(pdf_path)text=''for page in range(0,len(pdf.pages)): text+=pdf.pages[page].extract_text()print(text)
运行后的效果:
接下来设置语言朗读,先安装库:
pip install pyttsx3
pip install pywin32
#若未安装pywin32, 需要安装此库的
然后加入朗读代码:
import pdfplumber #读取PDF文字
pdf_path = "冉云飞.pdf"
pdf = pdfplumber.open(pdf_path)
text=''for page in range(0,len(pdf.pages)):
text+=pdf.pages[page].extract_text()print(text)
import pyttsx3 #朗读代码
engine = pyttsx3.init()
engine.say(text)
engine.runAndWait()
运行后即可测试效果,代码简单,效果不错。
如果是文本文件,代码就更加简单了:
import pyttsx3engine = pyttsx3.init()engine.say(open("冉云飞.txt","r").read())engine.runAndWait()
文本文件的内容:
相关文章:
Python相关的各类竞赛及考级人工智能系列:人工智能|第六章baidu-aip应用体验程序(四个)人工智能|Python调用百度人脸对比检测体验人工智能|Python一次进行多张照片的人脸比对
python中提取pdf文件某些页_人工智能|Python提取PDF中的文本并朗读相关推荐
- python中提取pdf文件某些页_付费?是不可能的!处理 PDF 只需几行代码,彻底解放双手!...
在日常工作中,PDF (Portable Document Format的简称,意为"可携带文档格式") 是我们比较常用的电子文档格式.PDF文件以 PostScript 语言图象 ...
- python修改pdf文件大小,python读pdf文件字体大小_用Python读取pdf文件
#首先需要在cmd用 pip 安装pdfminer3k 如: #pip list 可以看用pip 安装的所有东西 import sys import importlib importlib.reloa ...
- python如何读取csv文件列表页_每25行读取一个csv文件,并使用python传递到列表
我想读取一个文件,并将该文件的每25行转换为一个列表,也就是说,它应该有4个列表,每个列表中包含25个项目(对于一个文件的100行).我无法获得这个问题的代码. 输入文件看起来像这样,实际上它有100 ...
- python按行读取文件取消空白行_在Python中读取文件时忽略空行的最简单方法
我将堆栈生成器表达式:with open(filename) as f_in: lines = (line.rstrip() for line in f_in) # All lines includi ...
- python创建多个文件夹合并_在python中如何将多个文件夹合并到一个文件夹中?
我需要将多个文件夹合并到一个文件夹中,并考虑到它们基于时间的顺序,为此我尝试了:import os import shutil DestFolder = 'C:\\Users\\user\\Folde ...
- python 写入网络视频文件很慢_用Python将数据写入LMDB非常慢
Creating datasets for training with Caffe I both tried using HDF5 and LMDB. However, creating a LMDB ...
- 使用 Python 将 PDF 文件按页进行拆分
""" 用途:将一个 PDF 文件按页拆分为多个 PDF 文件注意事项:若报错 ModuleNotFoundError: No module named 'PyPDF2' ...
- 【Python】pdf文件逐页转图片/修改图片存储大小脚本
在项目APP开发过程中需要将pdf文件逐页转成图片,并同时修改图片的大小(磁盘大小有要求而尺寸大小不作要求),研究了一下通过Python的"PyPDF2"库(参考:http://b ...
- 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件
程序功能: 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件 问题:A3幅面的双面打印的在中间用骑马钉装订成小册子, 拆开中间装订的订书钉由复印 ...
最新文章
- 成功解决ERROR: Unable to find the development tool `cc` in your path; please make sure that you have the
- 比尔盖茨的十句话,让你改变一生
- 您拒绝了位置共享服务器,共享服务器拒绝访问
- 是否可以改变 宏的值_给女人的建议:当父母不同意你的男朋友,可以尝试六个方法...
- 广告行业一些常用物料的尺寸
- LeetCode 445. 两数相加 II(链表大数加法)
- linux内核中TCP接收的实现
- JAVA并发编程的挑战
- 【软件测试从入门到放弃】熟悉阶段:软件测试流程
- 机器学习算法基础3-sklearn数据集与估计器
- context创建过程解析(一)之deployDescriptors
- imx6ul之LCD驱动移植
- 二进制和格雷码之间的转换
- ubuntu18.04安装有道词典等常用软件
- WIN10桌面美化(折腾)
- 世界上最健康的作息时间表健康十不易
- 微信扫码充值 php,PHP原生微信扫码支付
- php保存微信头像,保存访问者微信头像至服务器
- RestFul简介和使用
- 启用nat模式 路由模式_如何在HTML电子邮件中启用暗模式:您需要了解的一切。...
热门文章
- java字符串string_Java字符串String方法总结
- 【youcans 的 OpenCV 例程200篇】147. 图像分割之孤立点检测
- c3p0 服务启动获取连接超时_JDBC数据库连接池
- Python格式化输出--%s,%d,%f
- springBoot+mybatisPlus小demo
- java8 按条件过滤集合
- linux/npm/git的简单操作
- asp 使用TreeView控件
- Untiy3D Material 材质系统
- 在visual studio 2010+中调用ffmpeg编译时 报错error LNK xxxx: 模块对于 SAFESEH 映像是不安全的。...