vb.net读取excel并写入dgv_读取PDF中的表格写入EXCEL?30行代码搞定
办公自动化系列+1
现在,各类数据分析的书籍,都可以在网上找到PDF版本;
同时,百度文库、各类数据统计文库、行业研究等众多论文报告,是通过PDF的形式去展示输出的;
但是,令人都头疼的是,各类数据分析书中,PDF版本中的表格数据,我们想转化成自己的数据库文件,或者EXCEL文件,却是很难编辑;
今天,就给大家解决这个问题,利用Python,将PDF中的表格和数据读取出来,并写入EXCEL中保存到本地;
先上代码,代码只有30行;
源PDF文件中的表格数据:
代码:
# -*- coding: utf-8 -*-"""请确保你在运行这个代码的时候,已经安装了pdfplumber库如果没有安装,请在[附件-命令提示符]下输入:pip install pdfplumber"""
import pdfplumberimport xlwt
# 定义保存Excel的位置workbook = xlwt.Workbook() #定义workbooksheet = workbook.add_sheet('Sheet1') #添加sheeti = 0 # Excel起始位置
path = input("请输入PDF文件位置:")#path = "aaaaaa.PDF" # 导入PDF路径pdf = pdfplumber.open(path)print('\n')print('开始读取数据')print('\n')
for page in pdf.pages: # 获取当前页面的全部文本信息,包括表格中的文字 # print(page.extract_text()) for table in page.extract_tables(): # print(table) for row in table: print(row) for j in range(len(row)): sheet.write(i, j, row[j]) i += 1 print('---------- 分割线 ----------')
pdf.close()
# 保存Excel表workbook.save('保存路径/文件名.xls')print('\n')print('写入excel成功')print('保存位置:')print('保存路径/文件名.xls')print('\n')input('PDF取读完毕,按任意键退出')
最终导出的EXCEL文件:
简简单单30行代码,就将PDF中的表格数据读取出来,并写入EXCEL啦;
拓展:
1、pdfplumber简介
Pdfplumber是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息,也可以对表格进行提取并进行可视化调试。
2、pdfplumber安装
安装直接采用pip即可。命令行中输入
pip install pdfplumber
3、简单使用
import pdfplumberwith pdfplumber.open("path/to/file.pdf") as pdf: first_page = pdf.pages[0] print(first_page.chars[0])
pdfplumber.pdf中包含了.metadata和.pages两个属性。
- .metadata是一个包含pdf信息的字典。
- .pages是一个包含页面信息的列表。
每个pdfplumber.page的类中包含了几个主要的属性。
- .page_number 页码
- .width 页面宽度
- .height 页面高度
- .objects/.chars/.lines/.rects 这些属性中每一个都是一个列表,每个列表都包含一个字典,每个字典用于说明页面中的对象信息, 包括直线,字符, 方格等位置信息。
4、一些常用的方法
- .extract_text() 用来提取页面中的文本,将页面的所有字符对象整理为的那个字符串
- .extract_words() 返回的是所有的单词及其相关信息
- .extract_tables() 提取页面的表格
python自动化办公宝典
其中 《python自动化办公宝典》 共包含六个章节97页,不仅有详细的代码解释,而且还有详细的图文说明,通俗易懂,让你轻松完成办公自动化。
- python使用openpyxl操作excel;
- python使用PyPDF2和pdfplumber操作pdf;
- python使用python-docx操作word;
- python使用python-pptx操作PPT;
- python如何自动收发邮件;
- python制作电话号码归属地查询工具;
后台回复关键词:自动化 即可获得 !!!
下面这本书限时300积分兑换哦
也可参加当当活动每满100减50
感谢北京大学出版社的大力支持
vb.net读取excel并写入dgv_读取PDF中的表格写入EXCEL?30行代码搞定相关推荐
- python中提取几列_Python一键提取PDF中的表格到Excel(实例50)
从PDF文件获取表格中的数据,也是日常办公容易涉及到的一项工作.一个一个复制吧,效率确实太低了.用Python从PDF文档中提取表格数据,并写入Excel文件,灰常灰常高效. 上市公司的年报往往包含几 ...
- java实现导出excel表_java实现导出网页中的表格为Excel
将网页中的table数据,导出到excel表格,可以使用java POI实现. java poi是java中操作excel的工具,支持excel的导入与导出,一般有三种形式: 1.HSSFWorkbo ...
- Python黑科技 实现U盘自动读取复制~几行代码搞定
python玩蛇群 欢迎加入 901170193 先贴代码 import os,time,shutil,re#识别文件的格式 regex_filename = re.compile(r'(. ...
- vb远程访问dde服务器,VB 利用DDE进程间通信,5行代码搞定
Client 添加Command1,Text1及一个pictureBox(命名为picDDE) 代码如下: Option Explicit Private Sub Command1_Click() p ...
- 【办公自动化】使用Python一键提取PDF中的表格到Excel(文末送书5本)
- java pdfbox读取pdf中的表格
java pdfbox读取pdf中的表格 目前遇到了需要解析pdf中表格的需求,遇到无法解析表格中的空格,求助大神帮助!!! <dependency><groupId>org. ...
- 用python 将PDF中的表格转化为Excel
这几天想统计一下<中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告>中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转 ...
- 【Python基础】pandas的骚操作:一行 pandas 代码搞定 Excel “条件格式”!
来源:Python数据科学 作者:东哥起飞 本篇是pandas100个骚操作系列的第 7 篇:一行 pandas 代码搞定 Excel "条件格式"! 系列内容,请看????「pa ...
- PDF中的表格导入到Excel(分割)
PDF中的表格导入到Excel(分割) 1,把pdf打开,选择文本内容,复制,粘贴到表格中,可效果..... 2,进行分列,大家仔细看表格,发现.... 1,选中要拆分的列, 2,切换到数据菜单,点击 ...
最新文章
- php 链接多个mysql_PHP同时操作多个MySQL连接
- Linus Torvalds: 成功的项目源于99%的汗水与1%的创新
- SQL SERVER 2008如何卸载干净
- Bootstrap基础二十七 多媒体对象(Media Object)
- android wifi驱动_OTT盒子WiFi方案首选:博通2T2R WiFi模块
- Tomcat 设置运行日志
- C++指向成员函数的指针
- xfce4环境下gdm3更换背景图片
- java实现zip压缩文件(同一文件夹下的多个文件夹打成一个zip包)
- 字节跳动九周年张一鸣演讲:反对all-in、抽象概念和方法论
- MongoDB 数据迁移 备份 导入(自用)
- Telnet服务安装及配置
- 使用HTML5构建iOS原生APP(2)
- webmagic保存html页面,WebMagic抓取前端Ajax渲染的页面
- 苹果M1 Mac 如何卸载 iPhone 和 iPad 应用程序?
- DRV835x电机驱动故障调试记录
- 和警察蜀黍拍照像“抓捕现场”?效哥告诉你正确拍照姿势!
- 金融科技的价值和风险
- VBO转HDMI OUT 支持常用分辨率,最大支持4K60HZ
- 2018年个人成长总结及2019年个人成长计划
热门文章
- 302状态码_你见过 HTTP 哪些状态码?
- 计算机专业英语第2版郭涛翻译,计算机专业英语
- python那些事儿编程技巧_python一些编程技巧(持续更新)
- 计算机专业配置笔记本,学计算机专业的买什么样配置和价格的笔记本好?
- 苹果企业证书_IOS福利9月15日苹果企业证书已更新!重新下载即可!
- 海洋分享lol皮肤插件_LOL战斗之夜客户端BUG频出服务器爆满!如何提前领取皮肤?...
- AcWing之重建二叉树
- 领域应用 | 如何将知识图谱特征学习应用到推荐系统?
- python实现大批量pdf格式论文的重命名与目录制作功能
- XGB的python实现