办公自动化系列+1

现在,各类数据分析的书籍,都可以在网上找到PDF版本;

同时,百度文库、各类数据统计文库、行业研究等众多论文报告,是通过PDF的形式去展示输出的;

但是,令人都头疼的是,各类数据分析书中,PDF版本中的表格数据,我们想转化成自己的数据库文件,或者EXCEL文件,却是很难编辑;

今天,就给大家解决这个问题,利用Python,将PDF中的表格和数据读取出来,并写入EXCEL中保存到本地;

先上代码,代码只有30行;

源PDF文件中的表格数据:


代码:

# -*- coding: utf-8 -*-"""请确保你在运行这个代码的时候,已经安装了pdfplumber库如果没有安装,请在[附件-命令提示符]下输入:pip install pdfplumber"""

import pdfplumberimport xlwt

# 定义保存Excel的位置workbook = xlwt.Workbook()  #定义workbooksheet = workbook.add_sheet('Sheet1')  #添加sheeti = 0 # Excel起始位置

path = input("请输入PDF文件位置:")#path = "aaaaaa.PDF"  # 导入PDF路径pdf = pdfplumber.open(path)print('\n')print('开始读取数据')print('\n')

for page in pdf.pages:    # 获取当前页面的全部文本信息,包括表格中的文字    # print(page.extract_text())    for table in page.extract_tables():        # print(table)        for row in table:            print(row)            for j in range(len(row)):                sheet.write(i, j, row[j])            i += 1        print('---------- 分割线 ----------')

pdf.close()

# 保存Excel表workbook.save('保存路径/文件名.xls')print('\n')print('写入excel成功')print('保存位置:')print('保存路径/文件名.xls')print('\n')input('PDF取读完毕,按任意键退出')

最终导出的EXCEL文件:


简简单单30行代码,就将PDF中的表格数据读取出来,并写入EXCEL啦;

拓展:

1、pdfplumber简介

Pdfplumber是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息,也可以对表格进行提取并进行可视化调试。

2、pdfplumber安装

安装直接采用pip即可。命令行中输入

pip install pdfplumber

3、简单使用

import pdfplumberwith pdfplumber.open("path/to/file.pdf") as pdf:    first_page = pdf.pages[0]    print(first_page.chars[0])

pdfplumber.pdf中包含了.metadata和.pages两个属性。

  • .metadata是一个包含pdf信息的字典。
  • .pages是一个包含页面信息的列表。

每个pdfplumber.page的类中包含了几个主要的属性。

  • .page_number 页码
  • .width 页面宽度
  • .height 页面高度
  • .objects/.chars/.lines/.rects 这些属性中每一个都是一个列表,每个列表都包含一个字典,每个字典用于说明页面中的对象信息, 包括直线,字符, 方格等位置信息。

4、一些常用的方法

  • .extract_text() 用来提取页面中的文本,将页面的所有字符对象整理为的那个字符串
  • .extract_words() 返回的是所有的单词及其相关信息
  • .extract_tables() 提取页面的表格

python自动化办公宝典

其中 《python自动化办公宝典》 共包含六个章节97页,不仅有详细的代码解释,而且还有详细的图文说明,通俗易懂,让你轻松完成办公自动化。

  • python使用openpyxl操作excel;
  • python使用PyPDF2和pdfplumber操作pdf;
  • python使用python-docx操作word;
  • python使用python-pptx操作PPT;
  • python如何自动收发邮件;
  • python制作电话号码归属地查询工具;

后台回复关键词:自动化  即可获得 !!!


下面这本书限时300积分兑换哦

也可参加当当活动每满100减50

感谢北京大学出版社的大力支持

vb.net读取excel并写入dgv_读取PDF中的表格写入EXCEL?30行代码搞定相关推荐

  1. python中提取几列_Python一键提取PDF中的表格到Excel(实例50)

    从PDF文件获取表格中的数据,也是日常办公容易涉及到的一项工作.一个一个复制吧,效率确实太低了.用Python从PDF文档中提取表格数据,并写入Excel文件,灰常灰常高效. 上市公司的年报往往包含几 ...

  2. java实现导出excel表_java实现导出网页中的表格为Excel

    将网页中的table数据,导出到excel表格,可以使用java POI实现. java poi是java中操作excel的工具,支持excel的导入与导出,一般有三种形式: 1.HSSFWorkbo ...

  3. Python黑科技 实现U盘自动读取复制~几行代码搞定

    python玩蛇群 欢迎加入      901170193 先贴代码 import os,time,shutil,re#识别文件的格式 regex_filename = re.compile(r'(. ...

  4. vb远程访问dde服务器,VB 利用DDE进程间通信,5行代码搞定

    Client 添加Command1,Text1及一个pictureBox(命名为picDDE) 代码如下: Option Explicit Private Sub Command1_Click() p ...

  5. 【办公自动化】使用Python一键提取PDF中的表格到Excel(文末送书5本)

  6. java pdfbox读取pdf中的表格

    java pdfbox读取pdf中的表格 目前遇到了需要解析pdf中表格的需求,遇到无法解析表格中的空格,求助大神帮助!!! <dependency><groupId>org. ...

  7. 用python 将PDF中的表格转化为Excel

    这几天想统计一下<中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告>中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转 ...

  8. 【Python基础】pandas的骚操作:一行 pandas 代码搞定 Excel “条件格式”!

    来源:Python数据科学 作者:东哥起飞 本篇是pandas100个骚操作系列的第 7 篇:一行 pandas 代码搞定 Excel "条件格式"! 系列内容,请看????「pa ...

  9. PDF中的表格导入到Excel(分割)

    PDF中的表格导入到Excel(分割) 1,把pdf打开,选择文本内容,复制,粘贴到表格中,可效果..... 2,进行分列,大家仔细看表格,发现.... 1,选中要拆分的列, 2,切换到数据菜单,点击 ...

最新文章

  1. php 链接多个mysql_PHP同时操作多个MySQL连接
  2. Linus Torvalds: 成功的项目源于99%的汗水与1%的创新
  3. SQL SERVER 2008如何卸载干净
  4. Bootstrap基础二十七 多媒体对象(Media Object)
  5. android wifi驱动_OTT盒子WiFi方案首选:博通2T2R WiFi模块
  6. Tomcat 设置运行日志
  7. C++指向成员函数的指针
  8. xfce4环境下gdm3更换背景图片
  9. java实现zip压缩文件(同一文件夹下的多个文件夹打成一个zip包)
  10. 字节跳动九周年张一鸣演讲:反对all-in、抽象概念和方法论
  11. MongoDB 数据迁移 备份 导入(自用)
  12. Telnet服务安装及配置
  13. 使用HTML5构建iOS原生APP(2)
  14. webmagic保存html页面,WebMagic抓取前端Ajax渲染的页面
  15. 苹果M1 Mac 如何卸载 iPhone 和 iPad 应用程序?
  16. DRV835x电机驱动故障调试记录
  17. 和警察蜀黍拍照像“抓捕现场”?效哥告诉你正确拍照姿势!
  18. 金融科技的价值和风险
  19. VBO转HDMI OUT 支持常用分辨率,最大支持4K60HZ
  20. 2018年个人成长总结及2019年个人成长计划

热门文章

  1. 302状态码_你见过 HTTP 哪些状态码?
  2. 计算机专业英语第2版郭涛翻译,计算机专业英语
  3. python那些事儿编程技巧_python一些编程技巧(持续更新)
  4. 计算机专业配置笔记本,学计算机专业的买什么样配置和价格的笔记本好?
  5. 苹果企业证书_IOS福利9月15日苹果企业证书已更新!重新下载即可!
  6. 海洋分享lol皮肤插件_LOL战斗之夜客户端BUG频出服务器爆满!如何提前领取皮肤?...
  7. AcWing之重建二叉树
  8. 领域应用 | 如何将知识图谱特征学习应用到推荐系统?
  9. python实现大批量pdf格式论文的重命名与目录制作功能
  10. XGB的python实现