在数据获取的时候总会碰到很多非标准格式的文档,比如为了web显示良好,很多网站将excel文件转换成了pdf格式,还可能直接使用图片格式,而这类文档中的数据是无法直接用来作数据分析的。举个例子如下:

环境保护部2008年中国环境统计年报就为pdf格式,我们想获取其中的一份数据表,一般的想法我们认为可以采用复制黏贴的方式复制数据,原始数据表如下:

手工复制到excel中会发现所有同一行数据会被分配到一个单元格中:

这时,虽然我们可以使用excel的分列功能进行操作,但是如果pdf文档中数据表较多,那么我们就需要对每张表进行复制黏贴然后再分列调整,明显效率不高,而且分列侯还是有很多小细节还是需要手工调整。

有一个很方便的工具可以解决这个问题,那就是在线转换网站Zamzar。下面进行介绍:

网址:http://www.zamzar.com/

该网站无需注册即可使用,支持1200余种格式转换,包括图片、文档、音视频等。并且经过测试无需翻墙即可使用。

使用方式也十分简单,我们以上面的《2008年中国环境统计年报.pdf》为例。

按上图中的四个步骤分部进行:

这里我们在step2中选择xlsx,点击Convert后就等待邮件到达了。一般几分钟就转换好了。查看邮箱:


点击下载链接下载即可

打开该xlsx文件,我们发现原来的pdf文件按照页面分成了多个excel分sheet表:

点击sheet表找到需要的数据项,我们看到数据已经被整理成了标准表格,这时复制即可

另外转换成doc/docx格式效果也很好,在word里面数据表直接以表格方式体现。这就按需选择即可。

有一点需要注意,非注册用户使用文件大小限制在100M以下,且下载链接只保留1天。如果需要更大的转换文件,则需要注册,但是是需要付费的。

更多的功能待读者自己探索。

我一直坚持认为:技术之所以重要,在于其提高了效率,即生产力。如果有一种更方便简单的方式能够完成同一件本需要复杂技术要求的工作,那么应该毫不犹豫的选择它。用10%的时间完成90%的工作,剩下的时间可以用来享受生活。

如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据相关推荐

  1. xpdf将pdf转换为html,(WordExcelPDF文件转换成HTML整理.docx

    (WordExcelPDF文件转换成HTML整理 项目开发过程中,需求涉及到了各种文档转换为HTML或者网页易显示格式,现在将实现方式整理如下:?一.使用Jacob转换Word,Excel为HTML? ...

  2. caj文件转换成word文档的软件

    我们日常在办公中,会经常使用到word文档,还有Excel表格.PDF文件.JPG文件等等文件格式.但是caj文件格式我们很少遇到,因为不是专业相关,或者和工作相关,一般不会使用到caj文件.所以我们 ...

  3. PDF文件转换成什么格式最适合编辑?

    想要将PDF文件转换成好编辑的文件格式,这其实是要看PDF文件上你想编辑的内容来决定的,比如你想编辑文件中的文字内容或者想改变一下排版,那就可以将它转换成Word格式:如果你想编辑文件中的表格,那就可 ...

  4. java ppt转html_c# Office文件转换成Html格式(将PPT转换成HTML)

    这只是一个小程序,就是将ppt转换成html,方法很多,为了以后备用,在此记录一下,也和大家分享 源码如下: using System; using System.Collections.Generi ...

  5. 会声会影转换成html,ThunderSoft Video to HTML5 Converter 视频文件转换成HTML5

    下面我们对ThunderSoft Video to HTML5 Converter 视频文件转换成HTML5v3.1.0.0官方版文件阐述相关使用资料和ThunderSoft Video to HTM ...

  6. mpp文件转换excel_怎么将pdf文件转换成excel表格格式呢?

    在我们的日常工作当中,有的时候偶尔会出现一些商业E-Mail的发送,但是在发送之前我们是需要将PDF文档中的数据内容转换成Excel表格的形式.所以学会将PDF转Excel的方法很重要,那不知道小伙伴 ...

  7. c#,将pdf文件转换成图片文件。

    本文采用Adobe Acrobat9.0的COM组件,将Pdf文件的每一页转换成对应的图片文件. 开发环境:VS2010,.Net Framework4.0,Adobe Acrobat9.0. 工程中 ...

  8. Python将PDF文件转换成PNG的方案

    2019独角兽企业重金招聘Python工程师标准>>> 目前最靠谱的是基于 mupdf 的 Python 绑定:  https://github.com/rk700/PyMuPDF ...

  9. xml文件转换成图片_如何把pdf文件转换成图片?

    pdf文件怎么转成JPG图片呢?相信有不少人在迷惑,可能还在想着截图等操作来完成转换,但如果是截图成JPG图片后的效果可能很差,并没有之前pdf文件那么清楚.那这样往往打印出来的效果也不怎么理想,那怎 ...

最新文章

  1. (每日一题)P3723 [AH2017/HNOI2017]礼物(经典FFT)
  2. Error creating bean with name 'org.springframework.amqp.rabbit.config.ListenerContainerFactoryBean#0
  3. java制表位是什么意思_java制表位如何应用?大神进来。
  4. python爬虫系列(1.3-关于cookie的认识)
  5. Python Numba实现GPU加速
  6. verilog中wire和reg的区别,什么时候用wire?什么时候用reg?
  7. mysql 技能进阶_mysql的高级进阶(一)
  8. c语言时钟报告,C语言图形时钟课程设计实验报告
  9. 浅析MySQL存储引擎序列属性
  10. CodeForces 589J Cleaner Robot
  11. JPA的继承 OOD和关系数据库的 纽带
  12. 软件项目活动图 关键路径
  13. 动态分区分配及可重定位分区分配
  14. java的反射机制~~!
  15. JavaWeb(后端)
  16. Altium Designer Pcb 快捷键
  17. 《TextScanner: Reading Characters in Order for Robust Scene Text Recognition》阅读笔记
  18. 暴笑口误2007贺岁版出炉喽!!(转载)
  19. LINUX系统子系统DEMON,【linux】led子系统
  20. Keil5可以打开Keil4

热门文章

  1. java编写分数加减法_JAVA 分数加减法
  2. 【MTK】 关于电信使用VoLTE异常
  3. 关于global_step参数
  4. 第六章 电磁新理论(修补章)
  5. 360数科沈赟:坏账率仅0.2%,精细化全周期智能风控让欺诈无所遁形
  6. JavaScript之Three.js
  7. android空指针异常Attempt to invoke virtual method
  8. 实用糖尿病学读书笔记-第28章-糖尿病患者的教育
  9. 《Tomcat内核设计剖析》勘误表
  10. Linux系列(一): 在虚拟机中安装Ubuntu