2020年第一波更新,再来个重量级的刚需场景,文件互转。有Excel催化剂后,不再需要频繁到处找寻各种网页在线版的转换操作,数据安全很重要,不要轻易将自己文件上传到网上,哪天出事了,没人可怜!

做最有价值的文件转换而非为转换而转换

文件转换的确是一个非常刚需的功能,滋生了大量的网页在线转换应用,当然也有不少是收费性质的,至于免费的也是有功能限制的如文件大小限制或转换页数限制。

因着没有过硬的数据管理能力,大量的本该在Excel上做结构化存储的数据,被分散地存储在pdf、word、甚至ppt上,这些数据的回收再加工,就有了非常刚需的场景。

同样地在人员往来过程中,为了文档的保护和查阅方便,也催生了大量的pdf版本的文件数据。pdf文件,其致命之处是,已经失去了日常我们文档中的结构化信息,如一、二级标题、正文、图片、表格等。除非用非常专业的Adobe软件才能做一些的还原。同样最大的痛点是可编辑能力几乎为0。

在一些系统导出的报表文件中,可能就出现有pdf格式的数据,对程序输出来说容易,但输出后,再加工的余地非常少。

所以pdf文件的转换,可以说是文件转换中的刚需中的刚需,为了能拿到可重新编辑的数据,重中之重,可不能让人工去一遍又一遍的复制粘贴的操作。

Excel催化剂倡导从源头解决问题,如本该使用Excel来整理数据,存储数据源的,最大可能性地培训教导一线人员做好此工作,其他各式各样的用于展现、打印、查看需求的,可灵活应用在pdf、word、ppt、html等不同场景需求的文件上。数据源是根本,务必管理好自己的数据源。

挽救现实中的各种文件转换问题

当然理想很丰满,现实很骨感,企业运作过程中,生产出大量不规范的数据及不规范的数据存储方式,也需要有一些工具功能来亡羊补牢一下。

Excel催化剂也对其做了一些补充,让数据转换过程更流畅,更重要的是转换后,能够再次轻松地从其中重新采集到所需的数据,作二次加工整理。

具体的功能实现有如下几种


更佳的找寻菜单方式,使用搜索。


一、Pdf转Word功能

此功能对文档类型的数据非常刚需,只有数据回到Word中,才能重新有编辑的余地。此功能使用Word原生的功能,在Word2013及之后的版本中,可以直接在Word中打开pdf文件,在Excel催化剂的场景中,仅对其做了批量性操作处理,一次性处理多个Word文档。

二、pdf转jpg,提取文本、图片等

此转换已经在2019年的功能中作了实现,可轻松完成pdf的文本信息、图片信息提取及pdf图片化保护操作。但有可能在数据提取后的再加工上,仍然不是最佳的方式,特别是需要在pdf文件中获取结构化信息时,一些表格类数据获取能力较弱。

传送门:

第88波-批量提取pdf文件信息(图片、表格、文本等)

第89波-批量多图片转PDF

三、Word转Excel的xlsx格式

此功能将是本篇的一大亮点功能,虽然实现起来,很不起眼, 只是很粗爆地将Word文件的数据全选后,再粘贴到Excel中。为何将其抬举到如此重要的环节?

最开始想做这个转换的动机是,因前面pdf提取表格信息有缺陷,识别率有限,若要将pdf的表格信息拿到Excel中使用,想到的迂回方式是将其转换成Word,再通过Word作中间桥梁,Word里有表格的结构化信息,可轻松提取。

后来在朋友的公众号推文中认识了Doc2Xls这款小工具,由Excel加载宏开发而成,如下图所示。


了解了一翻后,发现其实现的原理,类似于笔者之前开发过的报表结构数据源转换标准数据源的逻辑,思维定性地往此作者的实现方式的方向去思考,直到某一天一个灵光出现,直接将Word文档复制粘贴到Excel文档中,最符合笔者对此功能的期待。

Doc2xls工具,也迭代了好多年,但总体看回来,功能还是非常单薄,只能处理一对一关系的数据结构(可能未深入学习了解全面,有不对的地方请指正)。

在Excel催化剂的报表结构数据源转换标准数据源功能中,实现的效果是可以满足一对多的数据源,也是最为常见的订单、发货单、采购单等样式,符合实际的业务场景。

由Word直接转为Excel,数据到了Excel环境,在Excel催化剂过往的大量文本处理、格式处理、数据转换的功能支持下,比起Doc2Xls很机械地作一些简单配置,必然要通用强大得多。

Excel环境下采集指定内容及转换的功能大概会有以下几个大的功能支持,日后有好的示例将通过视频的方式给大家展示其强大及灵活之处。

传送门:

第75波-标签式报表转标准数据源

第33波-报表形式数据结构转标准数据源

同样地配合之前所提到的场景,对Word中的表格数据,进行额外的提取操作,方便数据更合理地被Excel环境所识别和提取到。一个表格占用一个工作表,若是规范性的文档,表格结构一致,位置顺序一致,将非常方便将Word的数据输出到Excel中重新利用。

四、Word转Pdf功能

此功能个人理解,仅仅用于数据保护和数据查阅需要,可能的场景只是手中大量的Word文档,想一次性转换为Pdf格式,Word的原生功能可以轻松对Word文档转Pdf,只是一次只转换一个文档,本功能也只是调用Word的转换接口,进行循环批量操作而已。

 五、PPT转Pdf功能

和第四点完全一致的场景,功能实现也没特别之处,仍然是内部原生功能即可完成。

六、Word转Html

基于前期的网页采集功能的开发,将Word转换为Html,就比较有场景需求了,若在前面第3点上直接转Xlsx文件,不能很好地拿到想要的数据(会丢失一些格式、标题、层级等信息或字段名和内容不分离等问题),将其转换为Html,再使用xPath的提取方式来重新提取,未尝不是一个非常好的方式,类似使用网页采集的原理,采集一些结构化的数据。

同时另一刚需场景为,可以轻松地提取到Word里面的图片,转换成Html后,图片将会在一个文件夹中存放,更多的技能是如何将这些文件夹里的无意义的命名图片,重新快速地进行筛选,拿到自己最终所需的图片子集。

在此给出大概的操作步骤及用到的功能:

  • 使用文件遍历功能,将图片信息汇总到Excel表中

  • 用xPath找出原始图片的清单(转换html后,会出现两套图,一个为缩略图一个为原图)。

  • 使用插入图片的方式,重新将图片插入到Excel中,手动判断图片所属及对其手动在对应行单元格上重命名。

  • 使用批量重命名、批量移动图片等方式,最终将原来无意义名字图片命名后转移到最终所需的文件夹中存放。

传送门:

[功能发布]Excel催化剂2周年巨献-网页数据采集功能发布,满足90%合理场景使用

第11波-快速批量插入图片并保留纵横比

第83波-遍历文件夹内文件信息特别是图像、音视频等特有信息

第41波-文件文件夹相关函数

第17波-批量文件改名、下载、文件夹创建等

七、Excel转Pdf功能

Excel文件结构,类似数据库结构,有多个工作表,所以更科学的转换方式是按指定工作表转换,此功能也在过往的功能中得以实现。

详见文章:

第50波-批量打印、导出PDF、双面打印功能

结语

源头没摆正,最终衍生出大量稀奇古怪的各种神操作,当然文件转换过程,也必然很大原因归咎于没有规范科学的数据管理,没有树立科学的数据管理方法论,最终只能是无穷无尽地各种问题各种低效。

Excel催化剂倡导,从源头中处理,正确地理解好数据源与报表的两者关系,并在实际工作中加以应用,将减少非常多这些文件转换的工作。

还是那句话,你足够优秀,但你不能阻碍你的队友拖你大大的后腿,此篇一系列的转换功能,相信每个人都有不同程度的使用机会。

文字太苍白,后续有机会将以视频的方式给大家演示其威力所在。欢迎提供脱敏的原始示例数据,以便更有针对性地讲解。

--------------------------------------------------------------------------------

公众号后台回复 插件下载 获取最新下载链接

Excel催化剂安装方法介绍

Excel催化剂常见使用问题汇总

转html图片 xwpf_Word、Pdf、Excel、PPT、html等文件互转工具相关推荐

  1. Word,Excel,PPT等Office文件Web浏览器在线预览

    博主联系方式   https://fizzz.blog.csdn.net/article/details/113049879 前两天接到一个需求:需要在线预览用户上传的Word,Excel,PPT文档 ...

  2. Android实现在线预览office文档(Word,Pdf,excel,PPT.txt等格式)

    1.概述 我们都知道,Android原生并没有提供浏览office文档格式的相关Api,在安卓端想要实现在线预览office文档的功能显然很是复杂,我们手机安装QQ浏览器时,在手机打开office文档 ...

  3. office2016安装后新建图标(word\excel\ppt)等文件图标均显示白色

    虽然激活的2016打开也可以输入文件,但是图标看着很不舒服! 找了找 Excel文件不显示图标的第一种方式:图标未知 如下面的截图,一个Excel文档,在桌面上预览,可以看到excel文件不显示图标. ...

  4. cgm 转jpg java_获取图片,音频,视频,压缩包文件类型的工具类

    1.[代码][Java]代码 /* * Copyright (C) 2013 Simple Explorer * * This program is free software; you can re ...

  5. pdf怎么合并成一个文件?高效工具分享

    PDF是一种非常常用的文档格式,许多人经常需要合并多个PDF文件为一个文件.这是因为有时候我们需要将多个PDF文件打包成一个文件,以便于共享或归档.在本文中,我们将介绍如何使用电脑或手机合并PDF文件 ...

  6. java实现word,pdf,excel,图片添加水印

    gitee项目地址:https://gitee.com/betelnutandwine/meutilswatermark: java实现pdf,word,excel,ppt,图片加水印 jar地址:s ...

  7. Windows中PDF TXT Excel Word PPT等Office文件在预览窗格无法预览的终级解决方法大全

    切记:以上方法均会对注册表进行修改,一定要先备份整个注册表,以防万一,避免导致系统错误 一.问题症状或错误复现: 1.首先要打开 文件资源管理器的 文件 预览窗格 2.然后在文件资源管理器的右边就会显 ...

  8. 操作简便的JPG图片转为PDF转换器

    生活中,我们常会下载一些图片用来留恋,然而时间长了就考虑将这些JPG图片做成一本PDF的书来翻看,有没有一种最为操作简便的JPG图片转为PDF转换器,这里给大家介绍一款可以将JPG图片转换成PDF文件 ...

  9. 最好用的pdf转ppt软件

    我们经常会遇到这种类似的案例,网上论文数据库有很多不错的PDF论文,当下载下来后一部分文件竟然打不开或是下载下来的内容出现了排版混乱的局面.因为这样的错误,不少用户不得不重新制作,投入更多的时间和精力 ...

最新文章

  1. 【转】首先为人编写程序,其次才是计算机
  2. 我逛了一下JDK一条街,发现了不少好东西!
  3. GDCM:gdcm::FileSet的测试程序
  4. cpu频率_AMD EPYC米兰处理器样品曝光:64核128线程的Zen 3芯,频率可达3.5GHz_游戏硬件CPU...
  5. android中如何执行java命令
  6. 在C# 中 如何限制在文本框(textBox)中输入的类型为正整数
  7. Js实现input上传图片并显示缩略图
  8. UltraEdit配置代码格式化工具astyle
  9. U8v10.1销售发货单打印模板取客户名称不正确的问题
  10. java图形用户界面设计
  11. ARCore学习——软件准备及网站
  12. RFBNet详细讲解(附图文解释)
  13. 杭州电子科技大学acm--2017
  14. IP0_Verilog实现基于双线性插值算法的图像放大IP设计
  15. 用python编写乒乓球小游戏--Turtle功能的应用
  16. 看清大厂面目:美光宣布暂停向华为供货!
  17. 挖掘肖特基二极管的作用及其接法
  18. 笔记dng图片在premiere和ae中不一致
  19. Matlab坐标轴操作
  20. 太极链老了,及四个统计服务比较

热门文章

  1. java判断包含关系contains方法的使用
  2. 关于redis性能问题分析和优化
  3. 使用ip命令搭建基于隧道的虚拟专有网络
  4. 第13条:合理利用try/expect/else/finally结构中的每个代码块
  5. UVa1401 Remember the Word(DP+Trie树)
  6. 在线CSV转TSV工具
  7. linux时间格式化命令
  8. 计算机桌面不来回变黑,电脑屏幕变小了左右黑几种解决方法
  9. Docker容器和本机之间的文件传输
  10. [Java]Socket和ServerSocket学习笔记