OFFICE 文档在线预览方案很多:

服务器先转换为PDF,再转换为SWF,最后通过网页加载Flash预览,比如flexpaper

Office文档直接转换为SWF,通过网页加载Flash预览

转换为html,在浏览器中直接打开

今天,我们要用的方案是转换为html来预览。

技术方案:

office文档转换为pdf:使用libreoffice

pdf转html,使用pdf2htmlex

测试环境:

操作系统:ubuntu 12.04

office文档转pdf

1.1 安装libreoffice

apt-get install libreoffice-common

1.2 启动转换服务

soffice --accept="socket,host=127.0.0.1,port=2002;urp;" --nofirststartwizard

1.3 文档转换

网上一般介绍的都是使用JODConverter ,通过java来调用转换服务,其实还有一种替代方案,就是使用pyodconverter,python版本的转换脚本https://github.com/mirkonasato/pyodconverter/

下载后,进行测试:

python DocumentConverter.py Website_Information_Form.doc new.pdf

可以正常转换,但是中文显示有问题

1.4 中文显示问题修复

google一下,大概是字体缺失的问题,于是尝试将windows下的字体拷贝过去,复制windows下的字体到/usr/share/fonts下,然后刷新字体缓存

sudo fc-cache -fv 2>&1 | grep failed | cut -f1 -d":" | xargs -i sudo touch {} && sudo fc-cache -fv

再重启转换服务,再次测试,已经OK了!

2.pdf转html

pdf转html,使用国人开源的pdf2htmlex,一开始尝试通过源码编译安装,依赖组件太多,安装非常麻烦!感兴趣的可以执行编译安装,参见(https://github.com/coolwanglu/pdf2htmlEX/wiki/Building)

下面介绍简单安装方式:

2.1 通过apt安装

sudo add-apt-repository ppa:coolwanglu/pdf2htmlex

sudo apt-get update

sudo apt-get install pdf2htmlex

2.2 测试pdf2htmlex

pdf2htmlEX --zoom 1.3 xiaoshujiang.pdf

可以看到,当前目录生成了xiaoshujiang.html

2.3 转换脚本

写一个脚本,将两次转换放到一起,方便调用:

#convert2html.sh

temp=$(date +%Y%m%d%H%m%s)

python DocumentConverter.py $1 ${temp}.pdf

pdf2htmlEX --zoom 1.3 $temp.pdf

mv $temp.html $2

rm $temp.pdf

测试

3.1 word (doc.docx)测试

convert2html.sh imo云办公室-私有云用户使用手册V2.0.doc imo-doc.html

效果:

3.2 表格 (xls)测试

convert2html.sh xxx.doc imo-doc.html

3.3 PPT (pptx)测试

./convert.sh xxx.pptx music-plan.html

总结

本文介绍了一种在服务端将office文档转换为html以方便预览的方法。

实际使用时,可以将生成好的html放到网站路径下,通过拦截器,设置访问权限。

参考:https://blog.csdn.net/weixin_29351901/article/details/111887697

【文件处理】python 在线预览文件_OFFICE 文档转换为html在线预览相关推荐

  1. 免费图片或PDF文档转换为文本在线网站

    上期达芬奇同大家介绍了几个图片或PDF免费转换为文本软件,有些同学可能不想安装软件,今天达芬奇同大家分享几个免费的在线图片或PDF转文本网站. 网站1,白描网页版(图片转文字 - 图片转Excel表格 ...

  2. Python 实现将 Markdown 文档转换为 EPUB 电子书文件

    Python 实现将 Markdown 文档转换为 EPUB 电子书文件 Markdown Markdown 是一种轻量级的标记语言,用于以简单且易于阅读的方式格式化文本.它由 John Gruber ...

  3. 将Word文档转换为PDF文件的步骤和技巧

    在日常工作和学习中,我们经常需要将Word文档转换为PDF文件.PDF文件的格式稳定.排版精美.易于共享等特点使其成为了许多场合下的首选文件格式.在本文中,我将为大家介绍将Word文档转换为PDF文件 ...

  4. 在线预览doc,docx文档

    在线预览doc,docx文档 前言:上传成功以后的每个文档都能获取到所传文件的路径; 我这里是一个maven项目,需要在pom文件引入 <!-- 文件预览 --><dependenc ...

  5. wps在线预览接口_文档在线预览的实现

    最近在研究企业文档管理,这个是基本上所有企业都需要的软件,当然也是有很多种解决方案.对于企业文档来说,最基本的需求就是独立存储,共享.这种需求只需要建立一个Windows共享文件夹或者架一个Samba ...

  6. 文档转换、在线预览的几种方式以及推荐

    互联网时代的繁荣期,在线教育犹如三国中的巴蜀之地,无论是各大巨头还是中小软件.都希望在此领域分的一口肥肉. 其中,关于文档转换.一直是开发在线教育软件让人头痛的事. 在这先说一下文档转换以及预览的几种 ...

  7. 利用微软的Office Online在线预览播放Office文档,无工具栏

    利用微软的Office Online在线预览播放Office文档 通过微软的在线预览URL链接可以直接打开在线PPT文档如下 https://view.officeapps.live.com/op/v ...

  8. js预览本地word文档_Github+docsify打造在线文档

    效果图如下 预览链接:https://a870439570.github.io/interview-docs 快速开始 首先先安装好npm和nodejs,这里就不做过多介绍了 自信安装即可 (http ...

  9. python怎么读取word文件_python之python-docx编辑和读取word文档

    python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样:1 from docx import Do ...

  10. pythonmat文件转excel,利用python将图片转换成excel文档格式

    前言 本文主要介绍了关于利用python将图片转换成excel文档的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 实现步骤 读取图像,获取图像每个像素点的RGB值: 根据 ...

最新文章

  1. 修改meta标签 查看源码没效果怎么办_Spring 源码学习(三)-自定义标签
  2. 实训笔记(一) 创建文件夹(SDCard)
  3. [译]关于NODE_ENV,哪些你应该了解
  4. Java接口long类型精度丢失,解决前后端交互Long类型精度丢失问题
  5. shell与其他语言不同点
  6. Windows Server 2003 出现的Service Unavailable怎么办?
  7. 2018年12月份GitHub上最热门的Java开源项目
  8. 利用python求解度中心性
  9. SLAM GMapping(2)传感器
  10. 没人可以通过勤劳工作发财致富
  11. Java基础0308
  12. File Manager所支持的文件
  13. php 差错,PHP 错误处理
  14. 【ESP 保姆级教程】疯狂点灯篇 —— 案例:ESP8266 + LED + 按键 + 阿里云物联网平台 + 阿里云物联网Web应用(详细操作过程,全部源码)
  15. UID PID PPID 分别是什么
  16. go1.13 中 errors 包的 Is 与 As 方法
  17. MT4 获取当前订单的开单价格
  18. 【神经网络学习】鸢尾花分类的实现
  19. 三款好用的语音转文字软件,你知道几个?
  20. 2021辽宁省赛-I.完美主义-M.比赛

热门文章

  1. 英特尔cpu天梯图排名(附台式机CPU天梯图2022年3月份最新版精简图)
  2. Python爬取满7天赎回零费率基金:短线基金定投
  3. 解决无法删除文件夹的情况
  4. 使用Docker-Slim对Docker镜像进行瘦身打包
  5. linux mysql backdoor_Mysql BackDoor
  6. 小米官网首页标题制作 持续更新中
  7. 【gradle exclude冲突依赖】
  8. 中国居民身份证上的信息英语翻译
  9. 使用do文件进行仿真时出现“failed tofind ‘glbl’in hierarchical name ‘/glbl/GSR‘“的解决办法
  10. IETester汉化文件下载