【文件处理】python 在线预览文件_OFFICE 文档转换为html在线预览
OFFICE 文档在线预览方案很多:
服务器先转换为PDF,再转换为SWF,最后通过网页加载Flash预览,比如flexpaper
Office文档直接转换为SWF,通过网页加载Flash预览
转换为html,在浏览器中直接打开
今天,我们要用的方案是转换为html来预览。
技术方案:
office文档转换为pdf:使用libreoffice
pdf转html,使用pdf2htmlex
测试环境:
操作系统:ubuntu 12.04
office文档转pdf
1.1 安装libreoffice
apt-get install libreoffice-common
1.2 启动转换服务
soffice --accept="socket,host=127.0.0.1,port=2002;urp;" --nofirststartwizard
1.3 文档转换
网上一般介绍的都是使用JODConverter ,通过java来调用转换服务,其实还有一种替代方案,就是使用pyodconverter,python版本的转换脚本https://github.com/mirkonasato/pyodconverter/
下载后,进行测试:
python DocumentConverter.py Website_Information_Form.doc new.pdf
可以正常转换,但是中文显示有问题
1.4 中文显示问题修复
google一下,大概是字体缺失的问题,于是尝试将windows下的字体拷贝过去,复制windows下的字体到/usr/share/fonts下,然后刷新字体缓存
sudo fc-cache -fv 2>&1 | grep failed | cut -f1 -d":" | xargs -i sudo touch {} && sudo fc-cache -fv
再重启转换服务,再次测试,已经OK了!
2.pdf转html
pdf转html,使用国人开源的pdf2htmlex,一开始尝试通过源码编译安装,依赖组件太多,安装非常麻烦!感兴趣的可以执行编译安装,参见(https://github.com/coolwanglu/pdf2htmlEX/wiki/Building)
下面介绍简单安装方式:
2.1 通过apt安装
sudo add-apt-repository ppa:coolwanglu/pdf2htmlex
sudo apt-get update
sudo apt-get install pdf2htmlex
2.2 测试pdf2htmlex
pdf2htmlEX --zoom 1.3 xiaoshujiang.pdf
可以看到,当前目录生成了xiaoshujiang.html
2.3 转换脚本
写一个脚本,将两次转换放到一起,方便调用:
#convert2html.sh
temp=$(date +%Y%m%d%H%m%s)
python DocumentConverter.py $1 ${temp}.pdf
pdf2htmlEX --zoom 1.3 $temp.pdf
mv $temp.html $2
rm $temp.pdf
测试
3.1 word (doc.docx)测试
convert2html.sh imo云办公室-私有云用户使用手册V2.0.doc imo-doc.html
效果:
3.2 表格 (xls)测试
convert2html.sh xxx.doc imo-doc.html
3.3 PPT (pptx)测试
./convert.sh xxx.pptx music-plan.html
总结
本文介绍了一种在服务端将office文档转换为html以方便预览的方法。
实际使用时,可以将生成好的html放到网站路径下,通过拦截器,设置访问权限。
参考:https://blog.csdn.net/weixin_29351901/article/details/111887697
【文件处理】python 在线预览文件_OFFICE 文档转换为html在线预览相关推荐
- 免费图片或PDF文档转换为文本在线网站
上期达芬奇同大家介绍了几个图片或PDF免费转换为文本软件,有些同学可能不想安装软件,今天达芬奇同大家分享几个免费的在线图片或PDF转文本网站. 网站1,白描网页版(图片转文字 - 图片转Excel表格 ...
- Python 实现将 Markdown 文档转换为 EPUB 电子书文件
Python 实现将 Markdown 文档转换为 EPUB 电子书文件 Markdown Markdown 是一种轻量级的标记语言,用于以简单且易于阅读的方式格式化文本.它由 John Gruber ...
- 将Word文档转换为PDF文件的步骤和技巧
在日常工作和学习中,我们经常需要将Word文档转换为PDF文件.PDF文件的格式稳定.排版精美.易于共享等特点使其成为了许多场合下的首选文件格式.在本文中,我将为大家介绍将Word文档转换为PDF文件 ...
- 在线预览doc,docx文档
在线预览doc,docx文档 前言:上传成功以后的每个文档都能获取到所传文件的路径; 我这里是一个maven项目,需要在pom文件引入 <!-- 文件预览 --><dependenc ...
- wps在线预览接口_文档在线预览的实现
最近在研究企业文档管理,这个是基本上所有企业都需要的软件,当然也是有很多种解决方案.对于企业文档来说,最基本的需求就是独立存储,共享.这种需求只需要建立一个Windows共享文件夹或者架一个Samba ...
- 文档转换、在线预览的几种方式以及推荐
互联网时代的繁荣期,在线教育犹如三国中的巴蜀之地,无论是各大巨头还是中小软件.都希望在此领域分的一口肥肉. 其中,关于文档转换.一直是开发在线教育软件让人头痛的事. 在这先说一下文档转换以及预览的几种 ...
- 利用微软的Office Online在线预览播放Office文档,无工具栏
利用微软的Office Online在线预览播放Office文档 通过微软的在线预览URL链接可以直接打开在线PPT文档如下 https://view.officeapps.live.com/op/v ...
- js预览本地word文档_Github+docsify打造在线文档
效果图如下 预览链接:https://a870439570.github.io/interview-docs 快速开始 首先先安装好npm和nodejs,这里就不做过多介绍了 自信安装即可 (http ...
- python怎么读取word文件_python之python-docx编辑和读取word文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样:1 from docx import Do ...
- pythonmat文件转excel,利用python将图片转换成excel文档格式
前言 本文主要介绍了关于利用python将图片转换成excel文档的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 实现步骤 读取图像,获取图像每个像素点的RGB值: 根据 ...
最新文章
- 修改meta标签 查看源码没效果怎么办_Spring 源码学习(三)-自定义标签
- 实训笔记(一) 创建文件夹(SDCard)
- [译]关于NODE_ENV,哪些你应该了解
- Java接口long类型精度丢失,解决前后端交互Long类型精度丢失问题
- shell与其他语言不同点
- Windows Server 2003 出现的Service Unavailable怎么办?
- 2018年12月份GitHub上最热门的Java开源项目
- 利用python求解度中心性
- SLAM GMapping(2)传感器
- 没人可以通过勤劳工作发财致富
- Java基础0308
- File Manager所支持的文件
- php 差错,PHP 错误处理
- 【ESP 保姆级教程】疯狂点灯篇 —— 案例:ESP8266 + LED + 按键 + 阿里云物联网平台 + 阿里云物联网Web应用(详细操作过程,全部源码)
- UID PID PPID 分别是什么
- go1.13 中 errors 包的 Is 与 As 方法
- MT4 获取当前订单的开单价格
- 【神经网络学习】鸢尾花分类的实现
- 三款好用的语音转文字软件,你知道几个?
- 2021辽宁省赛-I.完美主义-M.比赛
热门文章
- 英特尔cpu天梯图排名(附台式机CPU天梯图2022年3月份最新版精简图)
- Python爬取满7天赎回零费率基金:短线基金定投
- 解决无法删除文件夹的情况
- 使用Docker-Slim对Docker镜像进行瘦身打包
- linux mysql backdoor_Mysql BackDoor
- 小米官网首页标题制作 持续更新中
- 【gradle exclude冲突依赖】
- 中国居民身份证上的信息英语翻译
- 使用do文件进行仿真时出现“failed tofind ‘glbl’in hierarchical name ‘/glbl/GSR‘“的解决办法
- IETester汉化文件下载