说到word文档转html的,网上一搜一大把,各种在线word转html页面,使用起来也方便。但是在实际项目中要使用的话,需要自己开发,这里就提供一个简单的方法。

后缀 .doc 和 .docx 都是word文档,doc是word2003以及之前版本保存的文档,docx是word2007、word2010等保存的新型文档,本质都是属于文字排版的文件。注意 这里提供的方法暂时是针对docx的。

这里使用pydocx的库,安装pip3 install pydocx,可以直接对docx文件进行处理,简单粗暴,PyDocX.to_html("**.docx"),返回值就是转换后的html的源码,然后再通过写文件,写到html文件里面。

from pydocx import PyDocX

html = PyDocX.to_html("test.docx")

f = open("test.html", 'w', encoding="utf-8")

f.write(html)

f.close()

这里对文件的处理都是当前文件夹下面的,得到的html文件可以直接打开查看,通过对html查看,可以发现文字转换成了P标签,图片使用base64 的方式显示的。

这里是对本地的文件进行处理,进一步部署到服务器上,我使用的是Django的项目,前端页面通过form 表单进行上传docx 文件。

type属性定为file,accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document" 筛选docx 的文件。

这里上传的文件是docx格式的word文档,针对doc 的文档,可以手动改成docx后缀名,进行上传使用。 尝试用代码转换成docx,window平台下有相应的库,ubantu 暂时无果,欢迎码友提供解决方法。

介绍下window平台下的代码转换方法,pip3 install pypiwin32安装这个库,里面有win32com,将doc文档转成docx 的。

from win32com import client

word = client.Dispatch("Word.Application")

doc = word.Documents.Open("D:\\***\\**.doc") //绝对路径 doc文件

doc.SaveAs("D:\\***\\**.docx",16) //保存的docx 文件,绝对路径

doc.Close()

word.Quit()

更多精彩欢迎关注微信号:春风十里不如认识你

一起学习,一起进步,欢迎上车,有问题随时联系,一起解决!!!

pythondocx_python docx文档转html页面相关推荐

  1. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  2. 在线预览doc,docx文档

    在线预览doc,docx文档 前言:上传成功以后的每个文档都能获取到所传文件的路径; 我这里是一个maven项目,需要在pom文件引入 <!-- 文件预览 --><dependenc ...

  3. Word文档在前台页面展示

    这篇文章主要是围绕如何实现Word文档在页面上进行预览,以及涉及到相关的技术点,和我们将会在这个功能上使用的插件. 插件:Aspose.Total: Aspose.Total是Aspose公司旗下的最 ...

  4. html5多个图片位置_Python使用标准库zipfile提取docx文档中所有图片

    清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔哩 ...

  5. Python使用标准库zipfile提取docx文档中所有图片

    清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30 ============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔 ...

  6. docx文档怎么排列图片_Python-docx 对 word 文本处理实现自动化操作!

    之前介绍了一个Python包 openpyxl ,用于处理 Excel :而对于 Word 文本时同样也有对应的 Python库 Python-docx,在日常办公中,如果需要处理多个 word 文本 ...

  7. Python修改docx文档格式

    任务:原docx文档修改标题和页面宽高. 步骤:1.原docx文档解压为document.xml(见最后) 2.通过xml解释替换标签属性值,保存为document_format.xml 3.还原do ...

  8. vue怎么显示/下载后端返回的 .docx文档

    需求: 后端给了一个.docx 文档的url地址,前端要在页面显示或下载这个文档 比如地址是xxx.docx 参考文章:前端预览word文档实现_前端打开word文档_何以为皇的博客-CSDN博客 上 ...

  9. 将Doc或者Docx文档处理成html的代码逻辑;统计word中的字数,段数,句数,读取word中文档内容的代码逻辑...

    将Doc或者Docx文档处理成html的代码逻辑 下面是maven的配置代码: <!-- 文档处理所需的jar的依赖 --><dependency><groupId> ...

  10. pythondocx模板_python操作docx文档(转)

    关于python操作docx格式文档,我用到了两个python包,一个便是python-docx包,另一个便是python-docx-template;,同时我也用到了很出名的一个工具"pa ...

最新文章

  1. 使用C++实现一套简单的状态机模型——实例
  2. 关于手机已处理里重复单据的处理办法
  3. 五个方法成为更好的程序员
  4. javaweb简单的登录增删改查系统_利用python操作小程序云数据库实现简单的增删改查!
  5. 2016陕西省省赛 ACM Rui and her functions B 二分
  6. 使用Server 2008新GPO做驱动器映射
  7. c程序设计语言读书笔记,C程序设计语言读书笔记
  8. Exchange 2010 迁移至Exchange 2013系列之一:系列架构介绍
  9. poj 1159 (DP LCS)
  10. OC 获取view相对位置_【黑苹果系列】小白教程之DSD补丁篇 | 7分钟教你优雅定制最关键的OC补丁(clover通用)...
  11. Python基础教程(第3版)PDF
  12. 合并两个有序数组的三种方法
  13. aliez歌词_aLIEz (中文版)歌词
  14. win10计算机域填写,win10系统如何加入域 win10系统加入域的方法
  15. 【BZOJ4199】【NOI2015】品酒大会(后缀数组)
  16. 在信息不完全对称时,你可以用你的“空城计”虚张声势
  17. ARM cache 结构与访问方式
  18. 【最新最详细】SQL Server 2019 安装教程{超详细 附网盘下载链接}
  19. 国内首家,阿里云发布Redis全球多活版
  20. 痞子衡嵌入式:恩智浦i.MX RT1xxx系列MCU特性那些事(2)- RT1052DVL6性能实测(CoreMark)...

热门文章

  1. LSF COMMAND bhist
  2. 模拟退火算法求解--顺序约束的路由部署问题
  3. Phyton学习笔记
  4. 笑话,随便笑不收费.
  5. 【Leetcode刷题Python】1467. 两个盒子中球的颜色数相同的概率
  6. ros::Rate loop_rate(10); loop_rate.sleep(); 在程序中是休眠到一定时间,并不占用CPU时间
  7. 云杰恒指:6.18恒指期货实盘指导交易复盘
  8. 解决电脑蓝牙耳机默认音量过大的问题
  9. symbian学习笔记
  10. 黑之契约者OP《Howling》完整版歌词