View Code

 1           string wordPath = Server.MapPath("/Fileword/" + FileUpload1.FileName);
 2             string htmlPath = Server.MapPath("/Fileword/测试.html");
 3             //上传word文件
 4             FileUpload1.SaveAs(wordPath);
 5             #region 文件格式转换
 6             //请引用Microsoft.Office.Interop.Word
 7             ApplicationClass word = new ApplicationClass();
 8             Type wordType = word.GetType();
 9             Documents docs = word.Documents;
10             // 打开文件
11             Type docsType = docs.GetType();
12             object fileName = wordPath;
13             Document doc = (Document)docsType.InvokeMember("Open", BindingFlags.InvokeMethod, null, (object)docs, new Object[] { fileName, true, true });
14             //判断与文件转换相关的文件是否存在,存在则删除。(这里,最好还判断一下存放文件的目录是否存在,不存在则创建)
15             if (File.Exists(htmlPath)) { File.Delete(htmlPath); }
16             ////每一个html文件,有一个对应的存放html相关元素的文件夹(html文件名.files)
17             if (Directory.Exists(htmlPath.Replace(".html", ".files")))
18             {
19                 Directory.Delete(htmlPath.Replace(".html", ".files"), true);
20             };
21             //转换格式,调用word的“另存为”方法
22             Type docType = doc.GetType();
23             object saveFileName = htmlPath;
24             docType.InvokeMember("SaveAs", BindingFlags.InvokeMethod, null, doc, new object[] { saveFileName, WdSaveFormat.wdFormatHTML });
25             // 退出 Word
26             wordType.InvokeMember("Quit", BindingFlags.InvokeMethod, null, word, null);

这样生成的html , 会有很多冗余HTML,去除冗余HTML方法如下

View Code

 1  public static string CleanWordHtml(string html)
 2     {
 3         StringCollection sc = new StringCollection();
 4         sc.Add(@"<!--(\w|\W)+?>");
 5         sc.Add(@"<!--(\w|\W)+?-->");
 6         sc.Add(@"<style>(\w|\W)+?</style>");
 7         sc.Add(@"\s?class=\w+");
 8         sc.Add(@"<(meta|link|/?o:|/?font|/?strong|/?st\d|/?head|/?html|body|/?body|/?w:|/?m:|/?v:|!\[)[^>]*?>");
 9         sc.Add(@"(<[^>]+>)+ ()+");
10         sc.Add(@"<xml>(\w|\W)+?</xml>");//清除xml标签及所有值
11         sc.Add(@"(\n\r){2,}");
12         foreach (string s in sc)
13         {
14             html = Regex.Replace(html, s, "", RegexOptions.IgnoreCase);
15         }
16
17         foreach (Match match in Regex.Matches(html, "style='[^']+'", RegexOptions.IgnoreCase))
18         {
19             html = html.Replace(match.Value, match.Value.Replace('"', ' ').Replace("'","\""));
20
21         }
22         html = Regex.Replace(html, @"(?<=style=['""])[^'""]*(?=['""])", delegate(Match m)
23         {
24             return string.Join(";", m.Value.Split(';').Where(t => Regex.IsMatch(t.Trim(), @"^(background|color):")).ToArray());
25         });
26
27         return html;
28
29     }

可根据自己的需求修改正则

转载于:https://www.cnblogs.com/1987kevin/archive/2013/03/25/2980724.html

word 生成HTML相关推荐

  1. java生成word(报告报表)含统计图表图片、循环表格,Spring Boot整合word生成

    先给大家一个效果图: 左侧是word模板,右侧是生成后的word文档. 在工作中经常用到会有一些生成统计报告.请假等word的功能需求,小编之前做了一些报表的生成,使用过freemarker和poi, ...

  2. Word生成图表(柱状图、线形图等,并附带表格展示数值)

    说明 Java poi实现生成图表并附带表格数据展示 一.效果图与模板 1.模板 2.效果图 二.Word生成图标与报表工具类 1.工具类 代码如下: package com.ml.module.fi ...

  3. word生成freemarker模板 并下载

    java利用freemarker生成word模板,并在网页端下载 java后台生成word技术选型 freemarker引入项目 word生成xml模板 改写生成的xml模板 后台代码 前台代码 ja ...

  4. word生成目录后 中文目录前出现Equation Chapter (Next) Section 1字样解决方法

    word生成目录后 中文目录前出现Equation Chapter (Next) Section 1字样解决方法 问题描述:因为在某一章节,使用mathtype插入下一章,使得公式编号从该章重新开始, ...

  5. E005 如何把Excel数据写入Word生成工资字条

    Hi,How are you doing? 我是职场编码(CodeVoc). 在E000中,我们介绍了Node.js.Ruby.Electron等工具下载安装. 这期,给你演示一下由Electron联 ...

  6. python办公自动化之批量生成docx——根据excel生成word、根据word生成excel

    python办公自动化之批量生成docx--根据excel生成word 系列文章 本文目录 一.从excel读取 二.写入docx 三.批量生成docx 四.反向操作,根据word生成excel 系列 ...

  7. java poi实现Word生成表格并下载至本地

    首先我来讲一下需要用到的类: XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档 XWPFParagraph代表文档.表格.标题等种的段落,由多个XWPF ...

  8. java Aspose.Words实现Word生成表格并下载至本地

    一.Maven加入Aspose.Words依赖 <dependency><groupId>com.aspose</groupId><artifactId> ...

  9. 前导问题word使用技巧---解决Word 生成目录时前导符不一致的问题(即通常所谓的目录中省略号大小不一致)

    前导问题word使用技巧---解决Word 生成目录时前导符不一致的问题(即通常所谓的目录中省略号大小不一致) 参考文章: (1)前导问题word使用技巧---解决Word 生成目录时前导符不一致的问 ...

  10. word生成pdf保留书签设置

    word生成pdf保留书签设置 点击"另存为"选项: 在另存为界面选择保存为pdf,如下,会出现"选项"设置项,点击进入: 在选项中,设置需要的设置,若要将pd ...

最新文章

  1. GitHub 骚操作,个人页还能这么玩?
  2. matlab表白_520新玩法!MATLAB大神教你画爱心
  3. 重学前端学习笔记(三十六)--Flex 布局
  4. 计算机视觉与深度学习 | 机器学习中的数学——入门机器学习
  5. Java并发编程:什么是线程安全,以及并发必须知道的几个概念
  6. 一个蚂蚁前端程序员,曾经的辛酸面试历程
  7. 直男的回答能多出乎意料?
  8. Linux Socket poll
  9. 人类一败涂地电脑版_【天翼云盘】侠盗猎车手5(GTA5) 终极SVIP整合版,话不多说来波狠的!...
  10. 冰原服务器维护,12月2日服务器公告:冰原旅途进发
  11. 【图像融合】高斯金字塔
  12. C++面试题:list和vector有什么区别?
  13. #绘制圆心_AutoCAD绘制齿轮教程
  14. Netty游戏服务器二
  15. 电源管理允许此设备唤醒计算机怎么关掉,电脑如何设置电源管理允许鼠标唤醒计算机...
  16. WDR7660虚拟服务器,TP-Link TL-WDR7660路由器怎么设置?
  17. MVC框架实现用户的登录注册功能
  18. JAVA实现雪花飘落
  19. UVA 11021 麻球繁衍
  20. 2022年全球及中国天然橡胶产业供需趋势及行业期货市场走势:预计供需双增长,价格上行[图]

热门文章

  1. “区块链”究竟是什么
  2. 区块链兼容以太坊智能合约
  3. fcm和firebase_我如何最终使Netlify Functions,Firebase和GraphQL一起工作
  4. gatsby_将您的GraphCMS数据导入Gatsby
  5. 自动化运维工具Saltstack(一)
  6. 上传代码到git上的分支(协同开发)
  7. (C++)1016 部分A+B 正整数
  8. php fastcgi配置_IIS7.5配置php(FastCGI)- 自动配置
  9. Work with Alexa :Echo匹配连接到Alexa
  10. pynput使用简单说明