我希望能够将HTML转换为docx或RTF。有很多用于创建docx和RTF文档的Ruby gems,但它们只是用于创建一个空文档,然后您可以通过编程添加内容。如何将HTML转换为文档格式?

这些宝石的问题是没有办法准确地将网页的格式转换为可打印页面上的相同/相似。 HTML标签有很多复杂性,并且由于它们的CSS属性而导致这些标签的位置。

以我目前的宝石在那里为RTF和Word创造的知识,我不得不写一个HTML解析器和所有的HTML标记转换为类似的OpenXML的标签,如粗体和斜体,但后来事情的位置基于CSS,但是由于position: relative/absolute渲染文档页面会非常困难。

我想知道是否有任何最新的发展,或者如果有一些即将发布的宝石或服务或工具能够处理这种转换。

有一个应该将Word转换为HTML的gem,但它没有文档,只能在https://www.ruby-toolbox.com/gems/word_parsing和rubygems上找到。而且,由于依赖性问题,我没有成功将其安装在本地计算机上。由于没有文档,因此没有提及如何解决依赖关系。

有些服务将PDF转换为“word”,并将HTML转换为PDF已被多人或宝石解决。此服务:http://www.pdftoword.com/将PDF转换为RTF,甚至将结果文档中的图像分开。他们的问题是它运行在Windows服务器上 - 我需要跨平台的东西,因为我正在开发的应用程序是在基于Unix的服务器上运行的Ruby on Rails。

+0

您是否考虑过查看OpenOffice/LibreOffice的'--headless --convert-to'功能?不会发布这个答案,因为我只听说过它的作品,从来没有用过它。 –

2012-02-07 20:40:32

+0

我还没有,是否有可能拥有/放入宝石形式? –

2012-02-07 20:43:20

+0

我想在概念上可以创建一个可能包含所有OOo/LO的巨大二进制可怕性的宝石,但这将是相当愚蠢的。如果您可以控制环境,那么您可以简单地确保安装正确的软件包,并且二进制文件是您期望它们在推出期间的位置。如果你不*控制环境,那么这可能是一个非起动器。当系统管理员要求他们在他们的机器上安装OOo/LO时,我不会期待系统管理员的积极反应。 –

2012-02-07 21:01:50

将html格式文档带格式转换,如何将HTML转换为文档格式?相关推荐

  1. C语言进制的格式字符,GB汉字文件转换成C语言Unicode十六进制字符串格式

    可以用在编程环境只能用GB,但程序中的汉字字符串需要用C语言的Unicode十六进制字符串格式表示.可以先在字符串中直接输入汉字,再用此程序转换. 源代码用C# //ascii & GB to ...

  2. java utc 转换pst_Python将UTC转换为PST/PDT格式

    我有一个web应用程序,它通过一个JS脚本捕捉日期/时间,并以UTC格式(例如134250270000)计算历元以来的秒数.在后端,我们有一个Python脚本,它从数据库中获取数据,但日期/时间以PS ...

  3. php 批量转换文档编码格式_据说是国内最好的文档格式转换网址~PDF,PPT,EXCEL,WORD互相转换...

    作者 雷哥 | 编辑 小西瓜 各位读者朋友,大家好. 平时工作中,经常会遇到PDF转为Word,或者PPT转为Word,或者..... 遇到这种情况,大家有什么好的方法实现呢? 今天雷哥推荐给大家一个 ...

  4. java 接口文档的格式化_Java Word API - 读写转换处理DOC DOCX HTML PDF HTML格式

    Java Word 文档处理API 先进功能 执行邮件合并 使用邮件合并生成报表 插入格式户文本,段落,图像,表格以及其他内容到Word文档中 使用数据库的检索数据填充到Word文档中的表格 创建邮件 ...

  5. javascript 原生类 DOMParser 把 字符串格式的HTML文档源码 转换成 document DOM对象

    文章目录 Intro QA DOMParser 在 console 的使用 cheerio 在 node 项目中的使用 Reference 测试 sum Intro 有一天我在写爬虫. 其实也说不上是 ...

  6. linux自带图片转换命令,Linux 命令行处理图片(图片格式转换、缩放、旋转等)...

    命令可以在"开始→运行"的文本框中,也可以事先在bat批处理文档中编写好命令.未带任何参数是注册dll文件功能,其它参数对应功能如下:.linux提供了tee命令用于完成上述程序的 ...

  7. 如何同时将多个 Word、PDF、PPT、Excel、Txt 文档批量转为 JPEG、PNG、BMP 等图片格式

    概要:「我的ABC软件工具箱」提供了丰富的格式转换功能,其中就包括了文档转为图片格式.可以批量的将 Word.Excel.PPT.PDF.文本文件快速转换为JPG.PNG.BMP等常见的图片类型,可以 ...

  8. 如何同时将多个 PDF 文档批量转为 Word、PPT、Epub 等其它格式

    概要:「我的ABC软件工具箱」提供了丰富的格式转换功能,其中就包括了 PPT 转为其它格式.可以批量的将 PDF 文件快速转换为 Html.Pptx.Docx.Doc.Epub.Xps 等众多常见的其 ...

  9. Python-docx 读写 Word 文档:读取正文、表格文本信息、段落格式、字体格式等

    Python-docx 模块读写 Word 文档基础(三):读取文档文本信息.表格信息.段落格式.字体格式等 前言: 1.获取文档章节信息: 2.获取段落文字信息: 3.获取文字格式信息: 4.获取文 ...

最新文章

  1. 霍金的预言正在实现,我们已经离不开人工智能,而它们在脱离控制
  2. 电脑显示器变色_流光溢彩电竞出击:飞利浦猛腾M1系列电竞显示器275M1RZ
  3. 以前,第二周周考总结
  4. MultiSlider组件
  5. 监控服务器怎么增加碟机,微服务业务监控方法及服务器专利_专利申请于2017-12-15_专利查询 - 天眼查...
  6. 小程序未来将有广阔的发展前景
  7. 实验7 寻址方式在结构化数据访问总的应用
  8. KEIL MDK access violation at 0x40021000 : no ‘read‘ permission的一种解决方法
  9. 应用定性数据分析包RQDA(Qualitative Data Analysis)和文挖掘框架包tm结合进行文本挖掘
  10. 数据库 基础学习7— 数据库编程
  11. 使用Sublime Text 2 编辑Markdown
  12. gitlens突然不显示了_监控画面突然没有了怎么办?监控画面不显示了?
  13. 手把手教你用jmeter做压力测试(详图)
  14. 阿里巴巴java开发手册 《Java开发手册》v1.5.0 华山版.pdf
  15. ms settings personalization
  16. 中国大学MOOC行为金融学及答案
  17. python 邮件抄送是什么意思_python 获取邮件中的发件人From、收件人To、抄送人Cc...
  18. 大数据分析项目实例:Hadoop数据分析应用场景
  19. IOS逆向之汇编基础
  20. iPS细胞的最新应用

热门文章

  1. Itext7生成pdf最全api总结
  2. HbuilderX 云打包
  3. 电调控制直流无刷电机
  4. PR模板 时尚简洁手机竖屏竖版短视频宣传抖音PR模板
  5. 【Git 教程系列第 5 篇】Git 的工作流程
  6. 17岁创业从哪下手?这三类人最容易成功!
  7. 想构建数字产品? 首先问自己这四个问题
  8. 管理工具 - QC Win10系统
  9. marquee 循环空白解决方案完整代码+效果图
  10. 【前端学习笔记—使用JS修改样式】