i need to extract the text of a specific page from a XPS document.

The extracted text should be written in a string. I need this to read out the extracted text using Microsofts SpeechLib.

Please examples only in C#.

Thanks

解决方案

Add References to ReachFramework and WindowsBase and the following using statement:

using System.Windows.Xps.Packaging;

Then use this code:

XpsDocument _xpsDocument=new XpsDocument("/path",System.IO.FileAccess.Read);

IXpsFixedDocumentSequenceReader fixedDocSeqReader

=_xpsDocument.FixedDocumentSequenceReader;

IXpsFixedDocumentReader _document = fixedDocSeqReader.FixedDocuments[0];

IXpsFixedPageReader _page

= _document.FixedPages[documentViewerElement.MasterPageNumber];

StringBuilder _currentText = new StringBuilder();

System.Xml.XmlReader _pageContentReader = _page.XmlReader;

if (_pageContentReader != null)

{

while (_pageContentReader.Read())

{

if (_pageContentReader.Name == "Glyphs")

{

if (_pageContentReader.HasAttributes)

{

if (_pageContentReader.GetAttribute("UnicodeString") != null )

{

_currentText.

Append(_pageContentReader.

GetAttribute("UnicodeString"));

}

}

}

}

}

string _fullPageText = _currentText.ToString();

Text exists in Glyphs -> UnicodeString string attribute. You have to use XMLReader for fixed page.

python处理xps文件,从XPS文档中提取文本相关推荐

  1. 【Python】导出docx格式Word文档中的文本、图片和附件等

    [Python]导出docx格式Word文档中的文本.图片和附件等 零.需求 为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理.需要批量提取Word文档中的图片和附件以便进一步检 ...

  2. php 提取文字,如何使用PHP从word文档中提取文本内容?

    我想用PHP从word文档中提取文本内容. 我在Microsoft Word for Mac 2011中创建了一个新的单词文档. 编辑:也通过在Windows 7中的Microsoft Word中创建 ...

  3. Word处理控件Aspose.Words功能演示:用Java从Word文档中提取文本

    Aspose.Words For .NET是一种高级Word文档处理API,用于执行各种文档管理和操作任务.API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsof ...

  4. Word处理控件Aspose.Words功能演示:在 C# 中从 Word 文档中提取文本

    从 Word 文档中提取文本通常在不同的场景中执行.例如,分析文本,提取文档的特定部分并将它们组合成单个文档,等等.在本文中,您将学习如何使用 C# 以编程方式从 Word 文档中提取文本.此外,我们 ...

  5. java中用流提取文档中的文字,语言实现从word文档中提取文本

    word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...

  6. Word处理控件Aspose.Words功能演示:使用 Python 查找和替换 Word 文档中的文本

    很多时候,您需要替换 Word 文档中的特定文本或短语.MS Word 具有针对此类情况的内置功能,您可以一键替换所需的文本.在本文中,您将学习如何使用 Python 以编程方式查找和替换 Word ...

  7. 微软文本检索_如何在Microsoft Word中引用其他文档中的文本

    微软文本检索 You probably have some text that you type often in your Word documents, such as addresses. In ...

  8. 9款免费的OCR工具,从扫描的PDF文档中提取文字

    Windows 10有OCR吗? Windows 10 具有适用于所有应用程序的内置OCR服务. 令人惊讶的是,这是Windows搜索工具. 查看如何使用它: 步骤 1. 打开您要扫描的照片.PDF或 ...

  9. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  10. 使用pymupdf获取pdf文档中的文本下划线信息(全网唯一解决方案)

    1,问题描述 最近,公司需要对一批pdf文档进行解析,获取其中文字,并再展示到前端页面上.如果单纯地提取文字,其实非常容易,但麻烦的在于保存原有文档中的文本格式,例如加粗.斜体.下划线,以及三者的各种 ...

最新文章

  1. Stream Processing: Apache Kafka的Exactly-once的定义 原理和实现
  2. python画折线图代码-Python绘制折线图和散点图的详细方法介绍(代码示例)
  3. 数据到入到excel和打印功能
  4. It is not allowed to rename or repackage the original archive “sapjco3.jar“
  5. 探讨程序员如何学习你不熟悉的技术,以及用什么样的方法去学习.
  6. jmeter数据库负载测试_JMeter:负载测试关系数据库
  7. cglib动态代理jar包_Java中的原生动态代理和CGLIB动态代理的原理,我不信你全知道!...
  8. 联想E450c下vmware安装ubuntu Intel VT-x 处于禁用状态
  9. ListView若干点
  10. 分布式系统的Raft算法 1
  11. Web漏洞扫描工具:AWVS下载
  12. lisp型材库_STMX 1.3.2 发布,高性能的 Common Lisp 库
  13. css鼠标变成小手(css中鼠标悬停是为小手)
  14. win10无法打开超链接,组织策略阻止
  15. CAD2020下载AutoCAD2020下载安装详细教程
  16. 二维数组作为函数参数的传递
  17. ibm服务器怎么装win7系统安装系统,联想ibmx3100m4安装win7系统详细教程
  18. java获取文件大小_Java实现获取文件大小的几种方法
  19. LLVM之父Chris Lattner:为什么我们要重建AI基础设施软件
  20. 维度、度量、指标概念

热门文章

  1. 神是什么?神即道 道法自然 如来 ---《天道》王志文饰丁元英 左小青饰芮小丹
  2. 《非暴力沟通》- 使人情意相通的沟通方式
  3. 阿里一位 70 后程序员、架构师的 26 个职场感悟
  4. 数据人必会的Excel|掌握32个Excel小技巧,成为效率达人(一)
  5. grab显示连接不上服务器,grab软件使用方法 grab打车软件
  6. JAVA_判断日期是否为工作日(排除节假日和调整周末上班)
  7. 读书笔记:学习C语言必须读的第二本书
  8. win10计算机管理界面模糊,Win10电脑屏幕显示模糊
  9. java 比较日期大小(方法之一compare to 备忘)
  10. 3dmax导出unity3d模型设置