i need to extract the text of a specific page from a XPS document.

The extracted text should be written in a string. I need this to read out the extracted text using Microsofts SpeechLib.

Please examples only in C#.

Thanks

解决方案

Add References to ReachFramework and WindowsBase and the following using statement:

using System.Windows.Xps.Packaging;

Then use this code:

XpsDocument _xpsDocument=new XpsDocument("/path",System.IO.FileAccess.Read);

IXpsFixedDocumentSequenceReader fixedDocSeqReader

=_xpsDocument.FixedDocumentSequenceReader;

IXpsFixedDocumentReader _document = fixedDocSeqReader.FixedDocuments[0];

IXpsFixedPageReader _page

= _document.FixedPages[documentViewerElement.MasterPageNumber];

StringBuilder _currentText = new StringBuilder();

System.Xml.XmlReader _pageContentReader = _page.XmlReader;

if (_pageContentReader != null)

{

while (_pageContentReader.Read())

{

if (_pageContentReader.Name == "Glyphs")

{

if (_pageContentReader.HasAttributes)

{

if (_pageContentReader.GetAttribute("UnicodeString") != null )

{

_currentText.

Append(_pageContentReader.

GetAttribute("UnicodeString"));

}

}

}

}

}

string _fullPageText = _currentText.ToString();

Text exists in Glyphs -> UnicodeString string attribute. You have to use XMLReader for fixed page.

python xps_python处理xps文件_从XPS文档中提取文本相关推荐

  1. Word处理控件Aspose.Words功能演示:使用 Python 查找和替换 Word 文档中的文本

    很多时候,您需要替换 Word 文档中的特定文本或短语.MS Word 具有针对此类情况的内置功能,您可以一键替换所需的文本.在本文中,您将学习如何使用 Python 以编程方式查找和替换 Word ...

  2. 微软文本检索_如何在Microsoft Word中引用其他文档中的文本

    微软文本检索 You probably have some text that you type often in your Word documents, such as addresses. In ...

  3. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  4. 【Python】导出docx格式Word文档中的文本、图片和附件等

    [Python]导出docx格式Word文档中的文本.图片和附件等 零.需求 为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理.需要批量提取Word文档中的图片和附件以便进一步检 ...

  5. linux中将文本中的单词换掉的指令_为什么说从PDF中提取文本是一件困难的事?...

    PDF文档处理工作中,总是绕不开对文本提取的需求.很多用户觉得我们PDFlux好用,所以对其中的底层技术也非常感兴趣.也有人为认为,从PDF里抽取文本段落和表格,应该非常简单! 近期,我们会对PDF文 ...

  6. python word 合并单元格_在word文档选项卡中检测合并单元格

    一点背景 我有一个软件规范,我需要以表格的形式解析需求.它们的格式也不总是相同的.我继承了一个python脚本,它使用win32com解析word文档,然后openpyxl将需求导出到excel文件, ...

  7. python手机销售系统详细设计_数据库详细设计文档 .doc

    [原创]定制代写r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews数据挖掘和统计分析可视化调研报告等服务(附代码数据), 咨询邮箱: 30253934 ...

  8. origin修复中_从Word文档中的Origin图恢复误删的Origin文件数据的方法

    在平时工作中,由于不小心将原始的Origin文件删掉了或找不到了,万幸的是Word文件中还有一份图,如何恢复数据呢?本文就教大家一种从Word文档中的Origin图恢复误删的Origin文件数据的方法 ...

  9. 代码中如何让无序标记的内容并排_英语技术文档中如何正确使用无序列表和有序列表?...

    Foreword 之前跟大家分享过英语技术文档中如何正确使用时态和英语技术文档中如何正确使用人称,这一篇再跟大家分享一下如何正确使用无序列表和有序列表. 其实,在技术文档中,除了无序列表和有序列表,另 ...

  10. Python读取\修改word文档中的文本框内容

    本文所指的 word文档,都是docx结尾的,如果是doc结尾的,请参考上篇:点我 我们绝大多数的需求都是 利用python-docx 来读取word文档中的内容,进而再对内容进行其他处理,如下代码, ...

最新文章

  1. (005) java后台开发之Mac终端命令运行java
  2. 记录kafka踩坑:marking the coordinator (id rack null) dead for group
  3. java小游戏制作(maxfo)
  4. android 闪屏 实现,Android游戏闪屏实现步骤详解
  5. 每日一词——@FUnctionalInterface
  6. boy and girl
  7. 燕郊手机5G网络已全面覆盖,宽带提高至1000M!
  8. 录简写与缩略语 问题解决工具及要点
  9. 【数据恢复】【傲梅分区助手】
  10. 高通410 随身WIFI刷入Debian系统(玩法合集)
  11. ora-01128,ora-00275
  12. CommandArgument属性 绑定参数
  13. 二十世纪最伟大的十大算法
  14. PWM和PPM的区别
  15. 进程的攻与“防” ---- 进程隐藏(Win7 x32 绕过PC Hunter)
  16. uniapp百度身份证识别
  17. HTML 样式实例 - 字体、颜色和尺寸
  18. 安卓手机备份_求一款能够云备份的安卓手机便签记事本?
  19. ShaderJoy —— HDR 、LDR 、VDR 的实现【GLSL】
  20. mdnsresponder_什么是mDNSResponder,为什么它可以在Mac上运行?

热门文章

  1. 数据库面试题:Redis如何保证数据一致性
  2. html怎么键tab键,tab键的html
  3. 学科前沿:基因启动子甲基化与宫颈癌发展的关系 | 文献科普
  4. 出口商贸易融资工具:汇出汇款融资
  5. c语言 long double输出,printf和long double
  6. FFmpeg — 视频剪辑、动静水印、转场特效[gl-transitions]
  7. 三原色是红黄蓝对吗_三原色是哪几种颜色?是红黄蓝,还是红绿蓝
  8. C#正则表达式(来源:侧身向南边博客)
  9. 碧桂园博智林机器人总部大楼_碧桂园11.4亿元竞得北滘坤洲地块,近博智林机器人谷...
  10. 工作第一年的所见所闻所学所想