python处理xps文件,从XPS文档中提取文本
i need to extract the text of a specific page from a XPS document.
The extracted text should be written in a string. I need this to read out the extracted text using Microsofts SpeechLib.
Please examples only in C#.
Thanks
解决方案
Add References to ReachFramework and WindowsBase and the following using statement:
using System.Windows.Xps.Packaging;
Then use this code:
XpsDocument _xpsDocument=new XpsDocument("/path",System.IO.FileAccess.Read);
IXpsFixedDocumentSequenceReader fixedDocSeqReader
=_xpsDocument.FixedDocumentSequenceReader;
IXpsFixedDocumentReader _document = fixedDocSeqReader.FixedDocuments[0];
IXpsFixedPageReader _page
= _document.FixedPages[documentViewerElement.MasterPageNumber];
StringBuilder _currentText = new StringBuilder();
System.Xml.XmlReader _pageContentReader = _page.XmlReader;
if (_pageContentReader != null)
{
while (_pageContentReader.Read())
{
if (_pageContentReader.Name == "Glyphs")
{
if (_pageContentReader.HasAttributes)
{
if (_pageContentReader.GetAttribute("UnicodeString") != null )
{
_currentText.
Append(_pageContentReader.
GetAttribute("UnicodeString"));
}
}
}
}
}
string _fullPageText = _currentText.ToString();
Text exists in Glyphs -> UnicodeString string attribute. You have to use XMLReader for fixed page.
python处理xps文件,从XPS文档中提取文本相关推荐
- 【Python】导出docx格式Word文档中的文本、图片和附件等
[Python]导出docx格式Word文档中的文本.图片和附件等 零.需求 为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理.需要批量提取Word文档中的图片和附件以便进一步检 ...
- php 提取文字,如何使用PHP从word文档中提取文本内容?
我想用PHP从word文档中提取文本内容. 我在Microsoft Word for Mac 2011中创建了一个新的单词文档. 编辑:也通过在Windows 7中的Microsoft Word中创建 ...
- Word处理控件Aspose.Words功能演示:用Java从Word文档中提取文本
Aspose.Words For .NET是一种高级Word文档处理API,用于执行各种文档管理和操作任务.API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsof ...
- Word处理控件Aspose.Words功能演示:在 C# 中从 Word 文档中提取文本
从 Word 文档中提取文本通常在不同的场景中执行.例如,分析文本,提取文档的特定部分并将它们组合成单个文档,等等.在本文中,您将学习如何使用 C# 以编程方式从 Word 文档中提取文本.此外,我们 ...
- java中用流提取文档中的文字,语言实现从word文档中提取文本
word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...
- Word处理控件Aspose.Words功能演示:使用 Python 查找和替换 Word 文档中的文本
很多时候,您需要替换 Word 文档中的特定文本或短语.MS Word 具有针对此类情况的内置功能,您可以一键替换所需的文本.在本文中,您将学习如何使用 Python 以编程方式查找和替换 Word ...
- 微软文本检索_如何在Microsoft Word中引用其他文档中的文本
微软文本检索 You probably have some text that you type often in your Word documents, such as addresses. In ...
- 9款免费的OCR工具,从扫描的PDF文档中提取文字
Windows 10有OCR吗? Windows 10 具有适用于所有应用程序的内置OCR服务. 令人惊讶的是,这是Windows搜索工具. 查看如何使用它: 步骤 1. 打开您要扫描的照片.PDF或 ...
- Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...
- 使用pymupdf获取pdf文档中的文本下划线信息(全网唯一解决方案)
1,问题描述 最近,公司需要对一批pdf文档进行解析,获取其中文字,并再展示到前端页面上.如果单纯地提取文字,其实非常容易,但麻烦的在于保存原有文档中的文本格式,例如加粗.斜体.下划线,以及三者的各种 ...
最新文章
- Stream Processing: Apache Kafka的Exactly-once的定义 原理和实现
- python画折线图代码-Python绘制折线图和散点图的详细方法介绍(代码示例)
- 数据到入到excel和打印功能
- It is not allowed to rename or repackage the original archive “sapjco3.jar“
- 探讨程序员如何学习你不熟悉的技术,以及用什么样的方法去学习.
- jmeter数据库负载测试_JMeter:负载测试关系数据库
- cglib动态代理jar包_Java中的原生动态代理和CGLIB动态代理的原理,我不信你全知道!...
- 联想E450c下vmware安装ubuntu Intel VT-x 处于禁用状态
- ListView若干点
- 分布式系统的Raft算法 1
- Web漏洞扫描工具:AWVS下载
- lisp型材库_STMX 1.3.2 发布,高性能的 Common Lisp 库
- css鼠标变成小手(css中鼠标悬停是为小手)
- win10无法打开超链接,组织策略阻止
- CAD2020下载AutoCAD2020下载安装详细教程
- 二维数组作为函数参数的传递
- ibm服务器怎么装win7系统安装系统,联想ibmx3100m4安装win7系统详细教程
- java获取文件大小_Java实现获取文件大小的几种方法
- LLVM之父Chris Lattner:为什么我们要重建AI基础设施软件
- 维度、度量、指标概念
热门文章
- 神是什么?神即道 道法自然 如来 ---《天道》王志文饰丁元英 左小青饰芮小丹
- 《非暴力沟通》- 使人情意相通的沟通方式
- 阿里一位 70 后程序员、架构师的 26 个职场感悟
- 数据人必会的Excel|掌握32个Excel小技巧,成为效率达人(一)
- grab显示连接不上服务器,grab软件使用方法 grab打车软件
- JAVA_判断日期是否为工作日(排除节假日和调整周末上班)
- 读书笔记:学习C语言必须读的第二本书
- win10计算机管理界面模糊,Win10电脑屏幕显示模糊
- java 比较日期大小(方法之一compare to 备忘)
- 3dmax导出unity3d模型设置