Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx Atitit word ppt excel等文档转换txt问题最佳实践 目录 1.
Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx
Atitit word ppt excel等文档转换txt问题最佳实践
目录
1.1. // Word 直接抽取全部内容 1
1.2. //分章节Section、段落Paragraph、字符串CharacterRun抽取 1
1.3. //直接抽取幻灯片的全部内容 2
1.4. //一张幻灯片一张幻灯片地读取 3
1.5. //直接读取Excel的全部内容 4
1.6. //读取时细化到Sheet、行甚至单元格 4
public class Word {
1.1. // Word 直接抽取全部内容
public static String readDoc1(InputStream is) throws IOException {
WordExtractor extractor = new WordExtractor(is);
return extractor.getText();
}
1.2. //分章节Section、段落Paragraph、字符串CharacterRun抽取
public static void readDoc2(InputStream is) throws IOException {
HWPFDocument doc=new HWPFDocument(is);
Range r=doc.getRange();
for(int x=0;x<r.numSections();x++){
Section s=r.getSection(x);
for(int y=0;y<s.numParagraphs();y++){
Paragraph p=s.getParagraph(y);
for(int z=0;z<p.numCharacterRuns();z++){
CharacterRun run=p.getCharacterRun(z);
String text=run.text();
System.out.print(text);
}
}
}
}
1.3. //直接抽取幻灯片的全部内容
public static String readDoc1(InputStream is) throws IOException{
PowerPointExtractor extractor=new PowerPointExtractor(is);
return extractor.getText();
}
1.4. //一张幻灯片一张幻灯片地读取
public static void readDoc2(InputStream is) throws IOException{
SlideShow ss=new SlideShow(new HSLFSlideShow(is));
Slide[] slides=ss.getSlides();
for(int i=0;i<slides.length;i++){
//读取一张幻灯片的标题
String title=slides[i].getTitle();
System.out.println("标题:"+title);
//读取一张幻灯片的内容(包括标题)
TextRun[] runs=slides[i].getTextRuns();
for(int j=0;j<runs.length;j++){
System.out.println(runs[j].getText());
}
}
}
public class Excel {
1.5. //直接读取Excel的全部内容
public static String readDoc1(InputStream is)throws IOException{
HSSFWorkbook wb=new HSSFWorkbook(new POIFSFileSystem(is));
ExcelExtractor extractor=new ExcelExtractor(wb);
extractor.setFormulasNotResults(false);
extractor.setIncludeSheetNames(true);
return extractor.getText();
}
1.6. //读取时细化到Sheet、行甚至单元格
public static double getAvg(InputStream is)throws IOException{
HSSFWorkbook wb=new HSSFWorkbook(new POIFSFileSystem(is));
//获取第一张sheet
HSSFSheet sheet=wb.getSheetAt(0);
double molecule=0.0;
double denominator=0.0;
//按行遍历sheet
Iterator<Row> riter=sheet.rowIterator();
while(riter.hasNext()){
HSSFRow row=(HSSFRow)riter.next();
HSSFCell cell1=row.getCell(4);
HSSFCell cell2=row.getCell(4);
if(cell1.getCellType()!=HSSFCell.CELL_TYPE_NUMERIC){
System.err.println("数字类型错误!");
System.exit(-2);
}
if(cell2.getCellType()!=HSSFCell.CELL_TYPE_NUMERIC){
System.err.println("数字类型错误!");
System.exit(-2);
}
denominator+=Double.parseDouble(cell2.toString().trim());
molecule+=Double.parseDouble(cell2.toString().trim())*Float.parseFloat(cell1.toString().trim());
}
return molecule/denominator;
}
java使用poi读取ppt文件和poi读取excel、word示例 - CSDN博客.html
Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx Atitit word ppt excel等文档转换txt问题最佳实践 目录 1.相关推荐
- Word处理控件Aspose.Words功能演示:用Java从Word文档中提取文本
Aspose.Words For .NET是一种高级Word文档处理API,用于执行各种文档管理和操作任务.API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsof ...
- Microsoft Excel 教程:如何在 Excel 中查找或替换工作表上的文本和数字?
欢迎观看 Microsoft Excel 教程,小编带大家学习 Microsoft Excel 的使用技巧,了解如何在 Excel 中查找或替换工作表上的文本和数字. 在 Excel 中使用「查找和替 ...
- Word处理控件Aspose.Words功能演示:在 C# 中从 Word 文档中提取文本
从 Word 文档中提取文本通常在不同的场景中执行.例如,分析文本,提取文档的特定部分并将它们组合成单个文档,等等.在本文中,您将学习如何使用 C# 以编程方式从 Word 文档中提取文本.此外,我们 ...
- csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开
csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开 很多人认为,csv就是xls格式的,因为windows系统下,csv文 ...
- Word控件Spire.Doc 【Table】教程(10): 如何在 C#、VB.NET 中将嵌入式 Excel 工作表转换为 Word 表格
Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Micr ...
- JAVA POI Word转PDF convert方法 NullPointException
JAVA POI Word转PDF convert方法 NullPointException 如果操作过通过POI操作过Word,请保证创建run之后run的值不为null,为null将在转换时报错. ...
- doc, docx, xls, xlsx, ppt, pptx,txt。等文件转化为pdf
需要OpenOffice第三插件的支持 ,支持window\linux\mac等系统.doc", "docx", "xls", "xlsx& ...
- word饼图如何画引导线_excle怎么画立体饼图/如何在饼形图中添加引导线(Excel)...
2016版的Excel 里的三维饼图怎么制作? 2016版的Excel 里的三维饼图的制作如下: 1.首先我们打我们的电脑后我们打开excel,之后我们在excel中输入数据:之后我们选中这些数据的单 ...
- python分解word文档为多个_用python批量处理word文档
应我家领导要求,开发一个word文档批处理脚本,涉及word文档.excel表格.文件存取.排序与索引.简单GUI等内容,前期针对各分项功能实现写了几篇小文章,现在将总体思路记录一下,作为这个系列的完 ...
- python获取word页数_使用Python的word文档的页数(Number of pages of a word document with Python)...
使用Python的word文档的页数(Number of pages of a word document with Python) 有没有办法用Python有效地获得word文档(.doc,.doc ...
最新文章
- 在js中使用createElement创建HTML对象和元素
- iOS下载历史版本APP
- PMP-【第2章 项目运行环境与项目经理】2021-1-4(49页-60页)
- 机器学习hierarchical clustering_ICLR 2020 | 反事实因果理论如何帮助深度学习?
- MyEclipse中安装反编译插件
- [C++]C++11:Function与Bind
- 【bzoj1597】 土地购买
- activemq中怎么知道推送消息是否成功_如何优雅的使用activeMQ 安装、应用、安全认证、持久化...
- Typecho评论邮件提醒插件美化版CommentToMail
- 常见运行时异常 java 114982568
- kafka自定义序列化器
- python自动监测动态视频_Python自动化检测的动态属性
- #includeiostream与#includeiostream.h的区别
- html5控制字大小的代码,js根据字符串长度控制字体大小代码
- Sql server备份数据库不执行
- 剪枝算法(算法优化)
- 生物信息学入门之基本概念之蛋白质同源检测和折叠识别
- ESP32开发学习 LVGL Littlevgl 解码显示JPG图片三种方式JPG_SJPG_C Array
- 在Windows系统中安装CentOS系统和gcc
- 注册码方式注册多可系统
热门文章
- iis7 php mysql安装包_IIS7+PHP+MYSQL安装
- 楼板计算塑形弹性_阶梯教室板模板支架工程方案计算书(仅供参考)
- python爬虫工程师必学app数据抓取实战_另辟蹊径,appium抓取app应用数据了解一下!...
- 3项目里面全局用less变量 cli vue_Vue.js构建工具比较
- 8. COM编程——CoCreateInstance创建COM对象
- IntelliJ IDEA下使用JSTL标签库方法
- python之类之多继承
- 第二百二十一节,jQuery EasyUI,Form(表单)组件
- Libvirt虚拟机网络配置
- Python脚本覆盖率分析方法介绍