Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx

Atitit word ppt excel等文档转换txt问题最佳实践

目录

1.1. // Word 直接抽取全部内容 1

1.2. //分章节Section、段落Paragraph、字符串CharacterRun抽取 1

1.3.    //直接抽取幻灯片的全部内容 2

1.4.    //一张幻灯片一张幻灯片地读取 3

1.5. //直接读取Excel的全部内容 4

1.6.     //读取时细化到Sheet、行甚至单元格 4

public class Word {

1.1. // Word 直接抽取全部内容

public static String readDoc1(InputStream is) throws IOException {
        WordExtractor extractor = new WordExtractor(is);
        return extractor.getText();
    }

1.2.  //分章节Section、段落Paragraph、字符串CharacterRun抽取

public static void readDoc2(InputStream is) throws IOException {
        HWPFDocument doc=new HWPFDocument(is);
        Range r=doc.getRange();
        for(int x=0;x<r.numSections();x++){
            Section s=r.getSection(x);
            for(int y=0;y<s.numParagraphs();y++){
                Paragraph p=s.getParagraph(y);
                for(int z=0;z<p.numCharacterRuns();z++){
                    CharacterRun run=p.getCharacterRun(z);
                    String text=run.text();
                    System.out.print(text);
                }
            }
        }
    }

1.3.    //直接抽取幻灯片的全部内容

public static String readDoc1(InputStream is) throws IOException{
        PowerPointExtractor extractor=new PowerPointExtractor(is);
        return extractor.getText();
    }

1.4.    //一张幻灯片一张幻灯片地读取

public static void readDoc2(InputStream is) throws IOException{
        SlideShow ss=new SlideShow(new HSLFSlideShow(is));
        Slide[] slides=ss.getSlides();
        for(int i=0;i<slides.length;i++){
            //读取一张幻灯片的标题
            String title=slides[i].getTitle();
            System.out.println("标题:"+title);
            //读取一张幻灯片的内容(包括标题)
            TextRun[] runs=slides[i].getTextRuns();
            for(int j=0;j<runs.length;j++){
                System.out.println(runs[j].getText());
            }
        }
    }

public class Excel {

1.5. //直接读取Excel的全部内容

public static String readDoc1(InputStream is)throws IOException{
        HSSFWorkbook wb=new HSSFWorkbook(new POIFSFileSystem(is));
        ExcelExtractor extractor=new ExcelExtractor(wb);
        extractor.setFormulasNotResults(false);
        extractor.setIncludeSheetNames(true);
        return extractor.getText();
    }

1.6.     //读取时细化到Sheet、行甚至单元格

public static double getAvg(InputStream is)throws IOException{
        HSSFWorkbook wb=new HSSFWorkbook(new POIFSFileSystem(is));
        //获取第一张sheet
        HSSFSheet sheet=wb.getSheetAt(0);
        double molecule=0.0;
        double denominator=0.0;
        //按行遍历sheet
        Iterator<Row> riter=sheet.rowIterator();
        while(riter.hasNext()){
            HSSFRow row=(HSSFRow)riter.next();
            HSSFCell cell1=row.getCell(4);
            HSSFCell cell2=row.getCell(4);
            if(cell1.getCellType()!=HSSFCell.CELL_TYPE_NUMERIC){
                System.err.println("数字类型错误!");
                System.exit(-2);
            }
            if(cell2.getCellType()!=HSSFCell.CELL_TYPE_NUMERIC){
                System.err.println("数字类型错误!");
                System.exit(-2);
            }
            denominator+=Double.parseDouble(cell2.toString().trim());
            molecule+=Double.parseDouble(cell2.toString().trim())*Float.parseFloat(cell1.toString().trim());
        }
        return molecule/denominator;
    }

java使用poi读取ppt文件和poi读取excel、word示例 - CSDN博客.html

Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx Atitit word ppt excel等文档转换txt问题最佳实践 目录 1.相关推荐

  1. Word处理控件Aspose.Words功能演示:用Java从Word文档中提取文本

    Aspose.Words For .NET是一种高级Word文档处理API,用于执行各种文档管理和操作任务.API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsof ...

  2. Microsoft Excel 教程:如何在 Excel 中查找或替换工作表上的文本和数字?

    欢迎观看 Microsoft Excel 教程,小编带大家学习 Microsoft Excel 的使用技巧,了解如何在 Excel 中查找或替换工作表上的文本和数字. 在 Excel 中使用「查找和替 ...

  3. Word处理控件Aspose.Words功能演示:在 C# 中从 Word 文档中提取文本

    从 Word 文档中提取文本通常在不同的场景中执行.例如,分析文本,提取文档的特定部分并将它们组合成单个文档,等等.在本文中,您将学习如何使用 C# 以编程方式从 Word 文档中提取文本.此外,我们 ...

  4. csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开

    csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开 很多人认为,csv就是xls格式的,因为windows系统下,csv文 ...

  5. Word控件Spire.Doc 【Table】教程(10): 如何在 C#、VB.NET 中将嵌入式 Excel 工作表转换为 Word 表格

    Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Micr ...

  6. JAVA POI Word转PDF convert方法 NullPointException

    JAVA POI Word转PDF convert方法 NullPointException 如果操作过通过POI操作过Word,请保证创建run之后run的值不为null,为null将在转换时报错. ...

  7. doc, docx, xls, xlsx, ppt, pptx,txt。等文件转化为pdf

    需要OpenOffice第三插件的支持 ,支持window\linux\mac等系统.doc", "docx", "xls", "xlsx& ...

  8. word饼图如何画引导线_excle怎么画立体饼图/如何在饼形图中添加引导线(Excel)...

    2016版的Excel 里的三维饼图怎么制作? 2016版的Excel 里的三维饼图的制作如下: 1.首先我们打我们的电脑后我们打开excel,之后我们在excel中输入数据:之后我们选中这些数据的单 ...

  9. python分解word文档为多个_用python批量处理word文档

    应我家领导要求,开发一个word文档批处理脚本,涉及word文档.excel表格.文件存取.排序与索引.简单GUI等内容,前期针对各分项功能实现写了几篇小文章,现在将总体思路记录一下,作为这个系列的完 ...

  10. python获取word页数_使用Python的word文档的页数(Number of pages of a word document with Python)...

    使用Python的word文档的页数(Number of pages of a word document with Python) 有没有办法用Python有效地获得word文档(.doc,.doc ...

最新文章

  1. 在js中使用createElement创建HTML对象和元素
  2. iOS下载历史版本APP
  3. PMP-【第2章 项目运行环境与项目经理】2021-1-4(49页-60页)
  4. 机器学习hierarchical clustering_ICLR 2020 | 反事实因果理论如何帮助深度学习?
  5. MyEclipse中安装反编译插件
  6. [C++]C++11:Function与Bind
  7. 【bzoj1597】 土地购买
  8. activemq中怎么知道推送消息是否成功_如何优雅的使用activeMQ 安装、应用、安全认证、持久化...
  9. Typecho评论邮件提醒插件美化版CommentToMail
  10. 常见运行时异常 java 114982568
  11. kafka自定义序列化器
  12. python自动监测动态视频_Python自动化检测的动态属性
  13. #includeiostream与#includeiostream.h的区别
  14. html5控制字大小的代码,js根据字符串长度控制字体大小代码
  15. Sql server备份数据库不执行
  16. 剪枝算法(算法优化)
  17. 生物信息学入门之基本概念之蛋白质同源检测和折叠识别
  18. ESP32开发学习 LVGL Littlevgl 解码显示JPG图片三种方式JPG_SJPG_C Array
  19. 在Windows系统中安装CentOS系统和gcc
  20. 注册码方式注册多可系统

热门文章

  1. iis7 php mysql安装包_IIS7+PHP+MYSQL安装
  2. 楼板计算塑形弹性_阶梯教室板模板支架工程方案计算书(仅供参考)
  3. python爬虫工程师必学app数据抓取实战_另辟蹊径,appium抓取app应用数据了解一下!...
  4. 3项目里面全局用less变量 cli vue_Vue.js构建工具比较
  5. 8. COM编程——CoCreateInstance创建COM对象
  6. IntelliJ IDEA下使用JSTL标签库方法
  7. python之类之多继承
  8. 第二百二十一节,jQuery EasyUI,Form(表单)组件
  9. Libvirt虚拟机网络配置
  10. Python脚本覆盖率分析方法介绍