
import java.io.*;
import org.textmining.text.extraction.WordExtractor;

Title: pdf extraction


Description: email:chris@matrix.org.cn


Copyright: Matrix Copyright (c) 2003


Company: Matrix.org.cn

* @author chris
* @version 1.0,who use this example pls remain the declare

public class PdfExtractor {
public PdfExtractor() {
public static void main(String args[]) throws Exception
FileInputStream in = new FileInputStream ("c://a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);


read word:

  1. public class WordExtractor {
  2. public WordExtractor() {
  3. }
  4. public String extractText(InputStream in) throws IOException {
  5. ArrayList text = new ArrayList();
  6. POIFSFileSystem fsys = new POIFSFileSystem(in);
  7. DocumentEntry headerProps = (DocumentEntry) fsys.getRoot().getEntry("WordDocument");
  8. DocumentInputStream din = fsys.createDocumentInputStream("WordDocument");
  9. byte[] header = new byte[headerProps.getSize()];
  10. din.read(header);
  11. din.close();
  12. // Prende le informazioni dall'header del documento
  13. int info = LittleEndian.getShort(header, 0xa);
  14. boolean useTable1 = (info & 0x200) != 0;
  15. //boolean useTable1 = true;
  16. // Prende informazioni dalla piece table
  17. int complexOffset = LittleEndian.getInt(header, 0x1a2);
  18. //int complexOffset = LittleEndian.getInt(header);
  19. String tableName = null;
  20. if (useTable1) {
  21. tableName = "1Table";
  22. } else {
  23. tableName = "0Table";
  24. }
  25. DocumentEntry table = (DocumentEntry) fsys.getRoot().getEntry(tableName);
  26. byte[] tableStream = new byte[table.getSize()];
  27. din = fsys.createDocumentInputStream(tableName);
  28. din.read(tableStream);
  29. din.close();
  30. din = null;
  31. fsys = null;
  32. table = null;
  33. headerProps = null;
  34. int multiple = findText(tableStream, complexOffset, text);
  35. StringBuffer sb = new StringBuffer();
  36. int size = text.size();
  37. tableStream = null;
  38. for (int x = 0; x < size; x++) {
  39. WordTextPiece nextPiece = (WordTextPiece) text.get(x);
  40. int start = nextPiece.getStart();
  41. int length = nextPiece.getLength();
  42. boolean unicode = nextPiece.usesUnicode();
  43. String toStr = null;
  44. if (unicode) {
  45. toStr = new String(header, start, length * multiple, "UTF-16LE");
  46. } else {
  47. toStr = new String(header, start, length, "ISO-8859-1");
  48. }
  49. sb.append(toStr).append(" ");
  50. }
  51. return sb.toString();
  52. }
  53. private static int findText(byte[] tableStream, int complexOffset, ArrayList text)
  54. throws IOException {
  55. //actual text
  56. int pos = complexOffset;
  57. int multiple = 2;
  58. //skips through the prms before we reach the piece table. These contain data
  59. //for actual fast saved files
  60. while (tableStream[pos] == 1) {
  61. pos++;
  62. int skip = LittleEndian.getShort(tableStream, pos);
  63. pos += 2 + skip;
  64. }
  65. if (tableStream[pos] != 2) {
  66. throw new IOException("corrupted Word file");
  67. } else {
  68. //parse out the text pieces
  69. int pieceTableSize = LittleEndian.getInt(tableStream, ++pos);
  70. pos += 4;
  71. int pieces = (pieceTableSize - 4) / 12;
  72. for (int x = 0; x < pieces; x++) {
  73. int filePos =
  74. LittleEndian.getInt(tableStream, pos + ((pieces + 1) * 4) + (x *"/images/forum/smiles/icon_cool.gif"/> + 2);
  75. boolean unicode = false;
  76. if ((filePos & 0x40000000) == 0) {
  77. unicode = true;
  78. } else {
  79. unicode = false;
  80. multiple = 1;
  81. filePos &= ~(0x40000000); //gives me FC in doc stream
  82. filePos /= 2;
  83. }
  84. int totLength =
  85. LittleEndian.getInt(tableStream, pos + (x + 1) * 4)
  86. - LittleEndian.getInt(tableStream, pos + (x * 4));
  87. WordTextPiece piece = new WordTextPiece(filePos, totLength, unicode);
  88. text.add(piece);
  89. }
  90. }
  91. return multiple;
  92. }
  93. public static void main(String[] args){
  94. WordExtractor w  = new WordExtractor();
  95. POIFSFileSystem ps = new POIFSFileSystem();
  96. try{
  97. File file = new File("C://test.doc");
  98. InputStream in = new FileInputStream(file);
  99. String s = w.extractText(in);
  100. System.out.println(s);
  101. }catch(Exception e){
  102. e.printStackTrace();
  103. }
  104. }
  105. }
  106. class WordTextPiece {
  107. private int _fcStart;
  108. private boolean _usesUnicode;
  109. private int _length;
  110. public WordTextPiece(int start, int length, boolean unicode) {
  111. _usesUnicode = unicode;
  112. _length = length;
  113. _fcStart = start;
  114. }
  115. public boolean usesUnicode() {
  116. return _usesUnicode;
  117. }
  118. public int getStart() {
  119. return _fcStart;
  120. }
  121. public int getLength() {
  122. return _length;
  123. }
  124. }


write word

  1. public boolean writeWordFile(String path, String content) {
  2. boolean w = false;
  3. try {
  4. //  byte b[] = content.getBytes("ISO-8859-1");
  5. byte b[] = content.getBytes();
  6. ByteArrayInputStream bais = new ByteArrayInputStream(b);
  7. POIFSFileSystem fs = new POIFSFileSystem();
  8. DirectoryEntry directory = fs.getRoot();
  9. DocumentEntry de = directory.createDocument("WordDocument", bais);
  10. FileOutputStream ostream = new FileOutputStream(path);
  11. fs.writeFilesystem(ostream);
  12. bais.close();
  13. ostream.close();
  14. } catch (IOException e) {
  15. e.printStackTrace();
  16. }
  17. return w;
  18. }





如果要直接用Jakarta POI HWPF,没提供编译好的下载,只是原码了,自己编译吧
jakarta POI开源项目组HWPF(在下载后的scratchpad目录里)是操作word文档,在这里作了个简单的例子
下载地址: http://www.apache.org/dist/jakarta/Poi/

<!--age contentType="text/html; charset=GBK" import="java.io.*,org.apache.poi.hwpf.HWPFDocument,org.apache.poi.hwpf.usermodel.*,org.apache.poi.hwpf.model.*"-->

<!--r /> HWPFDocument doc = new HWPFDocument(new FileInputStream("g://a.doc"));<br /> Range r = doc.getRange ();   //取得word文档的范围<br />   StyleSheet styleSheet = doc.getStyleSheet ();<br /> <br />   int sectionLevel = 0;<br />   int lenParagraph = r.numParagraphs ();//取得段落数<br />   int c=r.numCharacterRuns();<br />   int b=r.numSections();<br />   String s=r.text();<br />   boolean inCode = false;<br />   // Paragraph p;<br />   for (int x = 0; x < lenParagraph; x++)<br />   {<br />     Paragraph p = r.getParagraph (x);<br /> <br />     String text = p.text ();<br />    -->


<!--r />     if (text.trim ().length () == 0)<br />     {<br />     continue;<br />     }<br /> <br /> <br />     }<br /> <br />   //doc.write(new FileOutputStream("g://b.doc"));<br /> <br /> <br /> <br /> -->




java2word 是一个在java程序中调用 MS Office Word 文档的组件(类库)。该组件提供了一组简单的接口,以便java程序调用他的服务操作Word 文档。
更多激动人心的功能见详细说明: http://www.heavenlake.com/java2word/doc


  • java

作者 javasky @ 2006-06-10 14:22:04

这几日, 公司有个项目, 要用java生成word文档, 在网上找来找去也没有找到好的生成word文档的库, 找到apache的POI可以使用, 但是所有的release版中也没有支持word的class. 只能从svn上下载源代码编译.
后来发现java支持rtf格式的文档, word也支持, 于是乎便使用此产生word文档了. 呵呵..
java支持的rtf文档功能不是很强大, 我们可以借助于一些开源的库, 比如: itext就可以很好的支持. itext上有很多例子, 有兴趣的可以上去看一下, 这里就不摘录了.
但是itext比较大要1.4M, 不是很喜欢. 在sf上找来找去, 发现一个更小的库, 尽管功能不是很强大, 基本的功能都有, 他就是srw(Simple RTF Writer目前它的版本是0.6,好久都没有人维护了).
srw内置了很多例子,  例如: 我们要写一个简单的rtf, 我们只需要这么写:
public class TestSimpleRtf {
    private static final String FILE_NAME = "out_testsimplertf.rtf";
    public static void main(String[] args) {
        try {
            // RTF Dokument generieren (in Querformat)
            RTFDocument doc = new RTFDocument(PageSize.DIN_A4_QUER);
            // Anzeige-Zoom und Ansicht definieren
            doc.setViewscale(RTFDocument.VIEWSCALE_FULLPAGE);    // Anzeige-Zoom auf "komplette Seite" einstellen
            doc.setViewkind(RTFDocument.VIEWKIND_PAGELAYOUT);    // ViewMode auf Seitenlayout stellen
            Paragraph absatz = new Paragraph(18, 0, 16, Font.ARIAL, new TextPart("Simple RTF Writer Testdokument"));
            File savefile = new File(FILE_NAME);
            System.out.println("Neues RTF Dokument erstellt: " + savefile.getAbsolutePath());
        } catch (IOException e) {
用法很简单, 但是功能很少, 比如没有table的功能, 不能设置打印方向等问题. 不过这个基本上就够用了.
后来, 我们的项目要求横向打印, 这可难坏了. 没办法, 自己查找word的rtf格式库, 拓展横向打印功能, 目前已经完成...
import com.itseasy.rtf.RTFDocument;
import com.itseasy.rtf.text.PageSize;

public class MyRTFDocument extends RTFDocument {
    public static final int ORIENTATION_PORTRAIT = 0;
    public static final int ORIENTATION_LANDSCAPE = 1;
    private int orientation;
    public MyRTFDocument() {
     * @param arg0
    public MyRTFDocument(PageSize arg0) {
    /* (non-Javadoc)
     * @see com.itseasy.rtf.RTFDocument#getDocumentAsString()
    protected String getDocumentAsString() {
        StringBuffer sb = new StringBuffer(super.getDocumentAsString());
        int pos = -1;
        if (ORIENTATION_LANDSCAPE == orientation) {
            pos = sb.indexOf("paperw");
            if (pos > 0) {
                sb.insert(pos, "lndscpsxn");
        pos = 0;
        while((pos = sb.indexOf("pardplain", pos)) > 0){
            pos = sb.indexOf("{", pos);
            sb.insert(pos, "dbchaf2");
        return sb.toString();
     * @return Returns the orientation.
    public int getOrientation() {
        return orientation;
     * @param orientation The orientation to set.
    public void setOrientation(int orientation) {
        this.orientation = orientation;



 * WordBridge.java
package com.kela.util;

import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.sql.Connection;
import java.sql.PreparedStatement;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;

import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;
import com.kela.db.PoolingDataSource;

 * 说明: 对word的操作

 * @author   kela.kf@gmail.com
public class WordBridge {
   Log log = LogFactory.getLog("WordBridgt");
   private ActiveXComponent MsWordApp = null; 
   private Dispatch document = null;
     * 打开word
     * @param makeVisible, true显示word, false不显示word
    public void openWord(boolean makeVisible) {
       if (MsWordApp == null) {
         MsWordApp = new ActiveXComponent("Word.Application");
       Dispatch.put(MsWordApp, "Visible", new Variant(makeVisible));

     * 创建新的文档
    public void createNewDocument() {
       Dispatch documents = Dispatch.get(MsWordApp, "Documents").toDispatch();
       document = Dispatch.call(documents, "Add").toDispatch();

     * 关闭文档
    public void closeDocument() {
      // 0 = wdDoNotSaveChanges
      // -1 = wdSaveChanges
      // -2 = wdPromptToSaveChanges
      Dispatch.call(document, "Close", new Variant(0));
      document = null;

     * 关闭word
    public void closeWord() {
       Dispatch.call(MsWordApp, "Quit");
       MsWordApp = null;
       document = null;
     * 插入文本
     * @param textToInsert 文本内容
    public void insertText(String textToInsert) {
       Dispatch selection = Dispatch.get(MsWordApp, "Selection").toDispatch();
       Dispatch.put(selection, "Text", textToInsert);

     * 保存文件
     * @param filename
    public void saveFileAs(String filename) {
      Dispatch.call(document, "SaveAs", filename);

     * 将word转换成html
     * @param htmlFilePath
    public void wordToHtml(String htmlFilePath) {
         Dispatch.invoke(document,"SaveAs", Dispatch.Method, new Object[]{htmlFilePath,new Variant(8)}, new int[1]);

     * 保存word的同时,保存一个html
     * @param text 需要保存的内容
     * @param wordFilePath word的路径
     * @param htmlFilePath html的路径
     * @throws LTOAException
    public void wordAsDbOrToHtml(String text, String wordFilePath, String htmlFilePath) throws LTOAException {
      try {
     } catch (Exception ex) {
         log.error("错误 - 对word的操作发生错误");
         log.error("原因 - " + ex.getMessage());
         throw new LTOAException(LTOAException.ERR_UNKNOWN, "对word的操作发生错误("
                    + this.getClass().getName() + ".wordAsDbOrToHtml())", ex);
     } finally {

    * 将word保存至数据库
    * @param wordFilePath
    * @param RecordID
    * @throws LTOAException
    public void wordAsDatabase(String wordFilePath, String RecordID) throws LTOAException {

Connection conn = null;
       PreparedStatement pstmt = null;
       PoolingDataSource pool = null;
       File file = null;
       String sql = "";
       try {
           sql = " UPDATE Document_File SET FileBody = ? WHERE RecordID = ? ";
           pool = new PoolingDataSource();
           conn = pool.getConnection();
           file = new File(wordFilePath);
           InputStream is = new FileInputStream(file);
           byte[] blobByte = new byte[is.available()];

pstmt = conn.prepareStatement(sql);
          pstmt.setBinaryStream(1,(new ByteArrayInputStream(blobByte)), blobByte.length);
          pstmt.setString(2, RecordID); 
        } catch (Exception ex) {
            log.error("错误 - 表 Document_File 更新数据发生意外错误");
            log.error("原因 - " + ex.getMessage());
            throw new LTOAException(LTOAException.ERR_UNKNOWN,
                    + this.getClass().getName() + ".wordAsDatabase())", ex);
         } finally {
    * 得到一个唯一的编号
    * @return 编号
   public String getRecordID() {
     String sRecordID = "";
     java.util.Date dt=new java.util.Date();
        long lg=dt.getTime();
        Long ld=new Long(lg);
        sRecordID =ld.toString();
        return sRecordID;
     * 得到保存word和html需要的路径
     * @param systemType 模块类型 givInfo, sw, fw
     * @param fileType 文件类型 doc, html
     * @param recID 文件编号
     * @return 路径
     public String getWordFilePath(String systemType, String fileType, String recID) {
       String filePath = "";


