原本以为把中文分词组件ICTCLAS集成到GATE中,然后添加语料,批量加入文档,直接用语料处理流处理中文语料库就可以实现多文本的分词处理,但在实际操作时,每次运行到一定数量(每次运行成功的数量都不同)的文档后,就会出现了JNA异常,报错为非法内存利用。之后无论处理多少文档,都会报这个错误(就算是一个也会出错),除非重新打开GATE。这显然不是ICTCLAS的证书问题。
我首先想到的解决方法是利用embedd开发的方式,在eclipse中调用GATE,加载自定义的分词器,结果在eclipse中报错不能打开Data文件下的某一个文件,而且那个文件不在Data中。
有人说这是Data里面的文件在某次运行错误后被修改了,所以后来我每次批量运行分词组件时,重新解压缩Data文件夹,并重新下载证书。结果运行900多个文档时,时好时坏,一直没搞清楚什么原因。
后来我索性不用集成到GATE中的那个分词器了,直接在eclipse中使用ICTCLAS,发现所有文档均能正确处理,于是想到:直接在eclipse中遍历文档,进行分词,然后创建GATE的Document对象,利用embedd开发的方式加入到GATE中,然后把文档保存到GATE自己的数据库中,退出eclipse。再打开GATE加载刚刚embedd方式保存的数据库,进行后续的处理。

在GATE中用ICTCLAS处理多个文档相关推荐

  1. java中用jdom 如何创建xml文档/将数据写入XML中

    JDomOutput.java代码如下 -------------------------------------------------------------------------------- ...

  2. 如何维护接口文档供外部调用——在线接口文档管理

    上个章节初步将一个应用运行起来,由于服务不会单独存在,服务开发团队必然与其他服务团队进行服务调用,暴露出对外接口势在必行.早期做开发的时候,大家习惯于以 word 或 excel 的形式,但弊端显而易 ...

  3. ictclas java_ICTCLAS50 基于中科院分词作的java 工具,内容详细各个函数都有实现 含有word解析文档 Develop 238万源代码下载- www.pudn.com...

    文件名称: ICTCLAS50下载 收藏√  [ 5  4  3  2  1 ] 开发工具: Java 文件大小: 2983 KB 上传时间: 2013-05-15 下载次数: 11 提 供 者: 安 ...

  4. word文档转换成swf格式文件在网页中用flash显示

    word文档转换成swf格式文件在网页中用flash显示 在OA系统中我们常常需要将上传的word文档在网页中阅览,一般上传后的文档用html的形式查看是会导致排版混乱的,这次我介绍在ASP.NET中 ...

  5. Word控件Spire.Doc 【Table】教程(7): 如何在C#中用表格替换word文档中的文本

    Spire.Doc for .NET 是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Mic ...

  6. java blob压缩_如何从Oracle中用Java压缩的BLOB列中提取XML文档

    我在Oracle 11G(11.1)中有一个表,它有一个包含XML文档的BLOB列. XML文档已使用Java程序写入表中,并已使用java.util.zip平减器进行序列化和压缩. 有没有简单的方法 ...

  7. java中用流提取文档中的文字,语言实现从word文档中提取文本

    word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...

  8. Java中用Apache POI生成excel和word文档

    概述: 最近在做项目的过程中遇到了excel的数据导出和word的图文表报告的导出功能,最后决定用Apache POI来完成该项功能.本文就项目实现过程中的一些思路与代码与大家共享,同时,也作为自己的 ...

  9. Word控件Spire.Doc 【文本】教程(21) ;如何在 C# 中用 Word 文档替换文本

    Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Micr ...

最新文章

  1. lf 前后端分离 (4) 价格策略
  2. Python学习笔记:接下来
  3. sql server 判断是否存在数据库,表,列,视图
  4. HDU1061-Rightmost Digit(高速功率模)
  5. 如何快速学习freemarker以及使用经验
  6. 企业实战_22_MyCatSQL拦截
  7. Python代码规范(PEP8)问题及解决
  8. CSS优先级、引入方式、Hack
  9. 力扣(leetcode)66.加一——c语言新手入门
  10. Java读取ID卡卡号源码
  11. admin.php生成地址,FastAdmin隐藏后台登录入口地址的方法
  12. 如何修复SSL: CERTIFICATE_VERIFY_FAILED
  13. FTPS FTPES
  14. 程序包xxx不存在 问题的完美解决
  15. 实现一个博客系统(前端页面设计)
  16. CRMEB知识付费二次开发 加密阿里云视频MP4点播链接为m3u8格式 hls blob协议
  17. 深度学习中的遥感影像数据集
  18. 设计模式七大原则知识概括
  19. 数据结构第二版(朱昌杰版)第四章:习题4
  20. 最新JAVA编程题全集

热门文章

  1. 打造离线版 123D Catch
  2. [Matlab] Galois Field
  3. postgresql实现存在则更新,不存在则插入
  4. Matlab||EGM2008模型计算GOCE沿轨重力梯度及全球重力梯度分布
  5. 心과 情의 調和 (韓長庚 易學原理總論)
  6. C++实现随机点名器(支持文件读入、手动输入、不重复点名)
  7. 浙江工商大学计算机考试科目,浙江工商大学(专业学位)计算机技术研究生考试科目和考研参考书目...
  8. 样式的层级关系,选择器优先级,样式冲突,以及抽离样式模块怎么写,说出思路,有无实践经验
  9. cve-2019-0708漏洞复现
  10. Latex 绘制函数图像