在GATE中用ICTCLAS处理多个文档
原本以为把中文分词组件ICTCLAS集成到GATE中,然后添加语料,批量加入文档,直接用语料处理流处理中文语料库就可以实现多文本的分词处理,但在实际操作时,每次运行到一定数量(每次运行成功的数量都不同)的文档后,就会出现了JNA异常,报错为非法内存利用。之后无论处理多少文档,都会报这个错误(就算是一个也会出错),除非重新打开GATE。这显然不是ICTCLAS的证书问题。
我首先想到的解决方法是利用embedd开发的方式,在eclipse中调用GATE,加载自定义的分词器,结果在eclipse中报错不能打开Data文件下的某一个文件,而且那个文件不在Data中。
有人说这是Data里面的文件在某次运行错误后被修改了,所以后来我每次批量运行分词组件时,重新解压缩Data文件夹,并重新下载证书。结果运行900多个文档时,时好时坏,一直没搞清楚什么原因。
后来我索性不用集成到GATE中的那个分词器了,直接在eclipse中使用ICTCLAS,发现所有文档均能正确处理,于是想到:直接在eclipse中遍历文档,进行分词,然后创建GATE的Document对象,利用embedd开发的方式加入到GATE中,然后把文档保存到GATE自己的数据库中,退出eclipse。再打开GATE加载刚刚embedd方式保存的数据库,进行后续的处理。
在GATE中用ICTCLAS处理多个文档相关推荐
- java中用jdom 如何创建xml文档/将数据写入XML中
JDomOutput.java代码如下 -------------------------------------------------------------------------------- ...
- 如何维护接口文档供外部调用——在线接口文档管理
上个章节初步将一个应用运行起来,由于服务不会单独存在,服务开发团队必然与其他服务团队进行服务调用,暴露出对外接口势在必行.早期做开发的时候,大家习惯于以 word 或 excel 的形式,但弊端显而易 ...
- ictclas java_ICTCLAS50 基于中科院分词作的java 工具,内容详细各个函数都有实现 含有word解析文档 Develop 238万源代码下载- www.pudn.com...
文件名称: ICTCLAS50下载 收藏√ [ 5 4 3 2 1 ] 开发工具: Java 文件大小: 2983 KB 上传时间: 2013-05-15 下载次数: 11 提 供 者: 安 ...
- word文档转换成swf格式文件在网页中用flash显示
word文档转换成swf格式文件在网页中用flash显示 在OA系统中我们常常需要将上传的word文档在网页中阅览,一般上传后的文档用html的形式查看是会导致排版混乱的,这次我介绍在ASP.NET中 ...
- Word控件Spire.Doc 【Table】教程(7): 如何在C#中用表格替换word文档中的文本
Spire.Doc for .NET 是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Mic ...
- java blob压缩_如何从Oracle中用Java压缩的BLOB列中提取XML文档
我在Oracle 11G(11.1)中有一个表,它有一个包含XML文档的BLOB列. XML文档已使用Java程序写入表中,并已使用java.util.zip平减器进行序列化和压缩. 有没有简单的方法 ...
- java中用流提取文档中的文字,语言实现从word文档中提取文本
word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...
- Java中用Apache POI生成excel和word文档
概述: 最近在做项目的过程中遇到了excel的数据导出和word的图文表报告的导出功能,最后决定用Apache POI来完成该项功能.本文就项目实现过程中的一些思路与代码与大家共享,同时,也作为自己的 ...
- Word控件Spire.Doc 【文本】教程(21) ;如何在 C# 中用 Word 文档替换文本
Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Micr ...
最新文章
- lf 前后端分离 (4) 价格策略
- Python学习笔记:接下来
- sql server 判断是否存在数据库,表,列,视图
- HDU1061-Rightmost Digit(高速功率模)
- 如何快速学习freemarker以及使用经验
- 企业实战_22_MyCatSQL拦截
- Python代码规范(PEP8)问题及解决
- CSS优先级、引入方式、Hack
- 力扣(leetcode)66.加一——c语言新手入门
- Java读取ID卡卡号源码
- admin.php生成地址,FastAdmin隐藏后台登录入口地址的方法
- 如何修复SSL: CERTIFICATE_VERIFY_FAILED
- FTPS FTPES
- 程序包xxx不存在 问题的完美解决
- 实现一个博客系统(前端页面设计)
- CRMEB知识付费二次开发 加密阿里云视频MP4点播链接为m3u8格式 hls blob协议
- 深度学习中的遥感影像数据集
- 设计模式七大原则知识概括
- 数据结构第二版(朱昌杰版)第四章:习题4
- 最新JAVA编程题全集
热门文章
- 打造离线版 123D Catch
- [Matlab] Galois Field
- postgresql实现存在则更新,不存在则插入
- Matlab||EGM2008模型计算GOCE沿轨重力梯度及全球重力梯度分布
- 心과 情의 調和 (韓長庚 易學原理總論)
- C++实现随机点名器(支持文件读入、手动输入、不重复点名)
- 浙江工商大学计算机考试科目,浙江工商大学(专业学位)计算机技术研究生考试科目和考研参考书目...
- 样式的层级关系,选择器优先级,样式冲突,以及抽离样式模块怎么写,说出思路,有无实践经验
- cve-2019-0708漏洞复现
- Latex 绘制函数图像