首先把 ictclasj解压缩,然后

1.把 Data文件夹整个拷贝到 Eclipse项目的文件夹下,

2.而 bin目录下的 org文件夹整个拷贝到你 Eclipse项目的 bin目录下,(将class文件存进去)

3.把src目录下的org文件夹整个拷贝到 Eclipse项目 的src目录下。

4.把目录中commons-lang-2.4.jar 加到项目中(右键新建folder--设置名字为LIB--直接复制jar到此文件夹--点击此jar-右键-buidpath-add 点击即可)

3.测试分词结果

Java代码

import org.ictclas4j.bean.SegResult;

import org.ictclas4j.segment.SegTag;

public class TextSegmentation {

public static void main(String[] args) {

String fileContent = "中国科学院计算技术研究所在多年研究基础上," +   "耗时一年研制出了ICTCLAS汉语词法分析系统";

SegTag segTag = new SegTag(1);// 分词路径的数目

SegResult segResult = segTag.split(fileContent.trim());

String classifyContent = segResult.getFinalResult();

System.out.println("分词结果\n"+classifyContent);

}

}

就是这样,我们可以得到输出的结果,并且带有词性的标注。

Java代码

分词结果

中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ,/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a

分词结果

中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ,/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a

三、关于可能出现的错误

1.越界错误

在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句

if(wis != null)

否则有时会报出越界错误

2.关于第三点越界的问题之前的博主没有注意到

在Dictionary.Java的findInModifyTable方法中有这么一段:

if (mts != null && mts.size() >index) {

ArrayList wis =mts.get(index).getWords();

.....

}

此处需要对index进行负数的判断,应改为

if (mts != null && mts.size() >index) {if(index < 0)returnresult;

ArrayList wis =mts.get(index).getWords();

........

}

在对大文件进行中文分词时,出现了以下的错误信息

java.lang.ArrayIndexOutOfBoundsException: -39at java.util.ArrayList.get(ArrayList.java:324)

at org.ictclas4j.bean.Dictionary.findInOriginalTable(Dictionary.java:422)

at org.ictclas4j.bean.Dictionary.getFreq(Dictionary.java:632)

at org.ictclas4j.segment.GraphGenerate.biGenerate(GraphGenerate.java:170)

at org.ictclas4j.segment.Segment.split(Segment.java:81)

at com.ictclas4j.test.MyTest.main(MyTest.java:19)

经过上网查询资料以及阅读相关源代码,找到可能的出错原因:

分词过程中出现了未能识别的字,如繁体字等

改错方法:在Dictionary.java文件中找到findInOriginalTable()方法,将其中的

if(res !=null&& wts !=null) {

修改为

if (res != null && wts != null &&index>=0 &&index

即可。

ictclas4j java_ictclas4j 分词工具包 安装流程相关推荐

  1. ictclas4j 分词工具包 安装流程

    首先把 ictclasj解压缩,然后 1.把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 2.而 bin目录下的 org文件夹整个拷贝到你 Eclipse项目的 bin目录下,(将cla ...

  2. 2.3.NLTK工具包安装、分词、Text对象、停用词、过滤掉停用词、词性标注、分块、命名实体识别、数据清洗实例、参考文章

    2.3.NLTK工具包安装 2.3.1.分词 2.3.2.Text对象 2.3.3.停用词 2.3.4.过滤掉停用词 2.3.5.词性标注 2.3.6.分块 2.3.7.命名实体识别 2.3.8.数据 ...

  3. Ubuntu:Ubuntu下安装Anaconda和Tensorflow的简介、入门、安装流程之详细攻略

    Ubuntu:Ubuntu下安装Anaconda和Tensorflow的简介.入门.安装流程之详细攻略 目录 安装流程 1.安装nvidia显卡驱动 2.安装cuda8 3.安装Cudnn 4.Ana ...

  4. pkuseg:一个多领域中文分词工具包

    pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录 主要亮点 编译和安装 各类分词工具包的性能对比 使用方式 相关论文 作者 常见问题及解答 主要亮点 pkuseg具有如下几个特点: ...

  5. 北大开源分词工具包: 准确率远超THULAC、jieba 分词

    pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...

  6. gulp安装流程、使用方法及cmd常用命令导览

    gulp安装流程.使用方法及CMD常用命令导览 来自前端小白的gulp及周边知识学习总结 一.名词介绍: Npm--node包管理工具 一开始我不理解,包管理工具是什么鬼.后来用到的gulp也好,gu ...

  7. 北大分词工具包 -- pkuseg

    美图欣赏: 一.pkuseg介绍 一个多领域中文分词工具包 其简单易用,支持细分领域分词,有效提升了分词准确度. pkuseg具有如下几个特点: 多领域分词.不同于以往的通用中文分词工具,此工具包同时 ...

  8. python国内源 失效_使用pypi国内镜像资源站解决Python工具包安装失败

    今天用pip工具箱安装Python的jieba分词工具包,总是到20%左右就安装失败,而且最开始下载速度极慢,几kb的速度,以为是电脑网的问题,又试了好几次还是失败,最后利用清华大学的pypi 镜像资 ...

  9. vue-devTools插件安装流程

    vue-devTools插件安装流程 本文主要介绍 vue的调试工具 vue-devtools 的安装和使用 工欲善其事, 必先利其器, 快快一起来用vue-devtools来调试开发你的vue项目吧 ...

最新文章

  1. PhpMyAdmin的简单安装和一个mysql到Redis迁移的简单例子
  2. Hibernate:映射文件元素属性说明
  3. 《Windows核心编程》学习笔记(10)– 同步设备I/O与异步设备I/O
  4. 万字长文深入理解java中的集合-附PDF下载
  5. Java Spring log源代码学习
  6. 文本挖掘之 文本相似度判定
  7. php nb2br,PHP中基本符号及使用方法
  8. TensorFlow 笔记 (五)自定义训练: 演示
  9. D16 Group Decimort 2 Mac - 经典复古采样器
  10. [ios] - TommyBros(山寨马里奥) – 开源游戏
  11. 6.1.6 日志压缩
  12. matlab dll 通达信,通达信DLL插件实战篇,怎样制作我们想要的函数
  13. css —— 写炫酷动画
  14. 请教淘宝API sign签名问题,望高人指点!谢谢!
  15. 线性代数【10】 相似矩阵
  16. Java gateway process exited before sending its port number
  17. 4.12作业--CSS
  18. docker 磁盘满了问题排查
  19. 如何用AI做一个好看的图案
  20. 【深度学习】深度学习基础-Warm_up训练策略

热门文章

  1. 精工机械表 调整时间,日期和星期的方法
  2. android时钟每秒 1,极简时钟
  3. 静雅学校有高中吗有计算机,涿州靖雅中学
  4. 功不唐捐——高兴的一天
  5. java打包跳过test_Maven打包跳过测试的命令
  6. 2015蓝桥真题(A组省赛)
  7. sem学习的内容sem学习步骤sem适合的人群
  8. Linux C++ 信号量学习 sem_init sem_post sem_wait sem_timedwait
  9. java.lang.String_不兼容的类型:java.lang.String无法转换为Str...
  10. 二十款漂亮CSS字体样式