一、ICTCLAS的介绍

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

二、开始使用ICTCLAS进行分词

1.下载ictclasj

首先到ictclas的网站下载JAVA版本的ictclas——ictclasj。

2.在Eclipse中 新建项目并进行 配置

首先把 ictclasj解压缩,然后把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 而 bin目录下的 org文件夹整个拷贝到你Eclipse项目的 bin目录下,把src目录下的org文件夹整个拷贝到Eclipse项目的src目录下。

3.测试分词结果

Java代码

import org.ictclas4j.bean.SegResult;

import org.ictclas4j.segment.SegTag;

public class TextSegmentation {

public static void main(String[] args) {

String fileContent = "中国科学院计算技术研究所在多年研究基础上," +

"耗时一年研制出了ICTCLAS汉语词法分析系统";

SegTag segTag = new SegTag(1);// 分词路径的数目

SegResult segResult = segTag.split(fileContent.trim());

String classifyContent = segResult.getFinalResult();

System.out.println("分词结果\n"+classifyContent);

}

}

就是这样,我们可以得到输出的结果,并且带有词性的标注。

Java代码

分词结果

中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ,/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a

三、关于可能出现的错误

1.越界错误

在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句

Java代码

if(wis != null)

否则有时会报出越界错误

3.关于第三点越界的问题之前的博主没有注意到

在Dictionary.Java的findInModifyTable方法中有这么一段:

if(mts !=null&& mts.size() > index) {

ArrayList wis = mts.get(index).getWords();

.....

}

此处需要对index进行负数的判断,应改为

if(mts !=null&& mts.size() > index) {

if(index <0)

returnresult;

ArrayList wis = mts.get(index).getWords();

........

}

3. “org.apache”

这个新建的测试类可能会提示错误:"The import org.apache cannot be resolved",这是由于系统需要一个Apache的commons-lang-2.4.jar。

ictclas4j java_使用ICTCLAS JAVA版(ictclas4j)进行中文分词相关推荐

  1. ictclas java版_10分钟开始使用ICTCLAS Java版

    这样的分词程序有很多,呵呵--这个也不错. # re: 10分钟开始使用ICTCLAS Java版 我用的是庖丁解牛2.0beta版的,就是没有词性标注 这个还是很不错的 呵呵 tinypig 评论于 ...

  2. ictclas4j java_使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词...

    一.ICTCLAS的介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technolog ...

  3. ictclas java 下载,10分钟开始使用ICTCLAS Java版

    ICTCLAS是中科院计算所出品的中文分词程序包,在国内一直有着良好的口碑和很高的使用率.之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉.下面用一个极小的例子,让大 ...

  4. 欧朋java_欧朋浏览器java版下载安装2019

    功能介绍 欧朋浏览器java版下载安装2019 OperaSoftware开发的欧朋浏览器(OperaMini)是一款适用于各种平台.操作系统和嵌入式网络产品的高品质.多平台产品.基于云端压缩技术的全 ...

  5. 递归下降分析器的设计java_数据结构(Java版)教与学(48和60学时教学大纲)

    baba<数据结构>课程教学大纲课程中文名称: 数据结构.课程英文名称:Data Structures.课程类别:专业基础课 必修.课程学分数:4(16学时为1学分)课程学时数:讲课48学 ...

  6. 非智能手机斗破苍穹Java_支付宝推JAVA版 非智能手机增支付功能

    泡泡网手机频道6月16日 日前,支付宝与曜硕科技联合发布国内首个非智能手机支付方案--嵌入式安全支付系统解决方案.通过该方案,非智能型手机将拥有手机支付功能,从而可以让用户的手机新增网购.游戏及话费充 ...

  7. 经典90坦克大战 java_坦克大战java版

    import java.awt.*;import java.awt.event.*;importjava.util.Random;importjava.util.List;importjava.awt ...

  8. 大数相乘 java_大数相乘——java版

    之前面试的时候被问到两个很大很大的数相乘在java中怎么把它算出来,显然不能直接相乘,当时我只回答出来了用BigInteger,然而不是最好的答案.大数相乘的核心思想是将数字转化为字符串,然后逐位相乘 ...

  9. 个人所得税 java_个人所得税计算java版

    1 /** 2 * 计算个人所得税3 * www.xcc.cn 版权所有4 *@paramminusAmount 扣除社保的金额5 *@paramminusAmount2 当月工资(扣除社保后)(算年 ...

最新文章

  1. python装饰器原理-python装饰器原理与用法深入详解
  2. LeetCode 934 最短的桥
  3. 并发 - 生产者消费者的问题
  4. Android利用Filter过滤数据
  5. Linux运维之道之网络基础学习1.3
  6. TServerSocket阻塞模式下Request-Response编程框架
  7. 【图像分割】基于matlab GUI二值化+灰白质医学影像分割【含Matlab源码 184期】
  8. 初学编程应该买什么样的电脑?
  9. 视频图片音乐音效工具等素材网汇总
  10. Android 8.1user版本默认开启开发者模式
  11. 小米手机无限重启怎么办?
  12. 安卓手机网易云视频,下载的文件位置:
  13. Android图片拼接9宫格
  14. web服务器、应用服务器和常见的服务器概念
  15. Windows系统盘搬家方法及Junction使用
  16. 用计算机弹起风了歌词,起风了歌词
  17. CentOS 7配置Hadoop3.X环境 附部分原理说明
  18. 计算机怎么设置java环境_怎么设置java环境变量
  19. python之getattr()函数和importlib库的使用
  20. 飞书二开系列之创建测试企业与企业应用等准备工作(一)

热门文章

  1. C++判断一个大于2的整数是否是素数
  2. Echarts 飞线图
  3. android -chrome 调试
  4. 深圳市福田高中2021年高考成绩查询,2020年深圳高中梯队排行一览!2021年十大或有新格局?...
  5. STM32串口通信代码、ASCII码、XU4串口通信,printf只会转换为无符号类型,linux下的串口通信程序
  6. android时钟每秒 1,极简时钟
  7. 估算活动持续时间-规划管理
  8. Python简单浪漫表白代码鲜花
  9. nowcoder-第三届湖北省赛-Mr.Maxwell and attractions (贪心)
  10. python的输入函数是什么意思_在Python中,用于获取用户输入的函数是