汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名;支持词典,多级词性标注,支持人名、地名、组织名,分词速500KB/s左右,分词精度98.45%,API不超过100KB,各种词典数据压缩后不到3M。一个非常优秀的分词系统,具体下载地址:http://ictclas.org/

下面是它的可视化界面:

该分词系统是开源的,可以供多种程序语言API进行调用 ,下面介绍一个java调用方法:

首先,下载java相应的win平台下的api,网址:http://ictclas.org/ictclas_feedback.aspx?packetid=50&packeturl=down/50/ICTCLAS50_Windows_32_JNI.rar

然后,解压打开API文件夹,里面共有8个文件

新建一个java项目,除ICTCLAS文件夹外,所有的文件均拷到java项目的根目录下,ICTCLAS文件夹整个拷到java项目中的src文件夹中,以供调用,如下:

下面是给出的测试代码:

package tokenization;
import ICTCLAS.I3S.AC.ICTCLAS50;
public class test {
     public static void main(String[] args)
     {      
       
        ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
        try
        {
            //分词所需库的路径
            String argu = ".";
            //初始化
            if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false){
                System.out.println("Init Fail!");
               
                return;
            }
            else {
                    System.out.println("Init Succeed!");
            }
            String sInput="点击下载超女纪敏佳深受观众喜爱。禽流感爆发在非典之后。";
            byte nativeBytes[] = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);
            System.out.println(nativeBytes.length);
            String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");
            System.out.println("The result is :" + nativeStr);
            testICTCLAS50.ICTCLAS_Exit();
        }
        catch (Exception ex)
        {
        }
        finally{
           
           
        }
     }
 }
结果如下:

标签: 中科院分词 Tokenization java ICTCLAS 汉语分词

中科院分词ICTCLAS汉语分词系统简单配置相关推荐

  1. python汉语分词,python汉语分词的简单示例

    对python这个高级语言感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧! 目前我常常使用的分词有结巴分词.NLPIR分词等等 最近是在使用结巴分词,稍微做一下推荐,还是蛮好 ...

  2. 自然语言处理:汉语分词

    NLPIR/ICTCLAS 汉语分词系统(http://ictclas.nlpir.org) PyNLPIR 是该汉语分词系统的 python 封装版(http://pynlpir.readthedo ...

  3. 四款python中文分词系统简单测试

    四款python中文分词系统简单测试: 注:中科院分词可采用调用C库的方式使用 纠正下:中科院分词2012支持关键词提取 准确率测试(使用对应项目提供在线测试,未添加用户自定义词典) 结巴中文分词ht ...

  4. 2014.12.21nlpir ictclas中文分词系统发布

    我们拟于2013年12月20日,在北京理工大学召开ICTCLAS的分词用户大会,发布最新版本,ICTCLAS的作者张华平博士将莅临宣讲分词算法的原理,并集中培训分词在Windows,Linux下C/C ...

  5. ICTCLAS2013(NLPIR汉语分词系统) Java版本的使用方法

    这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新 ...

  6. Solr配置中文的分词器-简单配置

    Solr配置中文的分词器 文章目录 Solr配置中文的分词器 英文分词 中文的查询 Solr需要配置中文分词器(重要) 配置中文分词后,再分析一次   这篇文章,主要是讲解Solr如何配置中文分词器, ...

  7. 中文开源汉语分词工具

    本文转载自:http://www.scholat.com/vpost.html?pid=4477 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文 ...

  8. Linux环境下使用NLPIR(ICTCLAS)中文分词详解

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 欢迎交流,禁止将本人博客直接复制下来,上传到百度文库等平台. NLPIR介绍 NLPIR是中科院出的一款汉语分词 ...

  9. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...

    目录 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.2 语言技术平台(Language Technology Platfo ...

最新文章

  1. python CST中国标准时间格式转换
  2. 12306 网站的非技术分析
  3. linux c 文件描述符 得到 文件名
  4. 如何用python的i2c教程_使用Raspberry pi3(Python)的I2C用法
  5. BZOJ 2038: [2009国家集训队]小Z的袜子(莫队算法例题)
  6. 刘志勇:微博短视频百万级高并发架构
  7. BCD码与十进制的相互转换
  8. 网络服务器分为文件服务器通信服务器和,近代中国落后、贫困的根本原因是()...
  9. docker 容器数据卷
  10. 毕设题目:Matlab优化调度
  11. Java开发微信公众号
  12. python3GUI--在线小说播放器By:PyQt5(附ui源码)
  13. 360Hbase二级索引
  14. 联通手机服务器密码怎么修改,联通宽带手机修改wifi密码
  15. matlab中readwav的用法,使用matlab的wavread函数总提示出错,那位高手指点下啊
  16. 首发的400G园区核心交换机,开启园区超宽时代
  17. 【FPGA】Verilog编程实现SDRAM读写(一) ----- 初识SDRAM
  18. grep -q 大小比较
  19. 【Procmon教程2】如何揪出篡改注册表的元凶?
  20. 01-2016.07-小学期游戏开发《坦克大战》

热门文章

  1. 收件箱和发件箱 表设计_在收件箱中播放不错
  2. 个人认为IT现在炒的比较热的东东[原创]
  3. canvas像素画板
  4. UE5 蓝图节点图文大全(300+蓝图,7万字+)
  5. Vue全局注册公共组价
  6. [ppurl]从”皮皮书屋”下载电子书的姿势
  7. pythonios免费下载_facebook wda下载
  8. linux虚拟网卡ping不通网关,解决虚拟机或物理机ping不通网关故障的方法与思路...
  9. VNCviewer黑屏解决办法
  10. 【25】模型参数量Params与计算量Flops的计算方法