这个工具是什么?先看看他的官方介绍吧:

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。


c++版本的使用方法:点击打开链接

Java32位版本下载地址:点击打开链接

介绍时候说:

NLPIR汉语分词系统(又名ICTCLAS2013),在Windows环境下,32位,供Java调用的API,具体见示例。

说明:本下载包仅仅是补充包,还需要下载 NLPIR汉语分词系统(又名ICTCLAS2013版)下载包 ,替换其中的dll即可。

“替换其中的dll即可”这句话还害的我折腾了一下午,我一直没有弄清楚到底如何操作。

后来我自己弄,弄OK了。很简单,很傻的方法。废话不多说,开始吧。

一,下载Java32位的版本,上面已经给出了。然后下载他的c++版本,里面有些东西需要用到的点击打开链接。

二,(可选)在eclipse中新建一个工程,就命令ICT吧,然后将Java32位的版本的rar解压文件中Win-32bit-JNI-lib文件夹下面的kevin文件夹和TestNLPIR.java文件(看图1)扔到工程ICT的src文件夹下面。记得将上述扔进去的东西添加到工程的build path。不会的话看这里:点击打开链接。不然工程运行时候报错:editor does not contain a main type

图1.需要扔进ICT工程src的文件。

=========================如果就这么运行的话,会报错的。

三,上图剩下的那个玩意NLPIR_JNI.dll和c++版本中的bin文件夹下面一个NLPIR.dll扔到工程之外其他地方(我扔进工程里面,后面的import步骤报错,原因未知。)然后在工程中导入这个玩意,如何导入看这里点击打开链接,不然工程运行时候报错:no .... in java.library.path

================================现在运行的话,TestNLPIR.java运行37行就不能继续了。

四,将c++版本的Data文件夹(是整个文件夹)放到ICT工程下面(我自己新建一个file文件夹,放入这个地方,形成路径“项目名/file/Data/***.**”)。然后修改TestNLPIR.java的31行这句:

String argu = "../../";  ==>    String argu = "./file/";            (注意我是根据我自己建文件夹的地方修改的,这里指向Data文件夹,而不是Data里的文件)

================================现在运行的话,TestNLPIR.java运行43行就不能继续了。

五,将c++版本的test文件夹扔进ICT工程下面(我是自己扔进去的),然后修改TestNLPIR.java的48 49两行:

String argu1 = "E:/NLPIR/test/test.TXT";
String argu2 = "E:/NLPIR/test/test_result1.TXT";

==>

String argu1 = "./test/test.TXT";
String argu2 = "./test/test_result1.TXT";                 (注意我是根据我自己建文件夹的地方修改的)

继续修改76行

argu2 = "E:/NLPIR/test/test_result2.TXT";  ==>      argu2 = "./test/test_result2.TXT";

然后运行吧,可以看看ICT工程下面的test文件夹里面多一个test_result1.TXT文件,就是test.TXT分完词加词性后的结果。好像这个对一个句子分完词后自己加了一个空行。

截个图看看吧,图2 test.TXT 的一部分。 图3 test_result1.TXT一部分

图2 test.TXT 的一部分

图3 test_result1.TXT一部分

到此,已经正确运行。中间有一些问题我也没有解决,还有他的分词输出如何不加词性什么的我也没去研究。先到这里为止吧。

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

如果不要词性,修改第63行:

testNLPIR.NLPIR_FileProcess(argu1.getBytes("GB2312"), argu2.getBytes("GB2312"), 1);

==> testNLPIR.NLPIR_FileProcess(argu1.getBytes("GB2312"), argu2.getBytes("GB2312"), 0)

函数原型在NLPIR.java中public native   boolean NLPIR_FileProcess(byte[] sSrcFilename,byte[] sDestFilename,int bPOSTagged);

/-------------------------添加用户字典---------------------------------------/ 2013-5-28/

内存方式添加用户字典:

拿原文件中句子举例子:

待分词的句子:张华平推出的NLPIR分词系统,又名ICTCLAS2013,新增新词识别、关键词提取、微博分词功能。

原始(未加字典)分词结果:

可以在39行  //导入用户词典前下面试着加这么几句话:

[java] view plaincopy
  1. String s = "分词系统    NN";
  2. byte[] ret = s.getBytes();
  3. testNLPIR.NLPIR_AddUserWord(ret);

现在的分词结果是这样的

  ----------- "分词系统"被切分在一起了。

如果不想要这个单词了。

就删掉前面加的那些句子,新加入这么几句话:

[java] view plaincopy
  1. String s = "分词系统";
  2. byte[] ret = s.getBytes();
  3. testNLPIR.NLPIR_DelUsrWord(ret);

现在的分词结果又如以前:

注意事项:1>添加单词的时候中间是tab键隔开。String s = "分词系统    NN";

          2>删除单词的时候千万不要带词性,仅删除单词。String s = "分词系统";

以上加入用户词典部分参考点击打开链接

这个工具是什么?先看看他的官方介绍吧:

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。


c++版本的使用方法:点击打开链接

Java32位版本下载地址:点击打开链接

介绍时候说:

NLPIR汉语分词系统(又名ICTCLAS2013),在Windows环境下,32位,供Java调用的API,具体见示例。

说明:本下载包仅仅是补充包,还需要下载 NLPIR汉语分词系统(又名ICTCLAS2013版)下载包 ,替换其中的dll即可。

“替换其中的dll即可”这句话还害的我折腾了一下午,我一直没有弄清楚到底如何操作。

后来我自己弄,弄OK了。很简单,很傻的方法。废话不多说,开始吧。

一,下载Java32位的版本,上面已经给出了。然后下载他的c++版本,里面有些东西需要用到的点击打开链接。

二,(可选)在eclipse中新建一个工程,就命令ICT吧,然后将Java32位的版本的rar解压文件中Win-32bit-JNI-lib文件夹下面的kevin文件夹和TestNLPIR.java文件(看图1)扔到工程ICT的src文件夹下面。记得将上述扔进去的东西添加到工程的build path。不会的话看这里:点击打开链接。不然工程运行时候报错:editor does not contain a main type

图1.需要扔进ICT工程src的文件。

=========================如果就这么运行的话,会报错的。

三,上图剩下的那个玩意NLPIR_JNI.dll和c++版本中的bin文件夹下面一个NLPIR.dll扔到工程之外其他地方(我扔进工程里面,后面的import步骤报错,原因未知。)然后在工程中导入这个玩意,如何导入看这里点击打开链接,不然工程运行时候报错:no .... in java.library.path

================================现在运行的话,TestNLPIR.java运行37行就不能继续了。

四,将c++版本的Data文件夹(是整个文件夹)放到ICT工程下面(我自己新建一个file文件夹,放入这个地方,形成路径“项目名/file/Data/***.**”)。然后修改TestNLPIR.java的31行这句:

String argu = "../../";  ==>    String argu = "./file/";            (注意我是根据我自己建文件夹的地方修改的,这里指向Data文件夹,而不是Data里的文件)

================================现在运行的话,TestNLPIR.java运行43行就不能继续了。

五,将c++版本的test文件夹扔进ICT工程下面(我是自己扔进去的),然后修改TestNLPIR.java的48 49两行:

String argu1 = "E:/NLPIR/test/test.TXT";
String argu2 = "E:/NLPIR/test/test_result1.TXT";

==>

String argu1 = "./test/test.TXT";
String argu2 = "./test/test_result1.TXT";                 (注意我是根据我自己建文件夹的地方修改的)

继续修改76行

argu2 = "E:/NLPIR/test/test_result2.TXT";  ==>      argu2 = "./test/test_result2.TXT";

然后运行吧,可以看看ICT工程下面的test文件夹里面多一个test_result1.TXT文件,就是test.TXT分完词加词性后的结果。好像这个对一个句子分完词后自己加了一个空行。

截个图看看吧,图2 test.TXT 的一部分。 图3 test_result1.TXT一部分

图2 test.TXT 的一部分

图3 test_result1.TXT一部分

到此,已经正确运行。中间有一些问题我也没有解决,还有他的分词输出如何不加词性什么的我也没去研究。先到这里为止吧。

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

如果不要词性,修改第63行:

testNLPIR.NLPIR_FileProcess(argu1.getBytes("GB2312"), argu2.getBytes("GB2312"), 1);

==> testNLPIR.NLPIR_FileProcess(argu1.getBytes("GB2312"), argu2.getBytes("GB2312"), 0)

函数原型在NLPIR.java中public native   boolean NLPIR_FileProcess(byte[] sSrcFilename,byte[] sDestFilename,int bPOSTagged);

/-------------------------添加用户字典---------------------------------------/ 2013-5-28/

内存方式添加用户字典:

拿原文件中句子举例子:

待分词的句子:张华平推出的NLPIR分词系统,又名ICTCLAS2013,新增新词识别、关键词提取、微博分词功能。

原始(未加字典)分词结果:

可以在39行  //导入用户词典前下面试着加这么几句话:

[java] view plaincopy
  1. String s = "分词系统    NN";
  2. byte[] ret = s.getBytes();
  3. testNLPIR.NLPIR_AddUserWord(ret);

现在的分词结果是这样的

  ----------- "分词系统"被切分在一起了。

如果不想要这个单词了。

就删掉前面加的那些句子,新加入这么几句话:

[java] view plaincopy
  1. String s = "分词系统";
  2. byte[] ret = s.getBytes();
  3. testNLPIR.NLPIR_DelUsrWord(ret);

现在的分词结果又如以前:

注意事项:1>添加单词的时候中间是tab键隔开。String s = "分词系统    NN";

          2>删除单词的时候千万不要带词性,仅删除单词。String s = "分词系统";

以上加入用户词典部分参考点击打开链接

ICTCLAS2013(NLPIR汉语分词系统) Java版本的使用方法相关推荐

  1. NLPIR汉语分词为自然语言信息处理提供新方法

    随着计算机网络的飞速普及,人们已经进入了信息时代.在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取大量有用的信息.谁掌握了信息,谁就能在竞争中处于有利位置.在这种环境下,搜 ...

  2. ZH奶酪:Java调用NLPIR汉语分词系统

    NLPIR工具 支持自定义词表: 可以离线使用: 下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389 在线演示:http://ictclas.n ...

  3. java nlpir_4-NLPIR汉语分词系统-JAVA

    好吧,之前用的是旧版的,现在出了个新版的,优先选择用新版的哈. 从官网下载相应的开发包,然后主要需要找到这几个东西添加到项目工程里面,1.Data文件夹 2.NLPIR_JNI.DLL 3.NLPIR ...

  4. 中科院分词ICTCLAS汉语分词系统简单配置

    汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名:支持词典,多级词性标注,支持人 ...

  5. ictclas包 java_ICTCLAS分词系统Java调用接口在Eclipse中的安装

    ICTCLAS分词系统Java调用接口在Eclipse中的安装 实验环境:JDK1.5.Eclipse3.1.XP操作系统 分词系统Java接口解压包:d:\fenci(http://www.nlp. ...

  6. 【基于python版本的连续英文分词实现java版本的英文分词器】

    连续英文分词器java版本 定义词典, 构建词典 切词实现 在搜索领域,用户的输入是千奇百怪的,有时候用户输入的是连续的英文,如果不能有效的进行切分,那么搜索召回的效果可能会比较差,所以我们需要针对连 ...

  7. JAVA调用NLPIR(中科院汉语分词系统)的使用

    介绍 最近在查找关于中文分词解析方面的开源工具,最开始找到了腾讯的文智与百度的自然语言,这两个平台都是对外提供HTTP接口调用需要把数据传输过去返回解析结果. 使用这种方式会有两种隐患:1.要确定网络 ...

  8. NLPIR汉语分词为自然语言处理提供新方向

    随着计算机网络的飞速普及,人们已经进入了信息时代.在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取大量有用的信息.谁掌握了信息,谁就能在竞争中处于有利位置.在这种环境下,搜 ...

  9. ictclas怎么配置java_ICTCLAS2015 Java版本的使用方法

    ICTCLAS2015 Java版本的安装可以参考以下链接地址: 分词往往是自然语言处理的第一步.在分词的基础上,我们可以进行关键字的提取.搜索.纠错等应用.在理论上,分词可以采用的方法有很多,最经典 ...

最新文章

  1. SQL 语句使用关键字错误
  2. EOS从入门到精通-设计背景与DPOS算法(文字稿)
  3. CTF Geek Challenge——第十一届极客大挑战Web Write Up
  4. cp命令复制目录 不覆盖
  5. 浅析MySQL二进制日志
  6. DiagnosticsTextBox:WinForms的日志窗口
  7. 苹果原生NSURLSession的上传和下载
  8. Shell脚本:Linux Shell脚本学习指南(超详细)
  9. 机器学习算法——GBDT
  10. opencv 将视频流转换成帧图像(支持asf,mp4,avi)
  11. 大家好,我是数学家!来抢诺贝尔奖了!
  12. 寻找 Web3 的灵魂
  13. 基于Java毕业设计车辆调度管理系统源码+系统+mysql+lw文档+部署软件
  14. 老调重弹:JDBC系列之驱动加载原理全面解析)
  15. 关于DistroWatch
  16. python 传感器数据结构_python奇遇记:数据结构窥探3
  17. (74)项目中的亮点是什么?
  18. Linux下使用MySQL教程
  19. 亚伟计算机速录测试软件,亚伟中文速录机软件
  20. 文墨绘学21天习惯法则

热门文章

  1. Firebug快捷键
  2. 企业如何建立商业信用邓白氏信用等级?
  3. 第二届“强网”拟态防御国际精英挑战赛:背后的男人们!
  4. 使用maven管理Java项目依赖
  5. 谷歌称2029年人类开始实现永生不死
  6. centos 设置mtu_Linux系统下修改最大传输单元MTU的方法
  7. 冰河十年前的预测如今被阿里实现了,非常震撼
  8. 刚体姿态运动学(二)旋转的微分形式——角速度、欧拉角速度、四元数导数、旋转矩阵导数
  9. 分享10个实用的 IDEA 插件,解放你的双手
  10. 黄金K线图基础知识之玉柱