官网:http://ictclas.org/

中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of   Computing Technology, Chinese Lexical Analysis   System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持GBK、UTF-8、UTF-7、UNICODE等多种编码格式。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器

readme

一、ICTCLAS简介

  中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

二、ICTCLAS特色

1、国内和国际权威的公开评测、三万客户的认可

  有些公司为了商业目的,关门自测,自称准确度99.50%,没有介绍测试环境和测试方法,封闭测试或者小规模的开放测试准确度100%都不足为奇的,ICTCLAS1.0在国内973专家组组织的评测中活动获得了第一名,ICTCLAS2.0在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,具体的参见系统评测部分。这些都是权威机构进行大规模现场开放测试的结果,真实可信。

   目前,ICTCLAS已经向国内外的企业和学术机构颁发了30,000多份授权,其中包括3721、NEC、中华商务网、硅谷动力、云南日报等企业,新疆大学、清华大学、华南理工、麻省大学;同时,ICTCLAS广泛地被《科学时报》、《人民日报》海外版、《科技日报》等多家媒体报道。您可以访问Google进一步了解ICTCLAS的应用情况。

2、综合性能最优

  分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了完美PDAT大规模知识库管理技术(200510130690.3),在高速度与高精度之间取得了重大突破,该技术可以管理百万级别的词典知识库,单机每秒可以查询100万词条,而内存消耗不到知识库大小的1.5倍。基于该技术,ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

3、统一的语言计算理论框架

  汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达千差万别的语言现象,而ICTCLAS采用了层叠隐马尔可夫模型(Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的理论框架中,获得最好的总体效果,相关理论研究发表在顶级国际会议和杂志上,从理论上和实践上都证实了该模型的先进性。

4、全方位支持各种环境下的应用开发

  ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言。

5、应需而变,量身定做

  所有功能模块均可拆卸组装,ICTCLAS有GB2312和BIG5版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准,包括计算所词类标注集ICTPOS3.0,北大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港“城市大学”;用户可以直接自定义输出的词类标准,定义输出格式;用户可以根据自己的需求,进行量身自助式定做适合自己的分词系统。
           
三、使用方法
       ICTCLAS以组件形式提供给使用者,调用方法请参照对应的Demo程序。如有定制需求,另行商议。

目前本官网提供的api版本如下:
      linux_c_32
      linux_c_64
      linux_JNI_32
      linux_JNI_64
      windows_c_32
      windows_c_64
      windows_csharp_32
      windows_csharp_64
      windows_JNI_32
      windows_JNI_64

相应的Demo程序:
      Linux_CDemo_32Bit_sample
      Linux_CDemo_64Bit_sample
      Linux_JNIDemo_32Bit_sample
      Linux_JNIDemo_64Bit_sample
      windows_cDemo_32_sample
      windows_cDemo_64_sample
      win_csharp_32_sample
      win_csharp_64_sample
      Win_JNI_32_sample
      Win_JNI_64_sample

四、Demo程序演示

1、Linux_CDemo_32Bit_sample

#rm test -f
#make
#./test

2、Linux_CDemo_32Bit_sample

#rm test -f
#make
#./test

3、Linux_JNIDemo_32Bit_sample

#javac TestICTCLAS30.java
#java TestICTCLAS30

4、Linux_JNIDemo_64Bit_sample

#javac TestICTCLAS30.java
#java TestICTCLAS30

5、windows_cDemo_32_sample

用vs2005打开工程——>编译——>执行

6、windows_cDemo_64_sample

用vs2005打开工程——>选择x64编译——>执行

7、win_csharp_32_sample

用vs2005打开工程——>选择debug编译——>执行

8、win_csharp_64_sample

用vs2005打开工程——>选择debug/x64编译——>执行

9、Win_JNI_32_sample

#javac TestICTCLAS30.java
#java TestICTCLAS30

10、Win_JNI_64_sample

#javac TestICTCLAS30.java
#java TestICTCLAS30

五、联系方式
 
杨 剑 
中科计算技术转移中心 网络智能事业部
地址:北京市海淀区科学院南路10号中科院计算所攻关楼4层 邮编:100190
电话:+86-10-62600480/1/2  分机807
传真:+86-10-62600480
手机:+86-13910154064
邮箱:ictclas@ictclas.org
MSN: yjgreabc@hotmail.com;
网址:http://ictclas.org

Steven   Yang
Web Intelligence Division  
   Technology Transferring Center of Institute of Computing Technology (TTC-ICT)
Address:
 4th Floor, Gongguan Building,Institute of Computing Technology,
 NO. 10, South Road, Kexueyuan, Haidian District
 Beijing, P.R.China
 P.O.Box 2704   Zip Code 100190
Tel: +86-10-62600480/1/2 ext. 807
Fax: +86-10-62600480
Mobile:+86-13910154064
E-mail:ictclas@ictclas.org
MSN:yjgreabc@hotmail.com
Homepage:http://ictclas.org

下载地址:http://ictclas.org/Download.html

好东东-汉语词法分析系统ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System)相关推荐

  1. 中科院分词ICTCLAS汉语分词系统简单配置

    汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名:支持词典,多级词性标注,支持人 ...

  2. 华为鸿蒙系统智能手机_余承东再度确认:鸿蒙系统将适配到华为手机上

    近期余承东承认华为芯片不够用,麒麟芯片也将在9月15日暂时停产,华为麒麟芯片或将成为绝唱已经确定为事实,这显然是有点遗憾的事情,不过华为也有好消息传来,那就是余承东再度确认鸿蒙系统将适配到手机上,具体 ...

  3. 什么是windows PE 告诉你Windows PE是什么东东?详细介绍一下winpe精简系统

    什么是windows PE 告诉你Windows PE是什么东东?详细介绍一下winpe精简系统 针对菜菜朋友可以对PE这样理解: 大家是不是都用过xp系统?(一个独立的操作系统) xp系统是由好多好 ...

  4. 系统安全需要考虑哪些东东?

    网络安全 传输加密 为防止网络传输过程中敏感信息泄露,我们要对传输的内容进行加密,比如web访问,尽可能使用HTTPS的形式. 网络隔离 对于防止不明入侵,最直接的手段就是网络隔离.主要体现在如下几个 ...

  5. windows系统下的文件Thumbs.db是啥东东?

    相信用过windows系统的都看到过一般的图片文件夹下都有一个隐藏的Thumbs.db文件,那么它是干什么的呢?可能会有很多人不知道吧.别着急,我们继续Thumbs.db是啥东东?删了它节省空间.从W ...

  6. 为什么会有jsessionid,这个东东有什么用呢?

    2019独角兽企业重金招聘Python工程师标准>>> 为什么会有jsessionid,这个东东有什么用呢? 博客分类: java 为什么会有jsessionid,这个东东有什么用呢 ...

  7. 网管必看的好东东(一)

    自动释放系统资源 在Windows中每运行一个程序,系统资源就会减少.有的程序会消耗大量的系统资源,即使把程序关闭,在内存中还是有一些没用的DLL文件在运行,这样就使得系统的运行速度下降.不过我们可以 ...

  8. 【任务脚本】更新京东任务东东农场脚本,京东种水果脚本,京东活动任务半自动程序...

    最近看到大牛更新了东东农场的脚本,东东农场就是京东种水果的日常任务,可以搜索"东东农场"进入(亲测猕猴桃挺好吃的),测试体验了一下脚本,有些不稳定,不过可以用,只是可能需要多运行两 ...

  9. JavaScript怎么安装_几句话说清楚JavaScript、V8引擎、NodeJS、NMP,到底是什么东东...

    小程序开发如火如荼,如果你是程序员,你还不懂小程序的开发,恐怕会被同行认为太LOW了吧!不过,新入行小程序开发者确实会被新的名词搞得一头雾水. 比如JavaScript不是在浏览器端运行吗,怎么还可以 ...

最新文章

  1. SAP MM GR-based IV, 无GR不能IV?
  2. 简单的js文本框提示语
  3. 时间序列研(part1)--随机过程
  4. C#LeetCode刷题,走进Google,走近人生
  5. 女神说不能每张照片P的一样,所以朋友圈开三天可见,用Python一步解决
  6. 微信小程序引入npm
  7. python不同模式打开文件的完全列表
  8. python 死循环插曲变量_FishC03 讲:python小插曲之变量和字符串
  9. 【Linux】关于Linux操作系统的配置步骤
  10. 计算机出现全部英文如何解决,电脑打开后出现很多英文怎么处理
  11. css字体转换程序(Node.js)
  12. 获取Repeater控件里动态声称的控件的值
  13. 可靠性标准: TL9000
  14. java Deque 接口
  15. mysql lookup3,引用函数(三):lookup
  16. 北航计算机考博经验,北京航空航天大学考博经历
  17. 上云之路千万条,青立方易捷版第一条
  18. 使用新版Mendeley自动插入参考文献,并修改得到GB/T 7714-2005格式
  19. 使用 Wrapper 自定义SQL
  20. 5款良心电脑软件,有一款虽已停更,却依然免费使用

热门文章

  1. python爬虫:批量抓取代理ip,进行验证,抓取豆瓣网站影视信息
  2. web、pc客户端、app测试的区别
  3. cef离屏渲染(osr)初识
  4. 就业技术书文件表格_《就业规划书》模板
  5. 【Java】寒假答辩作品:Java小游戏
  6. 安徽科技学院 信网学院网络文化节 曹健
  7. 为什么会一闪而过 c语言程序,为什么程序运行后会一闪而过呢[求助]
  8. 通过路径图比较BOSS直聘,智联招聘,拉勾的登录功能
  9. 去哪些网站能够查阅医学最新文献?
  10. 共享服务器模式(shared server)和专用服务器模式(dedicated server)