NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。

中科院的NLPIR分词系统应该是目前公认做的比较好的,支持自定义词典、支持批量分词、关键词提取、词性标注、文章指纹识别,2014版本添加了新词(未登录词)的识别等。

之前因为准备用里面的一个接口,找了一番发现其官方并没有提供易语言的api接口文档及源码示例。。。很多人对NLPIR分词系统还是很有需求的,所以制作了一个易语言的模块,封装了最新2014版的所有接口以供调用。

1、关键词提取接口:NLPIR_GetKeyWords()、NLPIR_GetFileKeyWords()这两个接口,分别为从文本中提取关键词和从文件中提取关键词,支持指定数量的提取和TF/IDF权重的输出,用来做tag标签啥的,比较合适。

2、指纹识别接口:NLPIR_FingerPrint()返回的貌似是一个多维度十六进制的向量,可以用在检测文章相似度上面,比如计算两篇文章指纹向量的余弦相似度;或者对采集的多个文件进行去重等等。而且这个分词系统支持多线程,大批量运行应该没太大问题。

3、新词识别接口:除自己定义的词典,此接口支持将识别到的新词自动导入到自定义词典中。里面新词识别接口有2个,建议使用后添加的NLPIR_NWI_Start() API.

4、关于用户词典和核心词典中同时有的分词词汇,谁优先? 可以在data/Configure.xml中设置

模块使用很简单:

1、去官方下载通用的NLPIR/ICTCLAS2014分词系统下载包(2014.3.24发布的),并解压到本地,只需要里面的NLPIR.dll(要找一下)和data目录文件即可

2、之后直接用易语言调用模块即可,如果不会用模块调用,请注意看模块里的每个参数说明,或查看官方的接口文档说明。

文档信息

最后修改时间:

2014年04月09日 11:50:42

看了此文的人貌似还看了这些:

∵2014-01-24

∴2014-01-24

中科院分词ictclas50 web项目 linux,NLPIR/ICTCLAS2014中科院分词系统Api接口 For 易语言...相关推荐

  1. 部署Web项目 (Linux)

    部署Web项目 -- Linux 一.Linux 环境搭建 二.Linux 常用命令 三.搭建 Java 部署环境 3.1 JDK 3.2 Tomcat 3.3 MySQL 四.部署 Web 项目 4 ...

  2. 人人都是接口开发大师,这个开源项目花5分钟就可以开发一个API接口

    PhalApi开源接口框架 读音:派框架,官网:https://www.phalapi.net/ PhalApi是一个PHP轻量级开源接口框架,致力于快速开发接口服务.支持HTTP/SOAP/RPC等 ...

  3. java web项目优化记录:优化考试系统

    考试系统在进行压力測试时发现,并发量高之后出现了button无反应.试题答案不能写到数据库的问题,于是针对这些核心问题,进行了优化. 数据库方面: Select语句:Select * from TEB ...

  4. 分布式系列教程(34) -Linux下安装ik分词器

    1.引言 因为Elasticsearch中默认的标准分词器分词器对中文分词不是很友好,会将中文词语拆分成一个一个中文的汉字,因此引入中文分词器-es-ik插件. 例如使用传统的分词器,可以看到把中文分 ...

  5. 五十一、结合百度API接口打造 Python小项目

    @Author: Runsen 本项目围绕图像识别,通过调用百度 API 接口,可以实现很多人性化的功能,比如手势识别.比对.人像分割以及颜值打分等功能. 本次Gitchat付费文章,但是因为订阅太少 ...

  6. 这个项目真香,快速搭建API接口商城,最快当天上线,还有源代码

    API接口商城有什么用? API接口商城通过提供API接口服务或数据服务,向开发者或客户收取服务费用,平台销售的不是接口源代码,而是接口调用的次数和数据这些无形资产. 常用的高频API接口有:短信接口 ...

  7. Linux环境下使用NLPIR(ICTCLAS)中文分词详解

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 欢迎交流,禁止将本人博客直接复制下来,上传到百度文库等平台. NLPIR介绍 NLPIR是中科院出的一款汉语分词 ...

  8. linux安装eclipse运行web,Linux安装Tomcat,运行Eclipse,web项目

    到官网下载:https://tomcat.apache.org/download-80.cgi  在这里是8.5.39版本 下载tar,gz 提取解压后,我这里是放到opt目录下 cd  切换目录 / ...

  9. Linux上部署web服务器并发布web项目

    近在学习如何在linux上搭建web服务器来发布web项目,由于本人是linux新手,所以中间入了不少坑,搞了好久才搞出点成果. 以下是具体的详细步骤以及我对此做的一些总结和个人的一些见解,希望对跟我 ...

最新文章

  1. shell脚本自动执行,top命令无输出
  2. VTK:Animation用法实战
  3. cocos2d-x游戏实例(7)-A星算法(3)
  4. java环境变量中classpath是必须配置吗
  5. Behavior Language Processing with Graph based Feature Generation for Fraud Detectionin OnlineLending
  6. Script:脚本获得用户User DDL包括system、object grant
  7. OpenCV笔记(十八)——使用霍夫变换检测圆圈
  8. 变量 重复声明_JS:定义变量的var、let有何操作?(360°无死角)
  9. spring学习笔记一(基于xml)
  10. java debug命令详解_DEBUG命令使用解析及范例大全
  11. 搭建自己的聊天室平台、公司内部聊天平台,Rocket.Chat搭建及使用
  12. matlab音频指纹识别_指纹识别算法matlab实现.doc
  13. 怎么隐藏电脑桌面的计算机图标,怎么隐藏电脑桌面右下角图标
  14. 贵港职称计算机考试网,贵港工程师职称等级时间
  15. 程序设计方法学作业—三天打渔两天晒网程序设计
  16. 英语口语收集(十五)
  17. IDEA突然不能输入中文
  18. mfc treectrl设置背景透明_微信透明头像怎么弄 专用透明头像图片更换设置教程闽南网...
  19. c语言版贪吃蛇《课程设计》
  20. 就差你了,于腾格里沙漠无人之境,不止跨年

热门文章

  1. 调音台docker教程_Docker实例教程[超详细](一)
  2. Terminated due to memory error
  3. 精通正则表达式(第3版)
  4. 【计算机组成原理】(唐朔飞)笔记-计算机总线 补充+习题
  5. 操作系统学习笔记——北京大学陈向群老师课后及习题答案(7)
  6. onTouchEvent 和 onInterceptTouchEvent 事件触摸
  7. 小菜狗套Unet分割模型
  8. 中国国界九段线,单独加载方法和原始数据
  9. 12255移动商务安全
  10. 图形在计算机中用什么格式表示什么,使用什么软件打开dat文件,图形文字说明如何在计算机中查看DAT类型文件...