转载自:http://fay19880111-yeah-net.iteye.com/blog/1464110
     
     ictalas4j用到的字典主要是下面的三个:coreDict、biGramDict、nr。coreDict记录了6768个词块,里面有对应的词频和句柄(用于词性标注);biGramDict里面记录的是词和词之间的关系,也就是相邻两个词一起出现的频率;nr记录的是中文人名角色标注,该标注来自对人民日报语料库训练的结果。 
     了解了其应用的字典后,看一下ictclas4j的大致流程。 
      
     首先,把整片文档分割成一个个的句子,对分割后的句子进行原子切割。 
     其次,查找coreDict字典进行粗略的分词,所有可能的分词结果都存储在一个二维链表里面。该二位链表的每个节点中记录了词性(可能包含多个)、词内容、词频。 
     然后,查找biGramDict字典,对第二部的结果处理,构造新的二维链表,该二维链表的节点中记录了两个词之间的关系值(权重,衡量俩个词同时出现的概率),通过一个计算公式,计算出两个词的平滑值。 
     接着,进行初次切分(通过最短路径算法,而权重即为上一步计算出的平滑值)。 
     接着,进行人名识别了,这应该算是ictclas4j不同于其他分词工具的特征吧,其他的分词工具基本上不处理未登录词,但是未登录词对分词的结果影响还是比较大的。该部分采用的是基于角色标注的算法,通过查找nr字典,最终匹配出人名。(本文只是介绍大致流程,具体的人名识别请阅读 张华平、刘群的论文《基于角色标注的中国人名自动识别研究》)。 
     接着,处理地点等信息(个人感觉ictclas在处理地点信息时识别率不高,主要是其特征不像人名识别那样紧紧有15中模式匹配模型,分词在切分时并不能准备的切分出机构名称)。 
     最后就是优化优化结果,添加词性(对于词性,前面已经包含相应的值,在调整相应的分词后调整对应的词性即可)。 
   

中科院分词系统大致流程相关推荐

  1. 中科院的java_java 中调用中科院分词系统

    项目中需要对某些内容进行分词步骤,所以在Java中调用中科院ictclas2013版的分词系统 1.进入官网下载 下载两个文件.一个是:ictclas2013下载包,目前更新到0416版,另一个是:i ...

  2. 中科院分词ictclas50 web项目 linux,NLPIR/ICTCLAS2014中科院分词系统Api接口 For 易语言...

    NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新增微博分词.新词发现与关键词提取. 中科 ...

  3. java 中文分词 词性标注_ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注(转)...

    中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释 〇.总体流程 考虑输入的一句话,sSentence="张华平欢迎您" 总体流 ...

  4. 中科院分词系统(NLPIR)JAVA简易教程

    这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限.水平较低,文档中肯定存在有很多不足之处,还请见谅. 下载地址:http://ictclas.n ...

  5. 乱码ictclas java_中科院分词系统(NLPIR)JAVA简易教程

    这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限.水平较低,文档中肯定存在有很多不足之处,还请见谅. 下载地址:http://ictclas.n ...

  6. php 环信easyui_php集成环信IM即时通讯系统(大致流程方法)

    很多场景需要用到即时通讯,独立开发成本太高,选择第三方比较合适,就使用过的环信做一个大致流程介绍,不评价好坏 1,注册环信即时通讯云账号:官网.然后登录后台创建应用 注:开放注册是指不需要管理员授权同 ...

  7. ICTCLAS(中科院分词系统)配置

    参考: https://blog.csdn.net/wiwiane/article/details/55224573 https://www.cnblogs.com/mansiisnam/p/5666 ...

  8. 中科院分词系统学习笔记(一)

    这几天开始做毕业设计准备,先从分词开始吧.争取尽快把分词这部分做完.目标是把开源的linux/unix的分词代码移植到solaris,并改成ANSI C. ICTCLAS系统中使用了索引表来存储词,这 ...

  9. NLPIR中科院分词系统初始化失败

    初始化失败通常是由于授权过期导致.从NLPIR的github网址下载最新的授权文件NLPIR.user,然后覆盖掉之前文件data中的NLPIR.user,重启系统即可使用.

  10. 利用现有资源快速实现汉语专用分词系统

    利用现有资源快速实现汉语专用分词系统<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office&q ...

最新文章

  1. 第四天:Vue组件的slot以及webpack
  2. C#WinForm的线程及Invoke应用(转)
  3. springboot tomcat配置_用了 10 多年的 Tomcat 居然有bug !
  4. 2019年大数据发展趋势预测
  5. java虚拟机 函数表_java虚拟机 jvm 局部变量表实战
  6. 2021年POS机费率上调了吗?
  7. 在ASP中轻松实现记录集分页显示
  8. 论坛模块_实现功能2_实现显示版块列表与显示单个版块的功能
  9. html 的header标签和head标签
  10. ARM7开发软件安装步骤
  11. 刘宇凡:当网络营销泛滥成灾时
  12. jquery动态修改背景图片
  13. 文件Md5计算(C语言版)
  14. 后台管理系统-登录页面
  15. 洞见 SELENIUM 自动化测试
  16. 修改Oracle序列
  17. 什么是MES生产制造执行系统?实施MES生产管理系统有哪些目标?
  18. NB模块-QS100-默认demo
  19. 郑莉版java第三章答案_java语言程序设计(郑莉)第七章课后习题答案.docx
  20. 感悟西游记——成气候的妖精都是领导家的

热门文章

  1. SAP 电商云 Spartacus UI Cart 页面的 CMS 布局
  2. 红帽初级认证RHCSA考试环境——供实验练习
  3. android 反编译jar包
  4. 《MATLAB 神经网络43个案例分析》:第23章 Elman神经网络的数据预测----电力负荷预测模型研究
  5. Arduino实验十二 利用雨滴传感器检测是否下雨
  6. ColorUI 使用文档
  7. java实习周记_java程序员的实习周记
  8. fluent-bit 本地安装及配置
  9. 使用ffmpeg将h264视频文件转Mp4格式保存
  10. 交换机的RTU License 华为S5700交换机