库名称:AdvancedChineseAnalyzer 高级中文文本分析器
描述:A Chinese Analyzer that utilizes HMM. 基于隐马尔科夫模型的中文分析器。
运行环境:Microsoft .Net Framework 2.0
依存软件:Lucene.Net
作者:Kelvin ZHANG (kelvin.cn{@t}56.com)
授权:Free for noncommercial use 对非盈利使用免费

下载:
http://files.cnblogs.com/KelvinZhang/AdvancedChineseAnalyzer.part1.rar
http://files.cnblogs.com/KelvinZhang/AdvancedChineseAnalyzer.part2.rar
http://files.cnblogs.com/KelvinZhang/AdvancedChineseAnalyzer.part3.rar

【1】为什么要分词?
减小索引大小,减少搜索开销,提高响应速度,改善搜索结果的相关性。

【2】与以往Lucene.Net的NLS包中提供的ChineseAnalyzer有什么不同?
NLS中的ChineseAnalyzer只简单地将连续字串两两组合,例如,对“文本分析器”进行分析,将得到“文本”、“本分”、“分析”和“析器”。而使用AdvancedChineseAnalyzer分析,将得到“文本”、“分析器”两个Tokens。AdvancedChineseAnalyzer的分词算法有两种,一种基于“上下文无关的词频优选”,第二种则是基于“一阶隐马尔科夫模型(HMM)”。

【3】这两种算法的分词正确率和速度各如何?
排除人名,地面等专有未登录词不算,HMM模式下切分正确率达到98%,非HMM模式下达到94%左右。HMM模式每秒可以处理75kbps文本,非HMM模式速度在100kbps左右。两种模式可以自由切换。

【4】怎样才能将AdvancedChineseAnalyzer结合Lucene.Net使用?

1 Lucene.Net.Analysis.Analyzer objCA = new Lucene.Net.Analysis.China.ChineseAnalyzer();

然后把objCA传递给IndexWriter的构造函数就可以了。

【5】AdvancedChineseAnalyzer是免费的吗?
是的,个人以非盈利目的的使用是免费的。但作者不提供技术支持,也不保证AdvancedChineseAnalyzer没有问题。Use it at your own risk.

【6】如何开启HMM模式?

1 Lucene.Net.Analysis.China.ConfigParameter.UseHmm = true;

【7】为何输入文本和输出的不一样,少了很多(见图)?

已经过滤了停用词。常见的无意义虚词、标点符号、英文停用词等都已经过滤掉了。

【分享】Lucene.Net的中文分词组件AdvancedChineseAnalyzer相关推荐

  1. Lucene.Net的中文分词组件AdvancedChineseAnalyzer

    库名称:AdvancedChineseAnalyzer 高级中文文本分析器 描述:A Chinese Analyzer that utilizes HMM. 基于隐马尔科夫模型的中文分析器. 运行环境 ...

  2. 分享Lucene中文分词组件IK Analyzer V3.2.8

    IK Analyzer 3.X介绍   IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本 ...

  3. 转 Lucene中文分词组件 JE-Analysis 1.5.1 天狼

    2006-05-29 17:40     主题:  [发布]Lucene中文分词组件 JE-Analysis 1.5.1   天狼 注册于: 2006-05-28 00:23 帖子总数: 103 离线 ...

  4. Java分布式中文分词组件 - word分词(转自 https //github com/ysc/word)

    首先给大家分享一个巨牛巨牛的人工智能教程,是我无意中发现的.教程不仅零基础,通俗易懂,而且非常风趣幽默,还时不时有内涵段子,像看小说一样,哈哈-我正在学习中,觉得太牛了,所以分享给大家!点这里可以跳转 ...

  5. Java分布式中文分词组件 - word分词

    Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以及日期.时间等 ...

  6. Java分布式中文分词组件 - word分词(转自:https://github.com/ysc/word)

    ###Java分布式中文分词组件 - word分词 ####word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以 ...

  7. Java中文分词组件 - word分词(skycto JEEditor)

    转自:https://my.oschina.net/apdplat/blog/228619#OSC_h4_8 Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文 ...

  8. jieba中文分词组件

    目录 jieba简介 组件特点 安装方法 算法 使用jieba 分词 添加自定义词典 载入词典 调整词典 关键词提取 基于 TF-IDF 算法的关键词抽取 基于 TextRank 算法的关键词抽取 词 ...

  9. Lucene学习——IKAnalyzer中文分词(二)

    一.环境 1.平台:MyEclipse8.5/JDK1.5 2.框架:Lucene3.6.1/IKAnalyzer2012/htmlparser 二.目标 1.整合前面连篇文章(Lucene学习--I ...

最新文章

  1. 【计算理论】计算复杂性 ( 两个带子的图灵机的时间复杂度 )
  2. 美团在Redis上踩过的一些坑-4.redis内存使用优化
  3. Java数组数字排列
  4. iptables,haproxy转发ftp(21端口)
  5. php header详解
  6. 安装内存条后系统蓝屏怎么解决
  7. 众包专访:快得难以想象!开源中国众包解决了团队开发的燃眉之急
  8. IP 地址由网络和主机两部分标识组成
  9. 数字万用表各指标含义:准确度(精度)分辨力(分辨率)测量范围--转
  10. LINUX DDR驱动知识(转)
  11. 小米平板刷机shell怎么退_小米平板2win10版刷miui出现shell怎么办
  12. 2018年计算机考证时间
  13. 联想电脑ctrl + r 快捷键无法使用
  14. 蓝桥杯:翻转旋转变换(矩阵旋转)
  15. 招商银行信用卡中心笔试编程题 - 序列找数
  16. windows10更新报错0x80244022的解决方法
  17. java教程菜鸟要飞_php7新特性 - 菜鸟要飞啊的IT小窝 - OSCHINA - 中文开源技术交流社区...
  18. 《LeetCode零基础指南》导读
  19. mysql的七种查询命令_mysql查询命令详细
  20. 高德地图开发(三、地图marker点标记)

热门文章

  1. 《编程匠艺》读书笔记之七
  2. Python学习笔记之类(二)
  3. 监听浏览器的返回事件,禁止浏览器返回
  4. Redis(1)---五种数据结构
  5. 平台表单默认按钮的使用及效果展示——JEPLUS软件快速开发平台
  6. Linux容器能否弥补IoT的安全短板?
  7. select count(*)和select count(1)
  8. 2.WindowsServer2012R2装完的一些友好化设置
  9. 电梯调度需求调研报告
  10. 戴尔XPS-13超级本赏析