在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率。例如:词根run有不同的形式running、ran另外runner也和run有关。这里涉及到两个概念:

词形变化:把一个任何形式的语言词汇还原为一般形式。(比如:cats--->cat,did--->do)

词干提取:去除词缀得到词根的过程。(比如fisher--->fish,effective--->effect )

下面介绍几个用着不错的工具包:

词形变换

TreeTagger

TreeTagger可以分析出文本中单词的词性(pos)和词语原型(时态变换、单复数变换)

示例

Tom has left Beijing for about 100 days.

解析结果

注意

不能解析的结果为

数字不能解析的结果为@card@

可以处理的语言有英语、德语、法语

官网

使用(linux环境下)

下载工具包解压后进入目录cmd/,假设待处理的文件在“del”里,命令为

./tree-tagger-english del

词干提取

nltk.stem模块

很多词干提取是基于Porter词干提取算法写出来的。Martin Porter在2000年发布了一个基于该算法的官方版本的免费应用软件。他在自己的工作上进行延伸,建立了一个Snowball算法,是编写词干提取算法的框架,并实现了一个改良的英文词干提取器可以同时提取一些其他语言。[维基]

示例

注意

提取的词干不一定正确,但是可以保证处理一致

提取出来为万国码(u开头)

支持语言:丹麦语 荷兰语 英语 芬兰语 法语 德语语 匈牙利语 意大利语 挪威语 波特语 葡萄牙语 罗马尼亚语 俄语 西班牙语 瑞典语

官方

以下内容均摘自论文《词形还原方法及实现工具比较分析》

词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。

现将共同点和联系总结为以下4方面:

目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干(stem)或原形的基础形式,都是一种对词的不同形态的统一归并的过程。

结果部分交叉。词干提取和词形还原不是互斥关系,其结果是有部分交叉的。一部分词利用这两类方法都能达到相同的词形转换效果。如“dogs”的词干为“dog”,其原形也为“dog”。

主流实现方法类似。目前实现词干提取和词形还原的主流实现方法均是利用语言中存在的规则或利用词典映射提取词干或获得词的原形。

应用领域相似。主要应用于信息检索和文本、自然语言处理等方面,二者均是这些应用的基本步骤。

二者的区别归纳为以下5方面:

在原理上,词干提取主要是采用“缩减”的方法,将词转换为词干,如将“cats”处理为“cat”,将“effective”处理为“effect”。而词形还原主要采用“转变”的方法,将词转变为其原形,如将“drove”处理为“drive”,将“driving”处理为“drive”。

在复杂性上,词干提取方法相对简单,词形还原则需要返回词的原形,需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂。

在实现方法上,虽然词干提取和词形还原实现的主流方法类似,但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减,从而达到词的简化效果。词形还原则相对较复杂,有复杂的形态变化,单纯依据规则无法很好地完成。其更依赖于词典,进行词形变化和原形的映射,生成词典中的有效词。

在结果上,词干提取和词形还原也有部分区别。词干提取的结果可能并不是完整的、具有意义的词,而只是词的一部分,如“revival”词干提取的结果为“reviv”,“ailiner”词干提取的结果为“airlin”。而经词形还原处理后获得的结果是具有一定意义的、完整的词,一般为词典中的有效词。

在应用领域上,同样各有侧重。虽然二者均被应用于信息检索和文本处理中,但侧重不同。词干提取更多被应用于信息检索领域,如Solr、Lucene等,用于扩展检索,粒度较粗。词形还原更主要被应用于文本挖掘、自然语言处理,用于更细粒度、更为准确的文本分析和表达

相对而言,词干提取是简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义。词形还原处理相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值。

java lucene词干提取_词形变换和词干提取工具(英文)相关推荐

  1. 词形变换和词干提取工具(英文)

    转载自: http://www.cnblogs.com/kaituorensheng/p/3437807.html 词形变换和词干提取工具(英文) 在信息检索和文本挖掘中,需要对一个词的不同形态进行归 ...

  2. java lucene 分词器_中文分词器—IKAnalyzer

    对于lucene自带分词器,没有一个能很好的处理中文的分词,因此,我们使用的分词的时候,往往会使用国人开发的一个分词器IKAnalyzer,使用非常简单,只需要将jar包拷入即可. 如果需要扩展词库或 ...

  3. java keytool生成证书_使用JDK自带的工具keytool生成证书

    1.以管理员身份,打开CMD命令窗口,输入如下命令,生成证书: Microsoft Windows [版本 10.0.17134.523] (c) 2018 Microsoft Corporation ...

  4. 波形包络提取与峰值提取_研究提出从地震噪声提取微弱体波信号探测下地幔散射体的方法...

    下地幔占地球体积近60%,在各种尺度上都表现出强烈的不均匀性.对下地幔不均匀体特别是小尺度散射体的分布.形态和性质的研究,可以为认识地球深部物质组成及相变.地幔流变性.地幔对流尺度.地幔混合效率等提供 ...

  5. java csv 双引号_你知道csv中如何输出英文双引号吗-百度经验

    再上一段希望生成上述csv的代码: package chapter4; import java.io.File; import java.io.FileWriter; import java.io.I ...

  6. java骨架_基于Mat变换的骨架提取Java

    针对一副二值图像,区域内的点只有背景点(白点,0值)和前景点(黑点,1值).对于给定区域的像素点逐次应用两个基本步骤,以提取骨架: step1,如果一个像素点满足下列4个条件,那么将它标记为要删除的点 ...

  7. 自然语言表达处理笔记01—— 1.正则表达式 2.文本标记化 3.词干提取和词形还原 4.中文分词

    正则表达式 正则表达式使用某种预定义的模式 匹配 具有共同特征的字符串:主要用于处理字符串.完成复杂的查找.替换等要求 对字符串和特殊字符操作的逻辑公式 单个字符串描述匹配一系列复合某个句法规则的字符 ...

  8. 自然语言处理——词性标注、词干提取、词形还原

    目录 词性标注 方法 工具 实例 词干提取和词形还原 算法 步骤 词性标注 一般而言,文本里的动词可能比较重要,而助词可能不太重要: 我今天真好看 我今天真好看啊 甚至有时候同一个词有着不同的意思: ...

  9. java 文本分析 关键词提取_文本关键词提取算法总结

    1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类.我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的 ...

最新文章

  1. 收购Deis之后,微软首次动作发布了Draft
  2. java怎么改变数据类型_java数据类型之间的转换,是怎么回事啊? - 收获啦
  3. Spring3.x与jdk8兼容问题
  4. eclipse运行WordCount
  5. 西安电子科技大学计算机全国排名第几,全国五所电子类高校排名,北京邮电大学排名第三...
  6. Java--FutureTask原理与使用(FutureTask可以被Thread执行,可以被线程池submit方法执行,并且可以监控线程与获取返回值)...
  7. Dockerfile构建PHP镜像
  8. 中文字符频率统计python_python统计字符串出现最多的字母及其出现次数
  9. 2018.09.19python学习第七天part1
  10. Linux C函数之文件及目录函数
  11. Spark调优 数据倾斜
  12. 世界各个地区WIFI 2.4G及5G信道一览表(附无线通信频率分配表)
  13. 理解Memory Barrier(内存屏障)
  14. 8 个你不知道的 DOM 功能
  15. 深度解析大快DKadoop大数据运维管理平台功能
  16. QIP.ru即时通讯服务3300万明文密码被泄
  17. yum clean all 是什么意思
  18. windows2012装sql 2000 sql 2005 vs2005的解决办法
  19. 分布式系统实践学习总结
  20. 基于C语言设计的植物大战僵尸小游戏

热门文章

  1. es文件管理器怎么运行html,es文件浏览器,教您如何使用es文件浏览器连接计算机...
  2. php给文章关键词加内链,WordPress 自动为文章标签关键词 (tag) 添加内部链接
  3. 34个获取设计灵感的好地方
  4. ssm项目模板_基于SSM的论坛系统发布可商业、学习、毕设
  5. Chrome浏览器如何设置代理?如何快速切换代理?
  6. 网易易盾验证码的安全策略
  7. 笔试强训day33(客似云来,剪花布条)
  8. 【AC自动机】[UESTC 554][USACO 2012]Video Game Combos
  9. CSS字体和文本的属性学习
  10. 【阿里云】如何使用阿里云搭建个人网站