转载自: http://www.cnblogs.com/kaituorensheng/p/3437807.html

词形变换和词干提取工具(英文)

在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率。例如:词根run有不同的形式running、ran另外runner也和run有关。这里涉及到两个概念:

词形变化:把一个任何形式的语言词汇还原为一般形式。(比如:cats--->cat,did--->do)

词干提取:去除词缀得到词根的过程。(比如fisher--->fish,effective--->effect )

下面介绍几个用着不错的工具包:

词形变换

TreeTagger

TreeTagger可以分析出文本中单词的词性(pos)和词语原型(时态变换、单复数变换)

示例

Tom has left Beijing for about 100 days.

解析结果

注意

  • 不能解析的结果为<unknown>
  • 数字不能解析的结果为@card@
  • 可以处理的语言有英语、德语、法语

官网

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

使用(linux环境下)

下载工具包解压后进入目录cmd/,假设待处理的文件在“del”里,命令为

./tree-tagger-english del

词干提取

nltk.stem模块

很多词干提取是基于Porter词干提取算法写出来的。Martin Porter在2000年发布了一个基于该算法的官方版本的免费应用软件。他在自己的工作上进行延伸,建立了一个Snowball算法,是编写词干提取算法的框架,并实现了一个改良的英文词干提取器可以同时提取一些其他语言。[维基]

示例

注意

  • 提取的词干不一定正确,但是可以保证处理一致
  • 提取出来为万国码(u开头)
  • 支持语言:丹麦语 荷兰语 英语 芬兰语 法语 德语语 匈牙利语 意大利语 挪威语 波特语 葡萄牙语 罗马尼亚语 俄语 西班牙语 瑞典语

官方

http://nltk.org/api/nltk.stem.html

以下内容均摘自论文《词形还原方法及实现工具比较分析》

词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。

现将共同点和联系总结为以下4方面:

  1. 目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干(stem)或原形的基础形式,都是一种对词的不同形态的统一归并的过程。
  2. 结果部分交叉。词干提取和词形还原不是互斥关系,其结果是有部分交叉的。一部分词利用这两类方法都能达到相同的词形转换效果。如“dogs”的词干为“dog”,其原形也为“dog”。
  3. 主流实现方法类似。目前实现词干提取和词形还原的主流实现方法均是利用语言中存在的规则或利用词典映射提取词干或获得词的原形。
  4. 应用领域相似。主要应用于信息检索和文本、自然语言处理等方面,二者均是这些应用的基本步骤。

二者的区别归纳为以下5方面:

  1. 在原理上,词干提取主要是采用“缩减”的方法,将词转换为词干,如将“cats”处理为“cat”,将“effective”处理为“effect”。而词形还原主要采用“转变”的方法,将词转变为其原形,如将“drove”处理为“drive”,将“driving”处理为“drive”。
  2. 在复杂性上,词干提取方法相对简单,词形还原则需要返回词的原形,需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂。
  3. 在实现方法上,虽然词干提取和词形还原实现的主流方法类似,但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减,从而达到词的简化效果。词形还原则相对较复杂,有复杂的形态变化,单纯依据规则无法很好地完成。其更依赖于词典,进行词形变化和原形的映射,生成词典中的有效词。
  4. 在结果上,词干提取和词形还原也有部分区别。词干提取的结果可能并不是完整的、具有意义的词,而只是词的一部分,如“revival”词干提取的结果为“reviv”,“ailiner”词干提取的结果为“airlin”。而经词形还原处理后获得的结果是具有一定意义的、完整的词,一般为词典中的有效词。
  5. 在应用领域上,同样各有侧重。虽然二者均被应用于信息检索和文本处理中,但侧重不同。词干提取更多被应用于信息检索领域,如Solr、Lucene等,用于扩展检索,粒度较粗。词形还原更主要被应用于文本挖掘、自然语言处理,用于更细粒度、更为准确的文本分析和表达

相对而言,词干提取是简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义。词形还原处理相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值。

词形变换和词干提取工具(英文)相关推荐

  1. java lucene词干提取_词形变换和词干提取工具(英文)

    在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率.例如:词根run有不同的形式running.ran另外runner也和run有关.这里涉及到两个概念: 词 ...

  2. java 分词获取词性,英文分词的关键:词性还原和词干提取

    人工智能时代,能让计算机自动化进行文字语义理解非常重要,因此,进行语义理解的第一步--如何正确地根据语义完成词语切分(即分词)就是一个非常具有挑战性的任务,一旦切词发生失误,会导致后续的文本处理产生连 ...

  3. python英文文本分析和提取_英文文本挖掘预处理流程总结

    在中文文本挖掘预处理流程总结中,我们总结了中文文本挖掘的预处理流程,这里我们再对英文文本挖掘的预处理流程做一个总结. 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别.首先,英文文 ...

  4. python :中英文文本预处理(包含去标点分词词干提取)

    python :中英文文本预处理(包含去标点/分词/词干提取) 在做文本分析之前,一般我们都需要进行文本的预处理.这一步其实和做数据时的数据清洗非常的相像.在对文本进行清洗的时候,我们需要分成中文和英 ...

  5. 自然语言处理——词性标注、词干提取、词形还原

    目录 词性标注 方法 工具 实例 词干提取和词形还原 算法 步骤 词性标注 一般而言,文本里的动词可能比较重要,而助词可能不太重要: 我今天真好看 我今天真好看啊 甚至有时候同一个词有着不同的意思: ...

  6. (1)英文分词——波特词干提取算法

    英文分词相比中文分词要简单得多,可以根据空格和标点符号来分词,然后对每一个单词进行词干还原和词形还原,去掉停用词和非英文内容.词干还原算法最经典的就是波特算法(Porter Algorithm官网ht ...

  7. 自然语言表达处理笔记01—— 1.正则表达式 2.文本标记化 3.词干提取和词形还原 4.中文分词

    正则表达式 正则表达式使用某种预定义的模式 匹配 具有共同特征的字符串:主要用于处理字符串.完成复杂的查找.替换等要求 对字符串和特殊字符操作的逻辑公式 单个字符串描述匹配一系列复合某个句法规则的字符 ...

  8. NLTK(3)处理文本、分词、词干提取与词形还原

    文章目录 访问文本 @字符串处理 @编码 @正则表达式 分词 @正则表达式分词(不好) Tokenize命令 @自定义函数 规范化文本 将文本转换为小写 查找词干 @自定义函数(不好) NLTK词干提 ...

  9. NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet)、基于词汇层面的词法分析六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/拼写校正)的简介及其应用

    NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet).基于词汇层面的词法分析(Lexical Analysis)六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/ ...

最新文章

  1. Opera 60 正式发布,代号 Reborn 3
  2. Windows上使用gitbook制作电子书
  3. 反思供应链项目:实践出真知 多反思提升效率的方法
  4. OpenGL——使用Bresenham算法绘制圆
  5. java 生成正弦波声音_如何生成一个正弦波声音曲线?
  6. 【线上分享】华为云RTC服务架构及应用实践
  7. tcp选项部分编码_学习编码中最难的部分也是最有趣的部分
  8. linux ps 进程组,linux进程管理(2)---进程的组织结构
  9. HTML5游戏开发系列教程5(译)
  10. 如何看待Corona渲染器,它是否会影响国内vray渲染器的地位?
  11. python3使用MyQR库生成动态二维码
  12. nuxt坑:This relative module was not found:* ./film.vue?vuetype=styleindex=0id=a3b0cd06lang=scss
  13. mysql grant什么意思_MySQL grant 语法的详细解析
  14. [Fourier]傅里叶级数中虚数部分j去了哪里
  15. python二维列表每个子列表取一个元素的所有组合
  16. java实现-现奔跑吧小恐龙-小游戏
  17. 算法:URL短地址压缩算法-短网址映射。
  18. Mac OS中Git版本更新(亲测有效)
  19. 面试官:如何用a标签实现文件下载?(一文带你手撕知识点)
  20. 校园导航【河北大学】

热门文章

  1. mysql用户管理--密码管理
  2. ASTER文字识别详解
  3. DayDayUp:2021年的自我总结
  4. 大数据开发笔记(七):Kafka分布式流式处理
  5. 大数据分析的技巧有哪些
  6. 数据安全的四个新挑战有哪些
  7. arch linux u盘安装,安装 ArchLinux 到U盘(四)安装Archlinux
  8. c语言c99标准_从年薪10万到年薪30万,C语言程序员必读的5本书
  9. c语言结构体多次调用错误,C语言在使用中遇到了一个结构体赋值失败的问题?...
  10. mysql表的一列拆分成两列_将float值拆分成MySQL表的两列?