转载自http://zhilun.me/106.html

词形还原和词干提取均是自然语言处理过程中的预处理阶段,它们通常在英文语系中使用,而在中文中一般不用这两种处理。

使用词形还原和词干提取的目的通常是为了减少词语因为时态,单复数和变形等对于处理精度的影响。

以词形还原为例,英语中,good, better, best是三个词,但是better和best可以通过good得到,在一些应用领域可以将better和best转换为good。通过词形还原后,形成的结果通常是一些基本的单词。

词干提取比较复杂,以英语为例,很多单词是以相同的词干加上后缀形成的,例如“ailiner”的词干为“airlin”,但是以“airlin”为词干的单词还有其他。而通过词干提取获取的词干通常不能形成具体的单词。
使用词形还原与词干提取预处理后的语料通常可以减少单词因时态,单复数,变形等造成噪音干扰,但是却并不是一定需要进行这样的处理,有的应用中即便是通过这样的处理对于精度提升几乎没有效果,反而还增加了系统的复杂度。

词形还原(lemmatization)与词干提取(stemming)的区别相关推荐

  1. java 分词获取词性,英文分词的关键:词性还原和词干提取

    人工智能时代,能让计算机自动化进行文字语义理解非常重要,因此,进行语义理解的第一步--如何正确地根据语义完成词语切分(即分词)就是一个非常具有挑战性的任务,一旦切词发生失误,会导致后续的文本处理产生连 ...

  2. 自然语言处理——词性标注、词干提取、词形还原

    目录 词性标注 方法 工具 实例 词干提取和词形还原 算法 步骤 词性标注 一般而言,文本里的动词可能比较重要,而助词可能不太重要: 我今天真好看 我今天真好看啊 甚至有时候同一个词有着不同的意思: ...

  3. 自然语言表达处理笔记01—— 1.正则表达式 2.文本标记化 3.词干提取和词形还原 4.中文分词

    正则表达式 正则表达式使用某种预定义的模式 匹配 具有共同特征的字符串:主要用于处理字符串.完成复杂的查找.替换等要求 对字符串和特殊字符操作的逻辑公式 单个字符串描述匹配一系列复合某个句法规则的字符 ...

  4. java lucene词干提取_词形变换和词干提取工具(英文)

    在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率.例如:词根run有不同的形式running.ran另外runner也和run有关.这里涉及到两个概念: 词 ...

  5. NLTK(3)处理文本、分词、词干提取与词形还原

    文章目录 访问文本 @字符串处理 @编码 @正则表达式 分词 @正则表达式分词(不好) Tokenize命令 @自定义函数 规范化文本 将文本转换为小写 查找词干 @自定义函数(不好) NLTK词干提 ...

  6. NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet)、基于词汇层面的词法分析六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/拼写校正)的简介及其应用

    NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet).基于词汇层面的词法分析(Lexical Analysis)六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/ ...

  7. 词形变换和词干提取工具(英文)

    转载自: http://www.cnblogs.com/kaituorensheng/p/3437807.html 词形变换和词干提取工具(英文) 在信息检索和文本挖掘中,需要对一个词的不同形态进行归 ...

  8. 3.3.1-取词干和词形还原

    目录 取词干和词形还原 取词干 实例 词形还原 取词干和词形还原 是词形归并. 目的:减少词的变化形式,将派生词转化为基本形式. 优点1:字典中词条的数量就会降低,用于表示文档的向量维度更低,模型的数 ...

  9. (1)英文分词——波特词干提取算法

    英文分词相比中文分词要简单得多,可以根据空格和标点符号来分词,然后对每一个单词进行词干还原和词形还原,去掉停用词和非英文内容.词干还原算法最经典的就是波特算法(Porter Algorithm官网ht ...

  10. Java基于stanford-corenlp实现英文词形还原

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 简介 stanford-corenlp jav ...

最新文章

  1. 程序人生【一些经典的资料】
  2. 对比DFT程序与FFT程序的效率
  3. Hadoop之Hadoop基础知识
  4. struts2 mysql 分页代码_Struts2 + MySQL 实现分页
  5. java runtime类高级,java入门 -- RunTime类
  6. vgh电压高了有什么_智能变频电源的功能是什么?
  7. .net core image怎么保存_轻量级Vue图片上传插件——Vue-core-image-Upload
  8. 华为Mate X2黄牛价已超两万,结果小伙子没拿稳,成全网首摔?
  9. matlab求解集合覆盖问题,Set Cover Problem (集合覆盖问题)
  10. 【渝粤教育】国家开放大学2018年春季 7392-21FMatlab语言及其应用 参考试题
  11. 计算机里找不到用户文件夹,电脑里没有appdata文件夹,c盘users文件夹可以删除吗...
  12. 计算机c盘变大,如何解决Win10 C盘空间越来越大的问题?
  13. A Game of Thrones(49)
  14. 淘宝、百度软件工程师们小调皮,各种霸气外漏
  15. 7种将字符串反转的 Java 方法
  16. cookie详解,即什么是cookie。
  17. Android在线工具
  18. 力天创见区域客流人数统计
  19. 【译】Rust 实现一个 DNS 客户端,我从中学到什么
  20. 网易我的世界java怎么开光追_《我的世界》如何开启光线追踪?

热门文章

  1. 26 JS常用数组方法Array对象内置方法——检索方法
  2. ISTP概况及网络版检索方法
  3. mset redis_Redis MSET 命令-Redis MSET命令详解教程-Redis MSET使用案例-嗨客网
  4. 计算机应用技术和it有什么区别,IT是程序员吗?IT究竟是什么意思?
  5. 矩阵和POJ 3233
  6. 用opencv压缩图片
  7. 大一新生c语言实验报告总结,实验报告总结
  8. 汽车芯片严重短缺,价格全线上涨,“缺芯”仍将延续
  9. 电子计算机的诞生与发展
  10. linux卸载windows boot,windows和Linux双系统卸载Linux系统