下面将包含以下的主题:词干提取器、词性还原、

一、形态学简介

形态学可以定义为在语素的帮助下对标识符的构成进行研究,语素是承载含义的基本语言单位。语素有两种类型:词根和词缀。

词根也被称之为自由语素,他们可以在不添加词缀的情况下而存在,比如unbelievable,这里的believe被称为词根,这里的un

和able被称为词缀

二、理解词干提取器

词干提取被定义为一个通过除单词中的词缀以获取词干的过程。以单词raining为例,词干提取器通过从raining中去除词缀来返回词根rain。

有几种返回词干提取器的方法:PorterStemmer()、LancasterStemmer()、RegexpStemmer()、SnowballStemmer()

import nltk
from nltk.stem import PorterStemmer
stemmerporter = PorterStemmer()
print(stemmerporter.stem('working'))
print(stemmerporter.stem('happiness'))

import nltk
from nltk.stem import LancasterStemmer
stemmerlan=LancasterStemmer()
print(stemmerlan.stem('working'))
print(stemmerlan.stem('happiness'))

import nltk
from nltk.stem import RegexpStemmer
stemmerregexp=RegexpStemmer('ing')
print(stemmerregexp.stem('working'))
print(stemmerregexp.stem('happiness'))
print(stemmerregexp.stem('pairing'))

import nltk
from nltk.stem import SnowballStemmer
print(SnowballStemmer.languages)
spanishstemmer=SnowballStemmer('spanish')
print(spanishstemmer.stem('comiendo'))
frenchstemmer=SnowballStemmer('french')
print(frenchstemmer.stem('manger'))

三、理解词型还原

import nltk
from nltk.stem import WordNetLemmatizer
lemmatizer_output=WordNetLemmatizer()
print(lemmatizer_output.lemmatize('working'))
print(lemmatizer_output.lemmatize('working',pos='v'))
print(lemmatizer_output.lemmatize('works'))

#词干还原和词型还原的区别

import nltk
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
stemmer_output=PorterStemmer()
print(stemmer_output.stem('happiness'))
lemmatizer_output=WordNetLemmatizer()
print(lemmatizer_output.lemmatize('happiness'))

四、为非英文语言开发词干提取器

Polyglot是一个提供被称作morfessor模型的软件,该模型用于从标识符中获取语素。在Polyglot的词汇帮助下,已经使用了涉及不同语言的50000个标识符的morfessor模型

python 自然语言处理 形态学相关推荐

  1. 《精通Python自然语言处理( Deepti Chopra)》读书笔记(第三章):形态学

    <精通Python自然语言处理> Deepti Chopra(印度) 王威 译 第三章 形态学:在实践中学习 3.1形态学简介 形态学可以定义为在语素的帮助下对标识符的构造进行研究. 语素 ...

  2. python自然语言处理书籍_精通Python自然语言处理pdf

    自然语言处理(NLP)是有关计算语言学与人工智能的研究领域之一.NLP主要关注人机交互,它提供了计算机和人类之间的无缝交互,使得计算机在机器学习的帮助下理解人类语言. 本书详细介绍如何使用Python ...

  3. 【Python自然语言处理】读书笔记:第五章:分类和标注词汇

    jupyter 版请见我的github:https://github.com/JackKuo666/Python_nlp_notes [Python自然语言处理]读书笔记:第五章:分类和标注词汇 本章 ...

  4. 精通python自然语言处理pdf_学习NLP《自然语言处理综论第2版》中文PDF+英文PDF+对比分析...

    对于从事自然语言处理.文本分析的专业人士来说,建议参考学习<自然语言处理综论第2版>.对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面 ...

  5. 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第05章 分类和标注词汇

    第05章 分类和标注词汇 5.1 使用词性标注器 5.2 标注语料库 表示已标注的标识 读取已标注的语料库 简化的词性标记集 名词 动词 形容词和副词 未简化的标记 探索已标注的语料库 5.3 使用P ...

  6. python自然语言处理_Python自然语言处理

    Python自然语言处理 作者:(印)雅兰·萨纳卡(Jalaj Thanaki) 著 出版日期:2018年08月 文件大小:30.79M 支持设备: ¥50.00在线试读 适用客户端: 言商书局 iP ...

  7. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:03 理解句子的结构

    03 理解句子的结构 3.1 理解NLP的组成 3.1.1 自然语言理解 3.1.2 自然语言生成 3.1.3 NLU和NLG的区别 3.1.4 NLP的分支 3.2 上下文无关文法 3.3 形态分析 ...

  8. python编程词典_编程字典-Python自然语言处理

    原标题:编程字典-Python自然语言处理 自然语言处理(NLP)是指使用诸如英语之类的自然语言与智能系统通信的AI方法. 当您希望像机器人这样的智能系统按照您的指示执行,当您想要听取基于对话的临床专 ...

  9. Python自然语言处理

    Python自然语言处理 作者:Steven Bird 出版时间:2014-07-01 出版社:人民邮电出版社

最新文章

  1. 软件架构师证书有用吗_健康管理师证书在求职时有用吗?
  2. Intellij Idea 导入多个maven项目展示在左侧栏Maven Projects
  3. 网络营销外包专员浅析网站网络营销外包如何快速获取关键词排名
  4. C# 给word文档添加水印
  5. python通过ip获取mac地址_通过IP或socket获取对方的MAC地址
  6. 905. 按奇偶排序数组
  7. java 不允许默认构造_java – 如何使用ObjectMapper去除/序列化不可变对象而不使用默认构造函数?...
  8. 一不小心节约了 591 台机器!
  9. 解决celipse中mybatis使用的时候xml没有提示的问题
  10. 考二级计算机专业哪个科目好,计算机二级考哪个科目比较好?
  11. python天天向上代码解析-python列表解析和生成器表达式
  12. 概念数据模型(CDM)、逻辑数据模型(LDM)、物理数据模型(PDM)区别以及哪些适合需求分析阶段的数据建模
  13. winedt103系统找不到指定文件_latex排版(CTeX winEdit输出“系统找不到指定的文件”的终极解决办法)...
  14. the system clock has been set more than 24 hours
  15. conda虚拟环境pip装包总装载总环境中解决办法
  16. 【STM32H743+腾讯云IOT联合开发入坑及出坑经验分享】
  17. 选择 DCIM 时需要注意哪些关键问题
  18. Python实现进制转换器
  19. 研究生学术与职业素养讲座答案 (十四讲之后)
  20. (7) SyGate 4.0实现局域网共享上网1

热门文章

  1. 多旋翼无人机组成(小白上路)
  2. 【读点论文】Detect Faces Efficiently: A Survey and Evaluations,关于人脸检测的思考,综述型文章
  3. Spring笔记上(基于XML配置)
  4. ChatGPT修bug横扫全场,准确率达78%!程序员要开心了
  5. ThinkPHP验证码错误解决过程
  6. 使用word绘制钟表刻度表盘
  7. linux swap逻辑 主,swap是主分区和是逻辑分区有什么差异么??
  8. springboot接口安全性_权限系统控制到按钮级别开源推荐 Spring Boot-Shiro-Vue
  9. zookeeper C API 完整运行实例
  10. springboot-莫名其妙的登录界面“Please sign in“