nltk词性标注与词形还原中的词性类型匹配
一、两函数词性不匹配问题:
nltk中词性标注函数nltk.pos_tag([])得到的结果:NN,NNP,VB等
nltk中词形还原函数nltk.stem.WordNetLemmatizer().lemmatize('word')要求的参数是:a,n,v等
二、一种解决方案
两种词性类型的对照表如下:
——————————————————————————————————————
a(形容词)——JJ,JJR,JJS(形容词,比较级,最高级)
r(副词)——RB,RBR,RBS(副词,比较级,最高级)
v(动词)——VB,VBD,VBG,VBN,VBP,VBZ(动词,过去式,动名词,过去分词,非三单,三单)
n(名词)——NN,NNS,NNP,NNPS(NN表示常用名词,NNP表示专有名词,S表示单复数)
——————左边是词形还原要用到的类型,右边是词性标注得到的类型——————
代码实现上可以检查词性标注结果前面的部分:可以从上面观察到形容词都是JJ开头的,同时不存在其他J开头的词性,因此可以检查是否是J开头来判断词性。注意:R开头的还有一个RP(Particle 小品词)。
a——JJ(或者J)
r——RB
v——VB(或者V)
n——NN(或者N)
——————————————————————————————————————
三、代码
import nltk
aft_tk=['word','better','had'] #分词后的列表
nltk_pos_tagged = nltk.pos_tag(aft_tk)
wnl = nltk.stem.WordNetLemmatizer()
aft_lem = [] #词形还原后的列表
for pstg in nltk_pos_tagged:word,tag = pstgif tag.startswith('NN'):aft_lem.append(wnl.lemmatize(word,'n'))elif tag.startswith('JJ'):aft_lem.append(wnl.lemmatize(word,'a'))elif tag.startswith('VB'):aft_lem.append(wnl.lemmatize(word,'v'))elif tag.startswith('RB'):aft_lem.append(wnl.lemmatize(word,'r'))else :aft_lem.append(word)
print(aft_lem)
out:
['work','well','have']
四、附录
词性标注得到词性类型表:(27条消息) NLTK的词性_一只鸟的天空的博客-CSDN博客_nltk 词性https://blog.csdn.net/heyongluoyao8/article/details/43731743
词形还原需要词性类型表:利用如下指令查看:
help(nltk.stem.WordNetLemmatizer())
得到结果如下:
The Part Of Speech tag. Valid options are `"n"` for nouns,| `"v"` for verbs, `"a"` for adjectives, `"r"` for adverbs and `"s"`| for satellite adjectives.
Δ:这个satellite adjectives也不知道是什么东西
nltk词性标注与词形还原中的词性类型匹配相关推荐
- 中文分词工具jieba中的词性类型(转载)
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素.形容词代码为 a,语素代码g前面置以A. a 形容词 取英语形容词 adje ...
- 关于jieba中的词性类型整理
符号 词性 相关解释 Ag 形语素 形容词性语素.形容词代码为 a,语素代码g前面置以A. a 形容词 取英语形容词 adjective的第1个字母. ad 副形词 直接作状语的形容词.形容词代码 a ...
- 自然语言处理——词性标注、词干提取、词形还原
目录 词性标注 方法 工具 实例 词干提取和词形还原 算法 步骤 词性标注 一般而言,文本里的动词可能比较重要,而助词可能不太重要: 我今天真好看 我今天真好看啊 甚至有时候同一个词有着不同的意思: ...
- NLTK(3)处理文本、分词、词干提取与词形还原
文章目录 访问文本 @字符串处理 @编码 @正则表达式 分词 @正则表达式分词(不好) Tokenize命令 @自定义函数 规范化文本 将文本转换为小写 查找词干 @自定义函数(不好) NLTK词干提 ...
- NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet)、基于词汇层面的词法分析六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/拼写校正)的简介及其应用
NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet).基于词汇层面的词法分析(Lexical Analysis)六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/ ...
- 自然语言表达处理笔记01—— 1.正则表达式 2.文本标记化 3.词干提取和词形还原 4.中文分词
正则表达式 正则表达式使用某种预定义的模式 匹配 具有共同特征的字符串:主要用于处理字符串.完成复杂的查找.替换等要求 对字符串和特殊字符操作的逻辑公式 单个字符串描述匹配一系列复合某个句法规则的字符 ...
- Java基于stanford-corenlp实现英文词形还原
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 简介 stanford-corenlp jav ...
- 3.3.1-取词干和词形还原
目录 取词干和词形还原 取词干 实例 词形还原 取词干和词形还原 是词形归并. 目的:减少词的变化形式,将派生词转化为基本形式. 优点1:字典中词条的数量就会降低,用于表示文档的向量维度更低,模型的数 ...
- NLP5:NLTK词性标注
实验五 NLTK词性标注 一.实验内容 二.实验步骤 1.将字符串使用由标识符和标记组成的元组来表示 2.读入经过标注布朗语料库,并将单词的词性映射到简化的标记集. 3.统计布朗新闻语料库中词性的搭配 ...
最新文章
- 关于django 如何实现简单api的restful 接口
- 百度搜索结果 转换_百度搜索搜不到“百度拦截搜索结果”
- 如何判断LSTM模型中的过拟合和欠拟合 By 机器之心2017年10月02日 11:09 判断长短期记忆模型在序列预测问题上是否表现良好可能是一件困难的事。也许你会得到一个不错的模型技术得分,但了解
- tomcat启动成功 未加载项目_欣冠精密eHR系统项目成功启动
- 弹窗php整人_[整人小程序] 超级信息框(无限弹窗++)
- 财务部门:你需要多长时间才能够回答老板的这些问题?
- 利用SVN工具下载OpenCore代码
- 3485. 最大异或和
- pandas按照字典格式替换dataframe的值
- android.os.DeadObjectException的解决办法
- 步进驱动器简单接线说明书
- 营业执照在线生成_潍坊综合保税区发出全省首张覆盖四大市场主体类型的“微信秒批”营业执照...
- php对接V免签支付教程_Thinkphp开源版v免签支付系统支付宝/微信_免签约收款回调...
- [FSOD][笔记]Context-Transformer: Tackling Object Confusion for Few-Shot Detection(AAAI 2020)
- Rate This Topic
- Blender Benchmark测试
- 评测酷睿i5 12500h和i7 12650h差多少 i512500h和i712650h对比
- 关于ceph的一些问题及解决
- 面向对象编程(OOP)面向对象编程(OOP)
- HMAC和NMAC 生日攻击
热门文章
- jdk7和8的一些新特性介绍
- 近3000款长久未更新App或将被苹果下架
- Xz1 android p更新,终于等到:索尼XZ1/XZP港版正式推送Android 9.0更新
- python tkinter实现的文件夹下的excel表格汇总
- 【Python/工具】Pycharm中如何查看一个函数需要哪些参数
- Sobel算法优化 AVX2与GPU
- Python-编程例题
- 2022年,佳能中国坚持“单反、微单两手抓”
- Android开发之漫漫长途 XII——Fragment详解
- c语言设计知识,C语言程序设计的初步知识.doc