python 笔记:nltk (标记英文单词词性等)
1 单词切分
import nltkcontent = 'She sells seashells on the seashore. The seashells she sells are seashells, she is sure.'tokens = nltk.word_tokenize(content)
print(tokens)
#['She', 'sells', 'seashells', 'on', 'the', 'seashore', '.', 'The', 'seashells', 'she', 'sells', 'are', 'seashells', ',', 'she', 'is', 'sure', '.']
1.1 词性划分
pos_tags = nltk.pos_tag(tokens)
print(pos_tags)
'''
[('She', 'PRP'), ('sells', 'VBZ'), ('seashells', 'NNS'), ('on', 'IN'), ('the', 'DT'), ('seashore', 'NN'), ('.', '.'), ('The', 'DT'), ('seashells', 'NNS'), ('she', 'PRP'), ('sells', 'VBZ'), ('are', 'VBP'), ('seashells', 'NNS'), (',', ','), ('she', 'PRP'), ('is', 'VBZ'), ('sure', 'JJ'), ('.', '.')]
'''
1.1.1 词性表
2 词性还原
import nltk.stem as ns# 词型还原:复数名词->单数名词 ;分词->动词原型
lemmatizer = ns.WordNetLemmatizer()word = 'leaves'
# 将名词还原为单数形式
#'n'表示是一个名词(noun)
n_lemma = lemmatizer.lemmatize(word, pos='n')
print(n_lemma)
#leaf# 将动词还原为原型形式
#'v'表示是一个动词(verb)
v_lemma = lemmatizer.lemmatize(word, pos='v')
print(v_lemma)
#leave
python 笔记:nltk (标记英文单词词性等)相关推荐
- 使用Python+NLTK实现英文单词词频统计
使用Python+NLTK实现英文单词词频统计 使用PythonNLTK实现英文单词词频统计 应用场景 Fork Me 参考运行环境 流程步骤图 详细步骤 读取文件 过滤特殊符号以及还原常见缩写单词 ...
- 使用Python和NLTK的自然语言处理(NLP)教程
Natural language processing (NLP) is a branch of artificial intelligence that helps computers unders ...
- 自然语言处理(NLP)之英文单词词性还原
词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似. 简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同 ...
- 探索 Python、机器学习和 NLTK 库 开发一个应用程序,使用 Python、NLTK 和机器学习对 RSS 提要进行分类
挑战:使用机器学习对 RSS 提要进行分类 最近,我接到一项任务,要求为客户创建一个 RSS 提要分类子系统.目标是读取几十个甚至几百个 RSS 提要,将它们的许多文章自动分类到几十个预定义的主题领域 ...
- Python笔记(4) 关键字
Python笔记(4) 关键字 1. 关键字 2. True与False 3. None 4. and,or与not 5. assert 6. await与async 7. for/while,con ...
- Python笔记【八】
本文为博主原创,未经许可严禁转载. 本文链接:https://blog.csdn.net/zyooooxie/article/details/108095932 Python笔记的博客 很久很久很久没 ...
- python评论情感分析nltk_基于 Python 和 NLTK 的推特情感分析
基于 Python 和 NLTK 的推特情感分析 作者:宋彤彤 1. 导读 NLTK 是 Python 的一个自然语言处理模块,其中实现了朴素贝叶斯分类算法.这次 Mo 来教大家如何通过 python ...
- python笔记_第三周
python笔记_第三周 第十天 回调函数 回调函数就是一个被作为参数传递的函数把函数a当做一个值 赋值给函数b的形参, 在调用函数b的时候 在函数体内 适当的实际调用函数a, 这个函数a就是回调函数 ...
- 【Mo 人工智能技术博客】基于 Python 和 NLTK 的推特情感分析
基于 Python 和 NLTK 的推特情感分析 作者:宋彤彤 1. 导读 NLTK 是 Python 的一个自然语言处理模块,其中实现了朴素贝叶斯分类算法.这次 Mo 来教大家如何通过 python ...
最新文章
- Context.getExternalFilesDir()和Context.getExternalCacheDir()
- Scrapy框架的概念、作用和工作流程
- windows下硬盘安装mint10
- 编译原理练习题(第三章)
- 用WPF山寨折线图,抄?是狠狠的抄
- 2016-12-31:最后一天:回顾
- oracle中scn(系统改变号)
- BZOJ 2287 POJ Challenge 消失之物
- html阴影 渐变,CSS3:图层阴影及渐变
- 6.7开启Consul使用
- 字典生成_数据字典文档自成工具,一键生成,效率倍增
- MySQL中的四种Key
- 推荐一个互联网电子书免费下载网站
- Cts框架解析(19)-设备状态的分类以及恢复模式的分类
- 昨天买的电动车今天上牌了
- 全球搜索引擎Top10 可惜很多人只用过第四个
- java获取系统时间差_java获取系统时间与实际相差8小时的解决方法
- 【考研资料】计算机/软件各个大学的考研初试复试资料!附考研群!一直更新...
- oppo官解root,OPPO官解工具
- MATLAB/ArcGIS读取nc数据并进行可视化