nltk之WordNet使用和synonyms
由于《Relation Classification via Convolutional Deep Neural Network》中使用了WordNet的上位词特征,所以也想自己实践一下。
1. 安装nltk
- 使用pip安装NLTK,代码如下所示(需要注意的是这只是第一步):
pip install nltk
- 得到NLTK的存储目录,代码和截图如下所示:
import nltk
print(nltk.data.path)
- 下载nltk_data压缩包,链接为https://download.csdn.net/download/herosunly/15683254,并将其解压到上述存储目录中的一个,如/home/anaconda3/nltk_data,则将nltk_data压缩包移动到/home/anaconda3路径(即上述某个路径的上一级路径)下,使用unzip命令进行解压,命令如下图所示:
unzip nltk_data.zip
2. 上位词
上位词(hypernym),指概念上外延更广的主题词。 例如:”花”是”鲜花”的上位词,”植物”是”花”的上位词,”音乐”是”mp3”的上位词。
from nltk.corpus import wordnet as wnhyper1 = wn.synset('apple' + '.n.01').hypernyms()
hyper1
结果如下所示:
[Synset('edible_fruit.n.01'), Synset('pome.n.01')]
代表的是上位词不一定只有一个,可能有多个,也可能没有(id)。
3. 安装synonyms
export SYNONYMS_WORD2VEC_BIN_URL_ZH_CN=https://gitee.com/chatopera/cskefu/attach_files/610602/download/words.vector.gz
pip install -U synonyms
python -c "import synonyms" # download word vectors file
如果是离线安装,下载路径为https://download.csdn.net/download/herosunly/15352347,请将下载后的文件放置于/root/anaconda3/lib/python3.6/site-packages/synonyms/data/words.vector.gz。
nltk之WordNet使用和synonyms相关推荐
- 如何解决 类似 nltk安装Wordnet出错[nltk_data] Error loading wordnet: <urlopen error [Errno 111] 问题
参考:https://blog.csdn.net/liu16659/article/details/109691534 最近想做一个NLP的数据增强,于是找到了 EDA: Easy Data Augm ...
- 使用nltk.stem.wordnet.WordNetLemmatizer()时报错BadZipFile(“File is not a zip file“)的解决方法
问题描述 nltk里有个库可以很方便的还原单词的root形式,调用方法如下: import nltk lem = nltk.stem.wordnet.WordNetLemmatizer() name ...
- nltk,wordnet安装时出现问题关于omw-1.4
把corpora里的omw文件重命名为omw-1.4(当时忘了截图了) 安装方法及链接https://blog.csdn.net/Charchunchiu/article/details/964367 ...
- Python 数据科学入门教程:NLTK
自然语言处理教程 原文:Natural Language Process 译者:飞龙 协议:CC BY-NC-SA 4.0 一.使用 NLTK 分析单词和句子 欢迎阅读自然语言处理系列教程,使用 Py ...
- wordnet python处理中文与英文
一.英文 1.安装nltk,导入Wordnet, Python版本3.5 from nltk.corpus import wordnet as wn 2.同义词集的定义 car.n.01 是car的一 ...
- 自然语言处理库——NLTK
NLTK(www.nltk.org)是在处理预料库.分类文本.分析语言结构等多项操作中最长遇到的包.其收集的大量公开数据集.模型上提供了全面.易用的接口,涵盖了分词.词性标注(Part-Of-Spee ...
- 离线安装NLTK工具包
以wordnet为例: 我想使用wordnet工具包,如果在代码中直接使用工具包会报错: ******************************************************* ...
- python情感分析预测模型_Python 使用 NLTK 实现简单情感分析--Twitter(推特)分析...
一.环境搭建 1.安装第三方包nltk pip intall nltk==3.4.5 2.安装 nltk_data nltk_data 存放了很多语料数据, 包括大量的数据集,本文中就是用到了其中的 ...
- 【汇总】nltk相关资源包无法下载报错问题
LookupError: **********************************************************************Resource xxx not ...
最新文章
- Eclipse上GIT插件EGIT使用手册之八_解决推送冲突
- C、C++语言容易出错的几个地方
- 树莓派学习——音频视频播放
- MyBatis的删除数据操作
- SQL 查找是否存在,别再 COUNT 了,很耗费时间的
- error C2018: unknown character '0xa1'解决方法
- 理论修炼之RabbitMQ,消息队列服务的稳健者
- Spring Resource接口获取资源
- 飞信php接口 web service
- JAVA 项目中使用 H2 数据库
- 2021-09-15小记西数3T蓝盘翻车
- Python爬虫入门(四):实战,爬取4399小游戏首页
- HR详谈求职简历筛选之道
- c语言中热河输入空格,热河 - 在線打字測試(dazi.kukuw.com)
- [c++]一个简单的NEAT机器学习寻路实验
- iphone外屏碎了多少钱_iPhone XS Max手机外屏碎了,官方更换外屏多少钱?
- Python str isdigit()方法
- 二维码彩色广告招牌的切割制作问题(C#.net下对彩色二维码圆角样式及改进)...
- 【漏洞复现-discuz-wooyun-命令执行】vulfocus/discuz-wooyun_2010_080723
- 2021计算机二级c语言报名,2021计算机等级考试报名入口