由于《Relation Classification via Convolutional Deep Neural Network》中使用了WordNet的上位词特征,所以也想自己实践一下。

1. 安装nltk

  1. 使用pip安装NLTK,代码如下所示(需要注意的是这只是第一步):
pip install nltk
  1. 得到NLTK的存储目录,代码和截图如下所示:
import nltk
print(nltk.data.path)

  1. 下载nltk_data压缩包,链接为https://download.csdn.net/download/herosunly/15683254,并将其解压到上述存储目录中的一个,如/home/anaconda3/nltk_data,则将nltk_data压缩包移动到/home/anaconda3路径(即上述某个路径的上一级路径)下,使用unzip命令进行解压,命令如下图所示:
unzip nltk_data.zip

2. 上位词

  上位词(hypernym),指概念上外延更广的主题词。 例如:”花”是”鲜花”的上位词,”植物”是”花”的上位词,”音乐”是”mp3”的上位词。

from nltk.corpus import wordnet as wnhyper1 = wn.synset('apple' + '.n.01').hypernyms()
hyper1

结果如下所示:

[Synset('edible_fruit.n.01'), Synset('pome.n.01')]

代表的是上位词不一定只有一个,可能有多个,也可能没有(id)。

3. 安装synonyms

export SYNONYMS_WORD2VEC_BIN_URL_ZH_CN=https://gitee.com/chatopera/cskefu/attach_files/610602/download/words.vector.gz
pip install -U synonyms
python -c "import synonyms" # download word vectors file

  如果是离线安装,下载路径为https://download.csdn.net/download/herosunly/15352347,请将下载后的文件放置于/root/anaconda3/lib/python3.6/site-packages/synonyms/data/words.vector.gz。

nltk之WordNet使用和synonyms相关推荐

  1. 如何解决 类似 nltk安装Wordnet出错[nltk_data] Error loading wordnet: <urlopen error [Errno 111] 问题

    参考:https://blog.csdn.net/liu16659/article/details/109691534 最近想做一个NLP的数据增强,于是找到了 EDA: Easy Data Augm ...

  2. 使用nltk.stem.wordnet.WordNetLemmatizer()时报错BadZipFile(“File is not a zip file“)的解决方法

    问题描述 nltk里有个库可以很方便的还原单词的root形式,调用方法如下: import nltk lem = nltk.stem.wordnet.WordNetLemmatizer() name ...

  3. nltk,wordnet安装时出现问题关于omw-1.4

    把corpora里的omw文件重命名为omw-1.4(当时忘了截图了) 安装方法及链接https://blog.csdn.net/Charchunchiu/article/details/964367 ...

  4. Python 数据科学入门教程:NLTK

    自然语言处理教程 原文:Natural Language Process 译者:飞龙 协议:CC BY-NC-SA 4.0 一.使用 NLTK 分析单词和句子 欢迎阅读自然语言处理系列教程,使用 Py ...

  5. wordnet python处理中文与英文

    一.英文 1.安装nltk,导入Wordnet, Python版本3.5 from nltk.corpus import wordnet as wn 2.同义词集的定义 car.n.01 是car的一 ...

  6. 自然语言处理库——NLTK

    NLTK(www.nltk.org)是在处理预料库.分类文本.分析语言结构等多项操作中最长遇到的包.其收集的大量公开数据集.模型上提供了全面.易用的接口,涵盖了分词.词性标注(Part-Of-Spee ...

  7. 离线安装NLTK工具包

    以wordnet为例: 我想使用wordnet工具包,如果在代码中直接使用工具包会报错: ******************************************************* ...

  8. python情感分析预测模型_Python 使用 NLTK 实现简单情感分析--Twitter(推特)分析...

    一.环境搭建 1.安装第三方包nltk pip intall nltk==3.4.5 2.安装 nltk_data nltk_data 存放了很多语料数据, 包括大量的数据集,本文中就是用到了其中的  ...

  9. 【汇总】nltk相关资源包无法下载报错问题

    LookupError: **********************************************************************Resource xxx not ...

最新文章

  1. Eclipse上GIT插件EGIT使用手册之八_解决推送冲突
  2. C、C++语言容易出错的几个地方
  3. 树莓派学习——音频视频播放
  4. MyBatis的删除数据操作
  5. SQL 查找是否存在,别再 COUNT 了,很耗费时间的
  6. error C2018: unknown character '0xa1'解决方法
  7. 理论修炼之RabbitMQ,消息队列服务的稳健者
  8. Spring Resource接口获取资源
  9. 飞信php接口 web service
  10. JAVA 项目中使用 H2 数据库
  11. 2021-09-15小记西数3T蓝盘翻车
  12. Python爬虫入门(四):实战,爬取4399小游戏首页
  13. HR详谈求职简历筛选之道
  14. c语言中热河输入空格,热河 - 在線打字測試(dazi.kukuw.com)
  15. [c++]一个简单的NEAT机器学习寻路实验
  16. iphone外屏碎了多少钱_iPhone XS Max手机外屏碎了,官方更换外屏多少钱?
  17. Python str isdigit()方法
  18. 二维码彩色广告招牌的切割制作问题(C#.net下对彩色二维码圆角样式及改进)...
  19. 【漏洞复现-discuz-wooyun-命令执行】vulfocus/discuz-wooyun_2010_080723
  20. 2021计算机二级c语言报名,2021计算机等级考试报名入口

热门文章

  1. CAN总线学习笔记 | CAN基础知识介绍
  2. 本地tomcat地址_Android服务器——TomCat服务器的搭建
  3. cosmos源码分析之一概述
  4. 微博股价一日暴涨25%的秘密:我不仅是Twitter,我还要做YouTube
  5. html css animate,animate.css
  6. 《AOC I2480SXHE 液晶显示器使用手册》摘录
  7. JAVA设计模式是个什么玩意儿_03_单例模式
  8. 【IT圈是个什么玩意儿】 目录索引
  9. Hadoop分布式系统集成架构
  10. SV学习笔记—数据类型