NLPPython笔记——WordNet
WordNet是一种面向语义的英语词典,由Princeton大学的心理学家、语言学家和计算机工程师联合设计。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。
NLTK库中包含了英语WordNet,里面共有155287个词以及117659个同义词集合。常用操作如下:
1. 加载wordnet
from nltk.corpus import wordnet as wn
2. 得到同义词集
wn.synsets('motorcar')
3. 同义词集的词条
wn.synset('car.n.01').lemmas()
4. 同义词集的词条名
wn.synset('car.n.01').lemma_names()
5. 同义词集的定义
wn.synset('car.n.01').definition()
6. 同义词集的使用例句
wn.synset('car.n.01').examples()
7. 同义词集的上位词
wn.synset('car.n.01').hypernyms()
8. 同义词集的下位词
wn.synset('car.n.01').hyponyms()
9. 同义词集的蕴含关系
wn.synset('walk.v.1').entailments()
10. 同义词集中词条的反义词
wn.lemma('supply.n.02.supply').antonyms()
11. 同义词集的深度
使用synset对象的min_depth方法来量化对象的普遍性概念,原理上其实在查找对象在层次结构所在的层次。
wn.synset('car.n.01').min_depth()
12. 两同义词集的相似度
使用synset对象的path_similarity方法可以测量两个同义词集间的路径长短,值得范围是0到1。路径越长,值越小;路径越短,值越大。两者之间没有路径时返回-1,与自身比较时返回1。
wn.synset('car.n.01').path_similarity(wn.synset('car.n.02'))
转载于:https://www.cnblogs.com/yucen/p/9343548.html
NLPPython笔记——WordNet相关推荐
- NLTK学习笔记(二):文本、语料资源和WordNet汇总
目录 语料库基本函数表 文本语料库分类 常见语料库及其用法 载入自定义语料库 词典资源 停用词语料库 WordNet面向语义的英语字典 语义相似度 语料库基本函数表 示例 描述 fileids() 语 ...
- Python自然语言处理笔记(一)wordnet相似度计算
wordnet 参考WordNet Python API (整理总结) wordnet简介 一个synset由lemma.POS.number组成,代表一个语义. 注意synset和synsets 的 ...
- visual-reasoning 笔记
目录 整理最近学习 visual-reasoning的笔记 1. 关注 ACL.EMNLP.NAACLI等会议文章 未开始 2. Cyc项目 2.1 cyc知识库介绍: 该知识库包含了320w条人 ...
- 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...
- “领域知识图谱的构建与应用”讲座学习笔记
知识图谱是一种基于先进信息技术的型语义工具,它以实体或概念为节点,通过语义关系连接成大规模语义网络,可以帮助机器或信息系统理解语义.组织知识.发现知识,从而为人们提供知识.情报的智慧搜索和智能交互. ...
- Python Text Processing with NLTK 2.0 Cookbook代码笔记
如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...
- 《知识图谱》赵军 学习笔记
知识图谱读书笔记 文章目录 知识图谱读书笔记 一. 概述 1.1 什么是知识图谱 1.2 知识图谱发展历程 1.3 知识图谱类型 1.4 知识图谱生命周期 知识体系构建 知识获取 知识融合 知识存储 ...
- 论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner
论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner 1. 文章简介 2. 文章背景 3. 文 ...
- 《计算传播学导论》读书笔记——第二章文本分析简介
<计算传播学导论>读书笔记--第二章文本分析简介 第一节 文本分析研究现状 常用文本挖掘技术 第二节 文本分析与传播学研究 (一)为什么文本挖掘技术逐渐受到传播学者的关注 (二)不同文本分 ...
最新文章
- IBM: 拆分瘦身,还有机会吗?
- python post有随机字符串_如何用python requests post一段字符串
- 基于小程序的Token身份权限体系
- Python-杨辉三角
- [导入]Visual Studio 2005 Team Edition软件架构系列课程(1): 概述
- 生产中k8s适合mysql_在K8S集群中构建复杂的MySQL单实例数据库
- c++ qt获取电脑的内存_QT开发(十四)——QT绘图系统
- Linux查ip出来的pp0,linux下使用shell查看apache IP访问量
- 文华软件怎样测试交易系统的收益,交易系统的测试与评估报告
- 书还没出,已经在chinapub被虐了
- 51单片机 1.概述及点灯测试
- c语言头文件相互包含的后果,C语言头文件相互包含的问题
- 令牌桶限流-java实现
- 从周鼎看如何当好研究生
- ❌ Exiting due to GUEST_PROVISION: Failed to cache ISO: unable to cache ISO:
- 如何看计算机加密方式,电脑常见的几种加密的方法
- 沃丰科技AI助力客户服务数字化转型加速
- HTML中的盒子模型
- ASEK711KLC-25AB-T霍尔效应线性电流传感器SOIC8
- 英文单词cipher 和password的区别,用法有什么不同,
热门文章
- 鼠标右键 移动选定的文件夹到指定位置_怎么把电脑桌面上的文件移动到更加安全的地方...
- php前台用户权限开通,vue实现网站前台的权限管理
- java 分贝_java11教程--jhsdb命令
- webase crud查看所有表_Laravel-Gii 可视化代码生成工具 CRUD +GUI
- java timezone id_java.util.TimeZone.setID()方法实例
- VMware14.0 安装 CentOS7.2
- python 子图大小_Python | 图的大小
- kotlin获取属性_Kotlin程序获取系统MAC地址
- 第六章至第九章的单元测试
- 04-图像的阈值操作