什么是HowNet

HowNet是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念[1]。

HowNet秉承还原论思想,认为词汇/词义可以用更小的语义单位来描述。这种语义单位被称为“义原”(Sememe),顾名思义就是原子语义,即最基本的、不宜再分割的最小语义单位。在不断标注的过程中,HowNet逐渐构建出了一套精细的义原体系(约2000个义原)。HowNet基于该义原体系累计标注了数十万词汇/词义的语义信息。

例如“顶点”一词在HowNet有两个代表义项,分别标注义原信息如下,其中每个“xx|yy”代表一个义原,“|”左边为英文右边为中文;义原之间还被标注了复杂的语义关系,如host、modifier、belong等,从而能够精确地表示词义的语义信息。

在NLP领域知识库资源一直扮演着重要角色,在英语世界中最具知名度的是WordNet,采用同义词集(synset)的形式标注词汇/词义的语义知识。HowNet采取了不同于WordNet的标注思路,可以说是我国学者为NLP做出的最独具特色的杰出贡献。HowNet在2000年前后引起了国内NLP学术界极大的研究热情,在词汇相似度计算、文本分类、信息检索等方面探索了HowNet的重要应用价值[2,3],与当时国际上对WordNet的应用探索相映成趣。

深度学习时代HowNet有什么用

进入深度学习时代,人们发现通过大规模文本数据也能够很好地学习词汇的语义表示。例如以word2vec[4]为代表的词表示学习方法,用低维(一般数百维)、稠密、实值向量来表示每个词汇/词义的语义信息,又称为分布式表示(distributed representation,或embedding),利用大规模文本中的词汇上下文信息自动学习向量表示。我们可以用这些向量方便地计算词汇/词义相似度,能够取得比传统基于语言知识库的方法还好的效果。也正因为如此,近年来无论是HowNet还是WordNet的学术关注度都有显著下降,如以下两图所示。

阅读原文

AAAI、IJCAI和ACL录用三名清华本科生成果,华人NLP最杰出HowNet成功融入DL模型相关推荐

  1. 15 位学神争霸!2019 清华本科生特奖答辩入围名单公布

    点击上方"视学算法",选择"星标"公众号 重磅干货,第一时间送达 本文转自 | 新智元 来源:清华小五爷园.知乎等 编辑:小芹 清华大学公布了2019 年清华本 ...

  2. 学神争霸!2019清华本科生特奖答辩入围名单公布

      转载于 新智元   来源:清华小五爷园.知乎等 编辑:小芹 清华大学公布了2019 年清华本科生特奖答辩入围名单,一共15名候选人入围,包括电子系成大立.计算机系高天宇.自动化系赵文亮.软件学院游 ...

  3. 清华本科生最高荣誉:图说十年特奖得主(附历年名单)

    来源:清华小五爷园 本文多图,建议阅读8分钟. 最近十年清华本科特奖获奖者,你想知道的,都在这里. 在过去10年的79位本科特奖得主中,有50位来自工科院系,12位来自理科院系,17位来自文科院系. ...

  4. 计算机专业高校鄙视链,清华大学“鄙视链”,本科生看不起研究生?本科非清华不算清华人...

    原标题:清华大学"鄙视链",本科生看不起研究生?本科非清华不算清华人 文/跳跳妈妈谈教育 清华北大是我国两所最高学府,是所有莘莘学子梦寐以求的高校,不过清北可不是你想考就能考上的, ...

  5. 清华本科生0人去阿里,交叉信息院硕士没人再深造

    本文转载自 量子位,作者 金磊,杨净 这几天,<清华大学2020年毕业生就业质量报告>火了. 于是,我们也下载下来"拜读"了一下. 就业率.毕业去向.就业地域等等信息看 ...

  6. 清华大学 2020 年毕业生就业质量报告!清华本科生 0 人去阿里,交叉信息院硕士没人再深造...

    点击上方"码农突围",马上关注 这里是码农充电第一站,回复"666",获取一份专属大礼包 真爱,请设置"星标"或点个"在看&quo ...

  7. CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:于旭敏   |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu. ...

  8. 2022年顶会accepted papers list(NeurIPS/CVPR/ICML/ICLR/ECCV/AAAI/IJCAI/WWW...)

    Accepted papers list(2022.11.05) 2022年顶会已全部更新 AAAI 2022 :https://dblp.uni-trier.de/db/conf/aaai/aaai ...

  9. 2017清华本科生特等奖得主出炉,AI学霸乔明达获奖

    说到学霸,今天偶然瞥见一条新闻,"清华"."本科生"."特等奖"--这是什么东东?虽然抱着内心会受到一万点伤害的危险,营长还是果断地点开了链 ...

  10. 姚班代有才人出:清华本科生用“最简单的形式”,大幅提高少样本学习性能...

    鱼羊 十三 发自 凹非寺 量子位 报道 | 公众号 QbitA 仅仅根据元学习(Meta-Learning)的基线,就彻底打败了所有"花里胡哨"的改进方法. 就是这些看似简单,又容 ...

最新文章

  1. BZOJ 3597 SCOI2014 方伯伯送椰子 网络流分析+SPFA
  2. IIS日志分析方法及工具
  3. MFC中动态创建控件及添加消息响应的方法实例
  4. 你一写长文章就焦虑拖延?
  5. MySQL的未来在哪?
  6. (十三)linux中断底半部分处理机制
  7. ramfs, rootfs and initramfs
  8. 蓝桥杯 BEGIN-1 入门训练 A+B问题
  9. [转载] Python: ljust()|rjust()|center()字符串对齐
  10. python去除读取文件中多余的空行
  11. SYNwall:零配置物联网防火墙
  12. 电子电工产品IP防水测试及测试设备
  13. 药企常用计算机化系统,基于GAMP5的我国制药企业计算机化系统验证的应用研究.pdf...
  14. 使用d3.js绘制曲线图
  15. 实体认证与身份识别概述
  16. 智能手机也是一种计算机对不对,介绍手机内存的新闻,我转的,对不对不要喷啊...
  17. 请确认计算机上的无线网络已启用,电脑显示已连接无线网络却上不了网
  18. MFC下改变窗口或编辑框标题字体大小的方法
  19. 无迹卡尔曼滤波(UKF)超详细解释
  20. 基于CNN的2D多人姿态估计论文综述

热门文章

  1. 如何做好离职交接工作?
  2. 暴风转码转超清文件_暴风影音16破解版下载-暴风影音16多开精简版(附怎么用) v9.4.1029.1111...
  3. java贪吃蛇代码_java贪吃蛇游戏实现代码
  4. nero刻录软件中文版|nero express刻录软件 (附教程)
  5. simotion基本功能手册_深入浅出西门子运动控制器——SIMOTION实用手册(1CD)
  6. 晶振为什么不封装进芯片内部?
  7. Java网络编程入门(软件结构、网络通信协议、网络编程三要素)
  8. Valine-1.4.4新版本尝鲜+个性制定(表情包、qq头像、UI样式)
  9. 信息系统分析与设计课程心得
  10. Loadrunner破解版安装