中文 NLP(7) -- CTB语义组块说明
标注 | 英文说明 | 中文说明 |
ADJP | Adjective phrase | 形容词短语 |
ADVP | Adverbial phrase headed by AD | 由副词开头的副词短语,状语 |
CLP | Classifier phrase | 量词短语 |
CP | Clause headed by C | 由补语引导的补语从句,关系从句 |
DNP | Phrase formed by "XP+DEG" | XP + DEG 结构构成的短语 |
DP | Determiner phrase | 限定词短语 |
DVP | Phrase formed by "XP + DEV" | XP + DEV 结构构成的短语 |
FRAG | fragment | 片段 |
IP | Simple clause headed by I | 简单句 |
LCP | Phrase formed by "XP + LC" | 处所词为中心语的短语 |
LST | List marker | 用于解释说明性的列表标记短语 |
NP | Noun phrase | 名词短语 |
PP | Preposition phrase | 介词短语 |
PRN | Parenthetical | 插入语 |
QP | Quantifier phrase | 数词短语 |
UCP | unidentical coordination phrase | 非一致性并列短语 |
VP | Verb phrase |
并非所有的短语类型都能作为语义组块。其中 IP 和 CP 为简单句和从句语法块,改组块本质上是一个完整的句子。几乎所有的 CLP 都是 QP 的一个子集,FRAG 是由若干个词汇构成的一个集合,其不属于句子的范畴,不能作为组块来分析。LST 和 UCP 同样也不能作为语义组块分析。
因此,剩下的短语类型包括:ADJP / ADVP /DNP/ DP/ DVP/LCP/ NP/ PP /PRN/ QP / VP 这 11 种。
(1)NP:中心词为名词的短语
1.1 名-名复合词,连续的 NN 词性构成的复合词被括号括起来作为 NP ,通常来说最后一个 NN 是中心语。“纺织 | 工业”
1.2 词级并列结构,该名词复合结构由两部分组成,左侧为并列结构的名词短语,右侧为一个名词或符合名词。 NP-NP
“改革 |和| 解困方面”、 “能源、| 通信等城市基础设施”
1.3 由NR(专有名词)加上一个或多个 NN 组成的新的专有名词。“深圳 | 控股” “中国 | 机械工业部” “周 | 先生”
1.4 。。。。
(2)VP:以动词为中心的短语
2.1 复合动词搭配。 “开发 建设”
2.2 动趋词:“下降到 。。。”
2.3 动词 +体标记 “得” “坚持了” “ 意味着”
2.4 A 不 A A-A 以及变种 V 不 V V得V “能不能” “打不赢”
2.5 。。。。
(3)DP:限定词,一般用于修饰 NP 或者 限定 QP “任何” “全体”
(4)ADJP:形容词短语,由 JJ 投射得到 , “大型会议”,“若干规定”,“不完全统计”
(5)DNP:由多种类型的短语加上 (DEG)构成,它们总是出现在 NP 的上下文中。“张三 的/DEG 书” —DNP
(6)ADVP:副词短语 “努力/AD 参与/VV” —ADVP
(7)PP:介词短语 “仅在/P 一九九九年” —PP
(8)LCP:处所词为中心的短语 “传说/NN 中/LC” —LCP
中文 NLP(7) -- CTB语义组块说明相关推荐
- 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019
作者| Yuxian Meng.Xiaoya Li.Xiaofei Sun.Qinghong Han.Arianna Yuan. Jiwei Li 译者 | Rachel 责编 | Jane 出品 | ...
- 中文 NLP 工具总结
文章目录 中文 NLP 工具总结 1. Jieba 分词 1.1 简介 1.2 模型原理 1.3 安装 1.4 使用 1.5 分词评测 2. pyltp--哈工大 2.1 简介 2.2 模型原理 2. ...
- 直播回顾 | 最强中文NLP预训练模型艾尼ERNIE官方揭秘
允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI "最近刚好在用ERNIE写毕业论文" 看了上面热火的讨论,你一定很好奇"艾尼"."ERNI ...
- 独家揭秘!史上最强中文NLP预训练模型 | 直播报名中
编辑部 发自 凹非寺 量子位 报道 | 公众号 QbitAI 随着AI的快速发展,相信"深度学习"对大部分人来说已经不是一个陌生的概念了.通过深度学习,计算机能够在围棋.电子竞技 ...
- 最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源
铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...
- 这群工程师,业余时间将中文 NLP 推进了一大步
内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几个项目. 关键 ...
- 专访香侬科技:致力于让世界听到中文NLP的声音
像所有的创业者一样,香侬科技的初创团队胸怀梦想,期待有一天当人们提起香侬的时候,除了"信息论之父",还能想起来有一家用技术在链接大千世界的科技公司--香侬科技. 新生的香侬科技选择 ...
- TechDay实录|摘取皇冠上的明珠,中文NLP的不二选择——PaddlePaddle
NLP (Natural Language Processing)自然语言处理是人工智能的一个子领域,它是能够让人类与智能机器进行沟通交流的重要技术手段,同时也是人工智能中最为困难的问题之一.因此,N ...
- 【研究生】横扫13项中文NLP任务:香侬科技提出汉语字形表征向量Glyce+田字格CNN...
选自arXiv 作者: Wei Wu.Yuxian Meng等 转载于 机器之心 最近,香侬科技发表研究,提出了一种汉语字形向量 Glyce.该研究基于汉字的进化过程,采用多种汉字古今文字和多种书写风 ...
最新文章
- python神秘的魔法函数_Python魔法函数
- Golang+Python 实现安全动态开机密码+服务器存储
- TCP/IP、 IPX/SPX、 NetBEUI、 AppleTalk协议
- Date 和 SimpleDateFormat 类表示时间
- 巧用脚本为木马“整容”
- Vue 页面如何利用生命周期函数监听用户预览时长
- 5月份 Github 上最热的十个 Python 项目,从Debug工具到AI水军、量化交易系统。
- 数据绑定 单个对象和集合绑定差异
- 上海淘财经网要道歉客户的信
- SQL-用JOIN连接多个表
- python请编写程序、生成随机密码_python习题:登录注册小程序(用户名密码存在文件中)、生成随机密码小程序...
- 如何形成自己的的绘画风格?/ Bookness插画教程分享
- CS144 Lab1:StreamReAssemer
- Image data of dtype object cannot be converted to float 问题解决
- ZOJ3551 Bloodsucker(概率dp)
- 习题:求1-n的阶乘之和,用一个非递归函数fac(n)求n!,n的值由主函数输入,最终得到的结果在主函数中输出。
- SaaS平台产品架构设计
- visio版本要和word匹配吗_office2016各个版本 以及 解决visio搜索任何都提示无匹配项问题...
- Pois-son blending
- 【已解决】Tortoise Git在Windows文件资源管理器中图标显示异常问题