前言:中文树库的设计问题

1. 语言的复杂性。中文树库等带注释的文本语料库所需的语言复杂程度与语料库的目的密切相关。由于树库的目的是提供一个工具来训练信息处理工具,如POS标记器和解析器,我们力求为我们所选择的文本提供坚实的语言学分析,基于当前对汉语句法的研究以及参与该项目的人员的语言专业知识。然而,提供当前语言文献中常见的高度复杂的树是不切实际的,我们也不能声称我们可以为语料库中的每个句子提供正确的分析。结果是语言正确性和工程便利性之间的折衷。下面的树展示了一个对简单句子 ‘They seem to understand' 的分析,这个分析在当今语言文献中被广泛接受。想象一下,这如何应用于新华社如此频繁出现的多行句子! 因此,我们为我们的树库采用了一个大大简化的注释模式。

2. 一致性。毫无疑问,一致性是设计语料库时最重要的考虑因素之一。理想情况下,注释者在多次注释同一文本时应始终给出相同的分析,而当将同一文本赋予不同的注释者时,应以完全相同的方式进行注释。许多事可以被做来保证一致性,其中一条是确保指南是明确的,具体的,一致的。这意味着,当我们定义不同的语言结构时,我们会尽可能提供干净、可靠的诊断测试。要求注释者根据微妙或模糊的标准确定结构是在要求不一致。我们还尝试确保指南涵盖语料库中可能出现的所有可能结构,以便注释者不需要自己进行分析。我们为确保一致性所做的另一件事是避免歧义,即一个句子有多个分析的可能性。例如:

可以在 e-1 或 e-2 中合理地分析差距(即主题位置),语义差异很小。在这种情况下,我们指定差距应始终在 e-1

3. 这对中文来说是独一无二的挑战。要达到语言的复杂性和一致性这一有时相互矛盾的目标是非常困难的。由于汉语缺乏形态学线索,这一任务变得更加复杂。语言学家们主要依靠两种证据来确定一种语言(如英语)中的短语或句子的句法结构:形态信息(如词形变化)和分布信息(如词序)。在汉语中,我们基本上只剩下词序了。这有很大可能会造成歧义—即对一个句子会有多种分析。在这种情况下,我们试图弄清楚什么是我们最喜欢的分析。例如,中文句子

在英文中等同于两个句子:“I asked him to come" 或 ”I asked that he come“。在英文中,借助补语(that),动词形态(-ed, to),格标(he vs. him),区分它们的任务是简单的的。在汉语中,我们规定在其他条件相同的情况下,我们总是选择第二种分析。

4. 理论上的中立。另一个期望的目标是理论上的中立。显然,我们希望这个语料库能在不断变化的句法理论中生存下来。然而我们认识到理论中立性是一个受不同解释制约的理想。我们的方法是尝试在理论框架和理论构建的安全假设基础上构建语料库,这些理论框架和理论构建已经存在了一段时间,并且已经被证明是可靠的。政府和约束理论的影响在我们的语料中很明显,我们尽量不采用整套方案。相反,我们试图确定并采用GB中争议最小的假设。例如,我们采用了每个短语都有一个标题决定其分类地位的假设,但总体上没有考虑汉语的格理论含义。我们觉得案例理论对于像汉语这样缺乏明显的案例标记的语言来说太微妙了,不能在一致的基础上应用于任何重要的语料库。

5. 普遍性。还有一个目标是达到一定的通用性,以便扩展到其他的数据。为此,我们尽量不局限于手头的数据。相反,当我们试图对语料库中的一个句子进行分析时,我们并不是为了覆盖这个句子而进行分析。相反,我们试图检查整个例子的范例,这些范例与分析问题的句子有关。然而,我们明白我们不可能涵盖所有已经产生的中文文本,因此,我们不会考虑与我们手头工作完全无关的句子。

6. 原则性。我们试图通过使用一套有限的基本的语法关系来指导我们的语料库,以确保我们的语料库是有原则的。我们坚持这样的规则:在可能的情况下,一个括号应该代表一个语法关系。原则的对立面是任意性。将任意性发挥到极致意味着括号是随机分配的,没有任何特别的原因,这样的语料库用处不大。我们也相信有原则的指南会帮助建立一致性。

第一章:概述

1.  汉语树库中的基本语法关系

本节概述了中文树库中的基本语法关系。形式结构属性用括号和结构标签(如NP、VE)表示,功能属性用功能标签(或破折号)表示,如-ADV、-TMP和-SBJ。结构表征是树库研究的主要目标,构成了对汉语各种填词结构的句法分析。功能表征可以被看作是次要的,因为它们有助于解决(功能形式)差异,并标记语言学分析的非结构方面,如主题角色。因此,它们是区分同一句法范畴功能的一种机制。例如,一个PP,取决于它在哪里使用以及它是什么,可以指示位置、时间、范围等等。

在这个树库中有六种主要的语法关系。从结构上表现互补、附加和配合;谓语、修饰和并列以非构型方式表示。

1.1 用功能标签以非配置方式表示的语法关系

1.1.1 述谓成分

述谓成分是主语和谓语之间的关系(可以是主题和评论之间的关系等等,但是在这个指南中,我们只指主体和谓语之间的关系)。述谓成分以非配置的方式表示,方法是在IP级将功能标签-SBJ附加到主语上;当谓词不是VP时,将功能标签-PRD添加到谓语上;如果谓词是VP,将指示主题角色的功能标签附加到作为动词补语的参数(-OBJ,-EXT等)。因为VP总是谓词,-PRD 是被假定的并且没有附加功能标签。

1.1.1.1 主语

虽然主语可以是短语,大多数主语情况下主体是NP:

1.1.1.2 谓语

谓语必须满足一个标准,即它是可被怀疑的和可被否定的。当谓语是 VP 时,这是显而易见正确的。然而,当谓语不用动词时时,可疑性和可否定性是有用测试以确定特定字符串是谓词还是修饰语。例如, 在”他家有三口人“句子中,”三口人“是谓词而不是修饰语因为他在系动词”是“的帮助下是可怀疑的和可否定的。

1.1.1.2.1 非动词作谓语

中文中可能的非动词作谓语有NPs,QPs和PPs。他们出现在当没有动词出现或者动词是系动词“是”的情况下。当没有动词出现时,就假定存在一个空动词,它将 VP 层投影到谓词外部:

在这种情况下,谓语是QP。当谓语是非动词时,附件成分被附加在VP层。

NP作谓词:

VP不是谓语的另一种情况是当动词是系动词“是”。在这种情况下, “是”后面的NP部分为谓词。“-PRD”附加到NP谓词。

1.1.1.2.2 动词作谓语

当谓语是VP时,VP通常由动词及其参数构成。我们自动地假设最低级别的 VP 是谓词,因此不讲标签-PRD分配给它。但是,VP的每一个参数都会收到一个破折号标签。

当有多个连续的VP层时,谓语是最低层的VP。当谓语动词上方有情态动词时,会发生多个连续的 VP 层的情况:

在上面的例子中,最底层的VP (VP 参加 会议)是谓语。下面是对这个动词可能的参数的预览。关于动词可以使用的参数类型的更详细说明,请参阅第四节。

VP谓词的参数:

为了确定谓词的参数结构,我们需要知道:

(a)谓词的参数个数。参数和非参数的区别是参数是必要的,而非参数是可选的。这种区别只在句子方面有意义,即省略一个成分是否导致句子不完整。然而,这有时并不简单。我们应该小心区分有修饰语的动词和有多个意义的动词同时每种意义都采用不同数量的参数,例如“吃”,“饭“不能作为吃的修饰语,尽管没有它这个句子依然是符合语法的。一个经验法则是,在汉语中,动词后成分通常是论点,而动词前成分通常是辅助词和修饰语。我们规定这个是为了让注释者更容易做出判断。例如:

“张三”和“李四”参数因为句子如果缺少了他们会不完整。“昨天”是非参数因为它的缺失和存在不会影响句子的语法结构。中文允许参数删除,这使得从修饰语中区分参数的任务更加困难

(b)一个规范框架,其中根据谓词分配参数。出于本指南的目的,我们假设“深层结构”中的汉语参数顺序是 SVO,即在谓语有两个参数的句子中,规范顺序是主谓宾语。例如:

”张三“是主语,”李四“是宾语

虽然上面的例子是一个完美的中文语法句子,但我们认为这是从规范顺序 SVO 派生出来的。我们不以此作为证明中文也是 OSV 语言的证据。请注意,这两个句子是相关的,因为它们具有相同的基本主题结构。在每一个例子中,”张三“是实施方,“李四”是接受方。我们不考虑“李四打了张三”是一个相关的句子,因为潜在的主题结构已经改变。在这个句子中,“李四”是实施方,“张三”是接受方。只有当两个表面结构共享代表相同主题关系的相同深层结构时,从另一个结构中推导出一种结构才有意义(在严格的技术意义上,我们不应该说从另一种结构中推导出一种结构。相反,它们是源自同一个抽象深层结构的两个表面结构,一个编码主题关系的句法表示级别)

同样,在一些受限环境中,SOV表面结构也被允许:

在这种情况下,“做完”被理解为主题,“张三”是实施方。在这种情况下,主题不会映射到动词后宾语位置像“李四”在“张三打了李四”句子中一样。相反,它出现在动词之前。与其说中文也是一种SOV语言,不如把它看成是从D-structure派生出来的。“张三做完了作业”,“作业”被置于动词前(焦点话题)位置。通过这种方式,我们能够保持汉语本质上是 SVO 的概括。这也反映了母语者的直觉,即前置宾语永远是句子的焦点。

综上所述,述谓成分是通过在主语上附加破折号来表示的,当它不是动词短语时附加在谓词上,当它是动词短语时附加在谓词的参数上

1.1.2 同位语

同位词只能在 NP 中找到。在结构上它是 NP-NP 或 S-NP 的并列。

从表面上看,这看起来类似于第一个名词修饰第二个名词的名词-名词复合词。 但是,它们的不同之处在于(1)在同位关系中,第一个NP和第二个NP大致指的是同一个实体,而在名词-名词复合中则不是这种情况; (2) 名词-名词复合中的修饰名词不能通过带形容词修饰语投射到NP,因此它是一个词级范畴,而同位结构中的两个中心名词都投射到完整的短语中。

在同位体是IP或CP的情况下,表面上IP-NP或CP-APP与相关结构相似。 同位从句与关系从句的不同之处在于后者而不是前者有一个与NP相关的间隙。

这里有几件事要注意。 (1) CP 和 IP 都可以是头部 NP 的同位词。 在结构上,它们与 NP 的其他修饰语没有区别,可以被视为一种特定类型的修饰语。 (2)虽然中心名词(NN 格局)不带补语,它加上修饰语(NN 总体)后可以投射到NP层。

1.1.3 修饰语

修饰语是通过在附件上附加破折号标签来表示的,只要可以清楚地识别修改类型。 这主要是在 VP 和 IP 级别完成的,其中附加了带有破折号标签的修饰符(例如 -TMP、-SRC、-DIR)

(a) VP 级:

(b) IP 级:

结构上的修饰语总是连在一起,但单独的连词不能完全代表修饰,因为同位词、主语和其他说明符也连在一起。 修饰用附加词顶部的非配置破折号表示。

1.2 用括号和类别标签配置表示的语法关系

1.2.1 补语

补语表示为头补语关系。 中心词和补语是同级的,同级附属,中心词是词级范畴,而补语是词组,词组当然也可以有中心词和补语。我们通过不加括号和未标记的头部来区分头部和补语。

1.2.1.1 VP 级的补语

这里使用的术语补充是指

(a) 内部参数,例如 NP 对象、IP 和引用的成分:

“了”被解释为动词的姐妹,除非它显然不是,即当它处于句末位置并且动词和“了”之间有中间元素时。

(b) 情态动词以VP作补语

这里我们认为”应该“是情态动词并且以一个VP作为补语

(c)标记成分 -IO

(d)标记成分 -EXT

动词后的元素被标记为-EXT。关于它们是修饰语、补语还是谓语的共识较少,因此我们简单地规定它们与其他补语处于同一级别。 基本上,所有后动词元素都是补语,并且与头部处于同一水平。

1.2.1.2 PP 级的补语

介词的 NP 或 S 补语放在 PP 内

(a)NP作为介词的补语

(b)LCP作为介词的补语

(c)IP作为介词的补语

1.2.1.3 LCP 级的补语

由于对于以本地化为首的短语的分类状态缺乏共识,我们避免在 NP 和 PP 之间做出选择,而只是将它们命名为 LCP。 LCPs 由定位词以前面的 NPs 或 IPs 作为它们的补充而形成:

(a)NP作为LC的补语

在上面例子中,(NP(NR 西门子)(DEG 的)(NR 亚太)(NN 发展)(NN 战略))被视为(LC 中)的补语

(b)IP作为LC的补语

在上面例子中,头依旧是定位词,但是补语是IP。IP 添加到中心名词的内容中。

1.2.1.4 CP 级的补语

我们确定了三种不同类型的补语:(DEC 的)用于关系从句和句子助词(包括”的话“,但是不包括”了“):

注意(1)当(SP 的话)和(CS 如果)一起出现,(SP 的话) 被确定为 CP 的头,而 (CS 如果) 投影了一个与 CP 相邻的 ADVP。(ADVP (CS 如果)) 被视为 CP 的 SPEC 位置处的运算符,与相关子句中的相关运算符相同。然而,当它不存在时,我们不会假设 (ADVP (CS 如果)) 的空对应物。(2) 类似地, (DEC 的) 被视为指向 CP 的补语,并且相关运算符与 CP 相邻。

另一种类型的补语是句末助词。 SP以前面的IP为补充

我们将 (SP 了) 附加到 IP,作为 VP 和主语的姐妹

为了统一起见,最好在缺少补码时在其位置放置一个空补语; 然而,这样做意味着这个语料库中的大多数句子都会有一个空补语,并且会给注释者增加额外的负担。 因此,在没有补语的情况下,我们将使用以下简写:

(a)当特定位置有某种操作符而没有补码时,CP 被括在括号中

(b)当既没有操作符也没有头时,CP不被映射

注意:在任意一种情况下IP都可以被自动的扩展为CP通过添加空补语:

1.2.1.5 DNP 级的补语

DNP以(DEG的)为首。 它的补码在它的左边,它们可以是 NP、PP、LCP、QP 或 ADJP。 DNP 与 NP 相邻,作为 NP 的修饰语。

NP作为补语:

PP作为补语:

LCP作为补语:

QP作为补语:

ADJP作为补语:

1.2.1.6 DVP 级的补语

DVP 以 (DEV 地) 为首,其补语可以是 VP、NP 或 IP。DVPs 与 VPs 相邻作为修饰语

VP作为补语:

NP作为补语:

IP作为补语:

1.2.2 修饰性状语

不是补语的短语与由中心词及其补语构成的成分相邻。 从功能上讲,修饰性状语可以是修饰符或说明符。 这种功能区别由破折号标记。 修饰语修饰关系表示为两个或多个短语的并列,修饰短语带有指示修饰语类型的功能标签(除非句法类别不言自明)。示例说明符是IP级别的主语(用-SBJ标记),CP级别的操作符(例如相关操作符,副词短语投影CS)。在汉语中,修饰性状语一般出现在修饰语的左边:

1.2.2.1 CP的修饰性状语

说明符:

但是,如果 CS 投射的 ADVP 出现在主语或主体之后,则该 ADVP 在 VP 级邻接:

1.2.2.2 IP的修饰性状语

以下是 IP 的修饰性状语:前置主语 PP、前置主语时间元素、前置主语状语从句、前置成分和主语。

修饰符:

(a)前置主语PP和前置主语时间元素:

(b)前端主题与 IP 相邻,如果涉及某种移动,它们将与提取站点的跟踪共同索引。 如果主题是基础生成的,则没有共同索引,尽管汉语中的主题通常与句子中下方的元素具有部分-整体或超集-子集关系:

(c)前置主语从属条款与 IP 相邻

说明符:

(d)主语 NP 与 IP 相邻:

1.2.2.3 NP的修饰性状语

修饰符:

(a)ADJP

(b)QP

(c)NP

(d)DNP

(e)DP

(f)CP 作为关系从句

同位语:

(g)CP作为同位语从句

(h)NP作为同位语

(i)IP作为同位语从句

1.2.2.4 VP的修饰性状语

修饰语:几乎所有跟在主语之后但在动词之前的元素(状语短语、修饰动词的量词短语、动词前宾语 NP)都与 VP 相邻

(a)状语短语

(b)动词前的DP或QP

请注意,动词前 QP 与 VP 相邻,但动词后 QP 被认为是补语并且是中心动词的姐妹

(c)前置 NP 与 VP 相邻并接收功能标签 -FOC

请注意,前置的 NP 不接收功能标签 -OBJ,而是接收功能标签 -FOC

(d)DVP

(e)PP

1.2.2.5 PP的修饰性状语

修饰符:

1.2.2.6 QP的修饰性状语

修饰符:

1.2.2.7 CLP的修饰性状语

修饰符:

1.2.2.8 ADJP的修饰性状语

修饰符:

1.2.3  协调

协调是组合短语的另一种方式。 协调通常发生在相同句法类别的短语之间,但也有例外。 协调表示为通过协调连词或标点符号粘合在一起的短语。 更详细的政策在第 VII 节中给出。

1.2.3.1 词级别的协调

单个单词被认为是在单词级别进行协调而不是投射自己的短语,并且只表示最高级别。 这发生在:

(a)当两个裸露(没有修饰语)名词并列时:

当(ETC 等)发生时,它被视为协调结构的最终连接:

(b)当两个或多个不及物动词协调时:

(c)当两个裸露QP协调时:

1.2.3.2 短语协调

短语的协调在可能的最低级别的注释中表示。修饰性状语或补语的添加通常会迫使更高级别的协调:

当子句被协调时,协调级别与被协调子句具有相同的标签

从句可以与标点符号连用(逗号、分号、顿号):

1.3 六种语法关系示意图

1.3.1 结构(配置)关系

在可能的情况下,我们将尽量使同一括号内的语法关系统一。 我们尝试遵循每个括号一个语法关系的规则,除了在 CP 和 IP 级别,为了方便注释,我们使用简写。如有必要,这种简写可以很容易地转换为严格的每括号单语法关系格式。 我们的结构描述是独一无二的,因为没有两种语法关系以完全相同的方式表示。

补语:

头-初始:

头-结束:

修饰性状语:

修饰性状语紧邻左侧:

协调:

1.3.2 非构型关系

修饰语:

i属于 {-TPC, -TMP, -LOC, -DIR, ...}

同位语:

谓语:

2. 从句

我们区分了许多从句类型:IP、CP、IP-Q、CP-Q、IP-IMP。 子句类型用括号标签和破折号标签的组合表示。 两个括号标签,CP 和 IP,用于表示从句类别。 它们与两个标签 -Q 和 -IMP 结合使用,分别表示问题和命令。

2.1 IP

IP 是以下类型子句的根(在括号中的结构中):

(a)简单陈述句:

(b)被动句:

我们暂时断定中文中的“被-结构”与英语被动不同。 有关更多详细信息,请参阅”被-结构“部分。 但是,我们假设汉语中的某些动词的被动语态有限,就像在“把”结构中一样

这里我们假设打的被动语素为零。 在这种情况下不使用破折号标签。 我们假设被动化的另一种情况是当介词(P 由)引入一个逻辑主语时。

(c)不定式

在汉语中,没有确凿的形态学证据来激发不定式从句的假设。但是,文献中一般假定“转变”和“让”等动词以不定式从句作为补语。 当不定式是 VP 补语时,不定式的空主语(标记为 (-NONE- *PRO*)) 像往常一样与其逻辑主语共索引。对于主语控制,(-NONE *PRO*)与矩阵子句的主题共同索引。 对于任意控制,不使用共索引。

(d)起始位置没有 CS 的状语从句被视为 IP:

2.2 CP

CP 用于从属从句,如关系从句和根问题。 有 3 种情况需要 CP:关系从句、具有由 CS 投影的初始 ADVP 的从属子句和带有疑问词的问题。

一些关系从句没有明显补语”的“。 为了一致性,我们将它们视为 CP。 但是请注意,在”的“位置我们没有空类别。

带有由 CS 投射的初始 ADVP 的状语从句,例如"如果",也被视为 CP

2.3 IP-IMP

命令式被标记为 IP 并被赋予一个空主题 (NP-SBJ (-NONE- *pro*))

如果接收命令人的名字与祈使句一起出现(在开头或结尾),则标记为 -VOC。VOC不与空表面主语共索引。

2.4 IP-Q

没有疑问词的问句,例如“吗”,“呢”,“嘛”等,被视为IP-Q:

(a)A-not-A 问题:

(b)选择问题

(c)wh-问题

注意问题短语“什么”被赋予功能标签 -WH

2.5 CP-Q

有疑问助词的疑问句,例如“吗”,“呢”,“嘛”,被视为CP-Q。在中文中,没有明显的 wh-运动(wh-movement),也没有问题的主谓倒转。以下是不同类型问题的列表:

(a)带有句末助词的是非问题:

我们在 CP 级别附加 SP

(b)VP-not: 这种类型被认为是一种特殊的类型(a)

目前我们以和对待(a)相同的方式对待这一类型

2.6 Clause combinations

子句可以通过协调或从属进行组合。

2.6.1 协调

子句可以在 IP 级别连接,有或没有明显的并列连词。

(a)IP 与并列连词相连

(b)IP 不与并列连词相连

2.6.2 从属

从属是通过补充或附加在另一个子句(从属子句,IP 或 CP)中使用一个子句(领句,IP 或 CP)。 详细政策在第 VIII 节中描述

(a)补语

动词的补充:

介词的补充:

定位词的补充:

(b)修饰性状语:

NP的修饰性状语:

(i)关系从句

(ii)同位语从句

IP/VP的修饰性状语:

条件、时间和其他此类状语从句附加在 IP 或 VP 下,取决于它们是在主句的主语之前还是之后,并给出适当的状语功能标签。

(i) CP

如果 CS 投射的状语短语出现在从句主语之前,则将状语短语视为 CP 的说明符,并将整个从句视为 CP。 我们采用这样的工作假设,即 CS 投影的 ADVP 是某种运算符,它要么出现在 CP 特定位置处,要么出现在 IP 内部

(ii)IP

当 CS 出现在主语后位置时,从句被视为 IP

2.7 前置元素(Fronted elements)

前置元素是那些从它们的基础生成位置错位并向上和向左移动的元素。 它们包括主题化参数、相对运算符和聚焦参数。 详细说明在第 VI 节中给出。

(a)主题化参数(Topicalized arguments)

主题化参数是那些作为 VP 补语基础生成并移至主语前位置的论点。 它们总是留下 (-NONE- *T*) 并标记为 -TPC。 这适用于论点是在单个子句中还是跨越多个子句边界。

请注意,并非所有主题都源自中文的运动(not all topics are derived from movement in Chinese)。 有些是基础生成的,因为 IP 内部没有明显的差距:

(b)焦点元素从词后位置移动到词前但主题后的位置。 有时它们可选地被焦点标记所标记,例如“连”(我们没有焦点标记的类别库。相反,我们相反,我们将它们标记为副词并将它们投射到 ADVP)

(c)相对运算符

相对运算符与CP相连

2.8 引述

一个直接引用被视为动词的参数,例如“说”

当引用出现在引用动词之前时,它被视为前置参数:引用与 IP 级别相邻并被赋予一个 -TPC 标记,并且在 VP 下显示跟踪。

如果引用是不连续的,则将中断材料注释为括号 (-PRN)。 请注意,在括号中的 VP 下方出现了一条轨迹,但前面的部分未标记为 -TPC

第二章:符号

在目前的语料库中,每个括号都标有一个句法类别,但可能有多个功能标签。 我们之所以使用功能标签,是为了区分属于同一句法范畴但功能不同的短语。例如,“年”修饰了句子“年产钢铁无万吨”中的VP,修饰了句子“两年时间”中的NP。结构类别和功能类别的组合使用为树库的用户提供了丰富的结构和非结构类别信息。

1. 括号标签

1.1 从句级:IP 和 CP

[IP] --- 简单从句,即没有“吗,的话”等补语;或元素的运算符类型,如“虽然”;或相对运算符。

[CP] --- 由(可能是空的)补语引入的子句

CP只被用于:

(i)当有明显的补语时

(ii)当存在一个(空)运算符时,它可以是由 CS 投射的从句开头的状语短语,也可以是 CP 级别的空相关运算符(当没有明显的补语时,这不是结论性的)

(iii)包含(i)和(ii)

1.2 短语级:ADJP, ADVP, CLP, DP, DNP, DVP, FRAG, LCP, LST, NP, PP, PRN, QP, UCP, VP

[ADJP] --- 形容词短语,以JJ为首的短语

[ADVP] --- 副词短语,以副词为首的短语类别

[CLP] ---分类词

[DP] --- 限定短语。用于标记限定词和 QP 的组合。 请注意,这与其在 GB 理论中的使用不同,其中 NP 是 DP 内的补充。 对于该语料库,如果 DP 出现在 NP 内部,则 DP 是 NP 的修饰符。 DP里面的QP是可选的

[DNP] --- 由 XP 和“的”组成的修饰 NP 的短语。

XP可以是ADJP

XP 可以是DP

XP 可以是QP

XP 可以是NP

XP 可以是PP

XP 可以是LCP
        

[DVP] --- 由 XP 和“地”组成的修饰 VP 的短语。

[FRAG] --- 分段。用于标记无法通过使用空类别构建到完整结构中的碎片元素。

[LCP] --- 用于标记由定位词及其补语构成的短语

[LST] --- 标记列表,包括其周围的标点符号。详情参阅章节V

编号(数字)列表。 列表中的项及其周围标点符号的字母或数字标记为 LST。 它们不会投射到仅出现在 NP 或 DP 内部的 QP 中。 当 QP 确实出现在 VP 内时,它总是以 CLP 作为其补充。 LST 与它前面的成分相邻。

非编号列表。 破折号等非编号列表必须由上下文确定,它们可能出现在一个句子或多个句子中。 当列表项(无论是否枚举)出现在单独的句子中时,将冒号视为最后的标点符号并将每个列表项放在其自己的一组外空括号中。

[NP] --- 名词短语。包括所有依赖于中心名词成分的短语类别。详情请参阅第三章。

[PP] --- 介词短语。以介词为首的短语类别

[PRN] --- 插入词。用于中断材料(Interruptive matrial).

[QP] --- 数量词短语。在NP中使用,例如(QP,三个)。在某些情况下,可以省略数词或量词。 在这种情况下,量词或数字构成整个 QP。

[UCP] --- 不相同的并列短语。用于标记连词不属于同一类别的并列结构。

[VP] --- 动词短语。以动词为首的短语类别。详情参阅章节IV。

2. 功能标签

2.1  从句类别:IMP, Q

[-IMP (imperative)] --- 标记祈使句

[-Q (question)] --- 标记疑问句

2.2 差异(discrepancies): ADV

[-ADV (adverbial)] --- 当用作状语时,标记除 ADVP 或 PP 之外的成分。 请注意,本身是 ADVP 的成分不会获得 -ADV

如果有更具体的副词标签可用(即后续部分中列出的标签之一),则假定更具体的标签暗示 -ADV 并单独使用。 例如,在下面的例子中,昨天的 -TMP 标签代表着 -ADV

不要用以下这种标记:

像“今天”这样的名词,经常作为状语出现,当它们出现在参数位置时被标记为 NP,没有状语功能标签。

2.3 语法规则:IO, OBJ, EXT, FOC, PRD, SBJ, TPC

[ -IO (Indirect object)] --- 标记动词的间接宾语,是带两个NP宾语的动词的第一个宾语。 注意:如果动词带一个 NP 和一个 CP/IP 宾语,请将 NP 标记为 -OBJ,而不是 -IO。

[ -OBJ (direct object)] --- 标记动词的直接宾语。 目前,这包括除 -IO 和 -EXT 之外的动词补语。

[ -EXT (extent)] --- 标记描述活动的程度、频率或数量的动词后的补语。

[ -FOC (focus)] --- 标记处于动词前但是主语后的对象

[PRD (predicate)] --- 标记非动词谓语。

非动词谓语出现在(i)从句中没有明显的谓语:

(ii)动词是系动词“是”

[ -SBJ (surface subject)] --- 标记矩阵(matrix)和嵌入从句的结构表面主语,包括那些带有空主语的主语。 我们假设每个子句都有一个主语,要么是隐式的要么是显式的。

[ -TPC ('topicalized')] --- 标记在陈述句中出现在主语之前的元素,但仅在两种情况下:

(i) 如果前置元素与间隙(gap)位置中的 (-NONE- *T*) 相关联。

(ii)如果存在一个具有与其余从句有“关于(aboutness)”关系的基础生成主题(base-generated topic)

在句子开头用作状语的 NP 不被视为主题。 这些 NP 通常提供时间或空间信息,并分配有功能标签,如 -TMP 或 -LOC。 它们与主题的不同之处在于前者与同一句子中的另一个 NP 不相关,即它们不满足上述 (i) 或 (ii)。

2.4 状语:BNF, CND, DIR, IJ, LGS, LOC, MNR, PRP, TMP, VOC

副词通常附加在VP附属物上。

[ -BNF (benefactive)] --- 标记行动的受益人(beneficiary)。它总是附着在 PP 上

[-CND (condition)] --- 标记表示必要或充分条件的条件从句。 它附加到 CP 或 IP

与如下比较:

[ -DIR (direction)] --- 标记回答“去哪里”和“从哪里来”的答案的状语。它意味着运动或状态的变化。 它的使用可以是隐喻的。

[ IJ (interjective)] --- 标记功能类似于感叹词的短语

[ -LGS (logical subject)] --- 标记指示逻辑主语的状语短语

[ -LOC (locative)] --- 标记指示事件发生地点的状语

-LOC也可能表示隐喻的位置。例如,以下接收 -LOC 标记:

由于注释者的不同解释,-LOC 的使用可能会有一些变化。 如果注释者面临在 -LOC 或 -TMP 之间进行选择,则默认值为 -LOC。

[-MNR (manner)] --- 标记表示方式的副词,包括工具短语。 它总是附着在 PP 上

[-PRP (purpose or reason)] --- 标记目的或原因从句和PP。它总是依附于动词前的元素上

[-TMP (temporal)] --- 标记回答了“什么时候”问题的时间或时态(aspectual)状语。它依附于与 IP 或 VP 相邻的 NP、LCP 和 PP上:

在VP级:

在IP级:

请注意,当时间或时态(aspectual)元素是 NP 头或与 NP 相邻时,不使用 -TMP

[-VOC (vocative)] --- 标记收件人(addressee),无论其在句子中的位置如何。 它不与主语共索引,并且在句首位置时不会得到 -TPC。

2.5 其他:APP, HLN, PN, SHORT, TTL, WH

[-APP (appositive)] --- 标记同位语

[-HLN (headline)] --- 标记标题和日期。 请注意,标题和日期变终构成一个在结构上独立于以下句子的文本单元。

[-PN (proper nouns)] --- 用于标记作为人名、地点或组织名称的 NP。 当注释者进行括号时,这可能会导致不一致。这在很大程度上取决于注释者对什么是组织、什么不是组织、什么是名称、什么不是组织的解释。请注意尽管在大多数情况下,一个被-PN标记的短语含有一个POS标签的NR词语,-PN 所涵盖的内容与 POS 标签的NR 所涵盖的内容并不完全重叠。不包含带有 NR 标签的词的短语仍然可以分配标签 -PN,例如:

[-SHORT (short form)] --- 用来标记一个词是简写的形式

[-TTL (title)] --- 当标题出现在运行文本中时,TTL 附加到标题的顶部节点。 标题的内部结构像往常一样加括号。 标点符号(通常是书名号或引号)包含在标记为 -TTL 的短语中。 请注意,在这种情况下,标点 << 和 >> 将额外的一层括号强制转换为另一个功能标签 -TTL。

[-WH (Wh-phrases)] --- 附在通常被认为是疑问词的PP,NP,VP,或ADVP的后面

-WH 总是依附于最高级别的以“wh-词”为首的短语上。在中文中,“wh-词”并不总是包含“wh-问题”。它也可以表示不确定的实体。-WH 功能标签仅在将“wh-词”作为疑问句的时候使用。

3 空元素

(XP (-NONE- *T*) --- A'-运动的痕迹。用于主题化(topilization)和宾语前置结构

(NP (-NONE- *) --- A的运动轨迹。用于提高(raising)和被动结构

(NP (-NONE- *pro*)) --- 用于舍弃主语或宾语

(NP (-NONE- *pro*)) --- 用于控制结构。*pro* 不能被显示的成分所取代

(WHNP (-NONE- *op*)) --- 用于相对结构中的空运算符

(XP (-NONE- *RNR*)) --- 用于右节点的提升

(XP (-NONE- *?*)) --- 用于其他未知的空类别

对于空元素是如何使用的详细说明,请参见章节VI

第三章 名词短语括号分词

本节指定了名词短语如何通过括号来分词。名词短语是以名词为首的短语。 在我们当前的规范下,它从不需要任何形式的补语。

1. 最低级别的NP

由于名词中心从不带补语,因此最低级别的 NP 完全由名词中心组成。 以下构成最低级别的NP:

1.1 单词名词或名字

1.2 名词-名词组成的复合词

由不间断的单词序列组成的复合词放在一起作为最低级别的 NP。在序列NN1,NN2,...NNi中,虽然一般来说最后一个 NN 总是中心词,但并不是所有前面的 NN 都直接修改了最后一个 NN。任意数量的前一个NN都可以组成一个短语来修饰最后一个NN。因为确定哪个修饰哪个可能非常困难,所以我们视整个序列保持平坦并形成最低级别的NP,并可以修饰或被其他短语修饰。

1.3 词级别的并列

由单个名词或名称或名词复合词组合形成的并列结构也被视为最低级别的 NP。 但是,当它们修饰另一个名词时,它们被视为短语修饰符。

1.4 由NR或一个或多个NN构成的专有名词

由 NR+NN 构成的专有名词被视为最低级别的NP。这包含两种情况:

(a)组织或公司名称

注意如果组织名称中包含除了NR和NN的元素,他们的内部结构需要被划分:

同样如果NR和NN并不构成专有名词,内部结构也需要被划分:

在这种情况下,NR 投射了一个 NP,而 NP 修饰了由 NN 形成的 NP

(b)名字 + 头衔

请注意,这与位置 + 名称的处理方式不同,在这种情况下,两者是并列的。

1.5 日期和地点

(a)形成日期的 NT 序列平均划分并分组为 NP 的最低级别

(b)构成地名的一系列 NR 也将被分组为一个 NP,其内部结构平均划分:

2 NP 修饰语

以下类型的修饰语可以与 NP 相邻

2.1 QPs

2.2 DPs

请注意,并非所有限定词都将 QP 作为补语

2.3 ADJPs

ADJPs 由 JJs 投射,由 ADJPs 修饰的中心名词总是投射到 NP

注意在第一个例子中,JJ+NN的组合被另一个NP所修饰,在最后一个例子中,ADVP修饰JJ,然后ADJP修饰NP。

2.4 NPs

在以下五种情况下需要使用 NP 修饰符

(a)当有中间的 ADJP 时,最后一个 NP 被认为是中心名词,所有前面的 NP 被认为是修饰语。 从语义上讲,这样的 NP 修饰语通常是中心名词的拥有者

(b)当出现由并列连词或标点符号标记的并列结构时。

(c)当存在未形成专有名称的 NR、NN 序列时,NR 会投射出带有功能标签 -PN 的短语并与中心名词相邻:

(d)当有同位结构时

(e)当 ADJP(或任何其他修饰语)修饰的名词不是较大名词短语的中心词时

2.5 DNPs

DNP 由各种短语类别加上 (DEG 的) 组成。 它们总是出现在 NP 的上下文中。 (DEG 的) 除了将前面的短语标记为 NP 修饰符之外没有其他内容。

2.6 关系从句

我们根据补语(DEC 的)的缺失/存在、NP 中心词的缺失/存在、移动项的类别(PP,NP)等维度识别四种类型的关系从句,如下表所示:

有 DEC 无 DEC
有中心词 NP/PP NP/PP
无中心词 NP --

2.6.1 以NP为头的带有(DEC 的)的关系从句和NP追踪(Headed relative clause with (DEC 的) and an NP trace):

间隙(gap)可以在主题位置。 另请注意,该主题位于 IP 级别而不是 CP 级别,以便为补语和相关运算符“腾出”空间

单个 NP 中心词可以有多个关系从句:

关系从句可以嵌套

请注意空运算符的使用以及与其共索引的跟踪 (-NONE- *T*)。

2.6.2  以NP为头的带有(DEC 的)的关系从句和PP追踪(Headed relative clause with (DEC 的) and an PP trace):

带有 PP 标签的主语关系从句不像带有 NP 标签的关系从句那样容易检测,因为底层结构可能在 PP 标签的位置使用各种短语和从句类别。PP 标签更适合理解为某种 VP 附属标签。尽管如此,我们仍然标记 PP标签以将这种关系从句与空参数的关系从句区分开来。

一般来说,这类关系从句的头部表示时间、地点、原因、方式等。它与带有NP痕迹的关系从句的区别在于间隙不是论据位置。 因此,它通常在汉语中占据动词前的附属位置。 如果VP有多个修饰性状语,则空隙规定为主语后的第一个位置 (下图是原文)

(a)位置:

(b)原因:

(c)方式:

2.6.3

尽管NP作为一个整体时拥有一个可以被理解的参考,亦或是通用的还是隐含在上下文中的,但是在相对结构中没有明显的中心。该间隙通常在参数位置(下图是原文)

注意CP外的额外一层NP是用来标记其名义状态的。

汉语中的伪裂结构(pseudo cleft construction)与无中心相对结构(headless relative construction)在结构上没有区别,因此它们被同等对待,尽管它们在语用上很可能不同

2.6.4 没有“的”的关系从句

没有“的”的关系从句不像有“的”的关系那样常见,但他们已经在语料库中被观察到。

(a)有NP间隙(NP gap)

(b)有PP间隙(PP gap)

2.7 同位结构

同位结构总是 NP。 同位可以被视为一种特殊的修饰。有两种情况可以发生同位结构。第一个是当一个 NP 修饰另一个 NP 并且这两个 NP“表示或指代同一个实体”时。它不同于名词修饰名词中心的情况。 在前一种情况下,同位词总是一个短语范畴元素,即一个 NP。 在后一种情况下,修饰符是词级类别元素。

这种类型的同位语与他们所同位的NP在同一级别上相连,并接受功能标签-APP:

发生同位语的第二种情况是当 NP 中出现非关系从句的子句时。没有空隙(gap)可以在从句中被确定。是否有间隙是区分关系从句和同位从句的决定性测试。然而,有时这还不够,尤其是当间隙是修饰性状语时名词中心和同位从句可以放在一个等式框架中,如“名词中心是同位从句”。 在这种情况下,注释者应该使用同位语从句“为名词中心提供内容”的暗示性测试。 (下图是原文)

第四章 动词短语

本章介绍了处理动词短语的方针。它一共有四个部分。第一个小节介绍了在没有映射单独层的情况下,动词中心都包含什么。第二小节介绍了基于动词类型和参数数量而进行的动词分类。第三部分介绍了与VP相邻的修饰语类型。第四部分设计中文中的一些困难结构。

1. 动词中心

动词复合词和体标记在词级进行处理。动词(包括动词复合词)和体序列构成了动词中心,并且与零个或多个补语构成VP。

注意:并非所有的动词序列都构成动词复合词。对于它们不形成复合词的情况,请查看附录B

1.1 动词复合词

尽管复合词在汉语中效率很高,但仍被认为是一个词汇加工的过程(lexical process)。 因此,复合词的处理方式与简单的整体动词相似。挑战在于清楚地识别复合词并将它们与需要短语投射(phrasal projection)的情况区分开来。由于汉语中的复合词和短语之间缺乏明确的标准,对于有一系列动词的复合词,我们将采用以下工作标准:(1)他们共享参数结构,(2)他们共享体标记,(3)他们共享修饰语,(4) 他们不属于明确定义的升高(raising)或控制结构。此处不主张区分中文中的短语和单词。

以下是动词复合词的分类,并举例说明了它们是如何切分的。 这是一个很可能导致注释器间不一致的区域。

(a)并列动词复合词(VCD)

动词间具有相同的子类框架并且在上下文中共享参数。如果它们后跟宾语,那么注释可以看作是:

例:

(b)结果动词和定向动词的复合词(VRD)

通常来说,这一类别的动词复合词分为两个不同的组成部分,第二部分表示第一部分的方向结果。

(c)构成 修饰语+中心 关系的动词复合词(VSB)

在这种情况下,第一个成分必须是不及物的,并且它们之间可以没有修饰性状语或体标记。

(d)由 VV+VC 构成的动词复合词(VCP)

1.2 动词(复合词)+ 体标记/得

体标记(了,着,过)不与前面的动词一起用括号括起来。动词和体标记被放置在同一级别。“得”遵循相似的处理法则。

如果前面的短语是个复合词,它同样也被放置在与体标记相同的层级上:

1.3 A-不-A,A-一-A

在这种情况下,A-不-A 被视为词级别并且标记为 VNV

1.4 可能式 V-不-V,V-得-V

可能式被视为词级类别并且被标注为VPT。“不”/“得”被看作是中缀

需要注意,可能式与 ”V-得“ 结构是不同的。在 ”V-得“ 结构中,”得“后面跟着的是VP或者IP,然而可能式后面跟的既可以是及物也可以是不及物。

1.5  由1.1-1.4组合而成的更加复杂的复合词

下表展示了可以组合的类型

A(i,j) = j类型可以被应用于i类型的后面

"?" 意味着结果是非主体的(marginal).

VCD VRD V-ASP V-不-V V-一-V
VCD yes* yes yes ? no
VRD yes no yes ? no
V-ASP yes no yes** no no
V-不-V yes ? no no no
V-一-V yes no no no no

*: VCD + VCD 和 VCD 是一样的

**: V-ASP + V-ASP 仅适用于 V-过-了

例:

1.6 连词并列

(a)不含补语

(b)有补语

连词并列例子:

1.7 空中心动词

某些情况下谓语是非动词(NP或QP)。在这些情况下,我们假定将NP或QP谓语映射为VP

2. 动词分类

由于谓词主要是动词,因此根据动词所用参数的数量和类型对动词进行分类有助于确定子句的基本结构。谓词的参数结构提供了关于是否缺少参数的线索,以及如果有,它们的空对应项应该在哪里。

2.1 一元谓词(one-place predicate)

一元谓词通常有一个表面主语,没有宾语。它包括以下几种类别:

2.1.1 形容词动词

这些是在 POS 标记阶段标记为 VA 的动词(例如顺利,勇敢,好,头疼)

2.1.2 不及物动词(飞,唱歌,散步)

2.1.3 作格动词(开,锁,丢,沉)

尽管在文献中认为表面主语是在后动词位置基础生成的(the surface subject is base-generated in the post-verbal position),我们在这里不表示这个推理(we do not represent this derivation here)

2.1.4 天气动词(下雨,打雷,起风)

2.1.5 提升谓语(看起来,好像)

2.2 二元谓语

2.2.1 主语 + 名词性补语

2.2.1.1 行为动词(投资,负责,拜访)

2.2.1.2 体验式动词(喜欢,想念)(Experiential verbs)

2.2.1.3 地点主语 + 名词补语(挂,贴)

2.2.1.4 被标记为VC的系动词(是,为)

2.2.1.5 测量动词/量动词 (值,重,长,宽,达)

2.2.1.6 存在动词(有)

2.2.2 主语 + 句子补语

2.2.2.1 心理动词(相信,认为)

当从句是动词的补语时,由于全面缺乏明显的补语和其他 CP 级别的元素,我们不假定空补语,因此我们没有 CP 级别。动词以 IP 作为补语。

2.2.2 主语控制动词(试图,要)

主语控制动词以 IP 作为补语,IP 的主语是空的,写作(-NONE- *PRO*) 。

从表面上看,二元主语控制动词和提升谓语非常相似。他们都含有结构”NP1 V1 VP“,V1作为动词。但是它们也有不同,提升谓语可以将”被结构“作为补语,而二元主语控制动词不可以:

二元主语控制动词: 张三试图被抢了 |  提升谓语:张三好像被抢了

一般来说,提升谓语对其句子补语没有选择限制,但控制动词有。

2.2.3 带有VP的动词

2.3.3.1 情态动词

中文的情态动词在句法上很想提升动词。 然而,并非所有情态动词都可以出现在句首位置。当他们出现在句首位置时与提升谓语同等对待:

2.2.3.2 体动词(Aspectual verbs)

(a) V1 + V2:

V1是一个体动词,助动词(包括情态动词)或被动化动词例如”预计“,”相信“。

V1前的NP是V2的逻辑主语,而不是V1的逻辑主语

我们将V2映射为VP,作为V1的姐妹

(b)V1+V2: V+VP

V1是“来”或者“去”

将V2映射为VP,并且作为V1的姐妹

2.2.3.3 强调“是”

2.4 三元谓词

2.4.1. 主语 + 宾语1 + 宾语2(给,还,送,欠,罚,骗,教,问)

2.4.2 主语 + 宾语 NP + 从句补语

2.4.2.1 如“告诉,通知”一类的动词

请注意,此类别的动词采用两个补语,即 NP 和 IP。 这与宾语控制动词的不同之处在于补语从句的主语不必是空类别。 当主语是空类别时,它不必与母句的宾语共指。就此而言,它也不必与主语共指,这使得它与三位主语控制动词(three-place subject control verb)不同。

2.4.2.2 主语控制动词(答应)

注意此类别中的动词有两个补语,NP和IP。补语IP的主语和主句的主语是一致的。

2.4.2.3 宾语控制动词(劝,逼,使,引诱,原谅)

注意这一类别的动词有两个补语,NP和IP。补语从句中的主语与主句中的宾语是一致的。

具体来说,三元主语控制动词和宾语控制动词都与携带补语从句的协力动词相似。他们都有“NP1 V1 NP2 VP”的模式。然而,它们也存在一些不同:

(1)心理动词可以用存在结构作为补语,而控制动词不能:

心理动词:张三 相信李 四 有 才能

控制动词:张三 答应 李四 有 才能 | 张三 逼 李四 有 才能

(2)心理动词可以用成语,而控制动词不能:

心理动词:张三 相信 李四 杞人忧天

控制动词:张三 答应 李四 杞人忧天 | 张三 逼 李四 杞人忧天

(3)心理动词可以使用被字句,而控制动词不能:

心理动词:张三 相信 李四 被 打了

控制动词:张三 答应 李四 被 打了 | 张三 逼 李四 被 打了

(4)心理动词可以带一个有主题的从句,而控制动词不能:

心理动词:张三 相信 李四 王五 喜欢

控制动词:张三 答应 李四 王五 喜欢 | 张三 逼 李四 王五 喜欢

(5)心理动词可以带一个有体标记“了”,“过”的从句,而控制动词不能

心理动词:张三 相信 王五 看见 了/过 李四

控制动词:张三 答应 王五 看见 了/过 李四 | 张三 逼 王五 看见 了/过 李四

2.5 次级谓词

QP 和某些 NP 通常出现在动词后位置以表示范围、程度或数量。 值得注意的是ADVP很少出现在这个位置。这些元素与 ADVP 不完全相同的事实可能表明它们不是修饰语而是次级谓词。我们标记其功能标签 -EXT 并将其视为动词的补语之一。它可以与另一个带有 -OBJ 标签的 NP一起出现。

3. VP 修饰性状语

VP修饰性状语通常出现在动词前。它们是修饰性状语因为它们不被动词所细分,也不参与动词的参数结构。ADVP,时间和空间NP,QP,PP,CP,IP,DVP和LCP都可以是位于动词前的修饰语。

3.1.1 ADVP

3.1.2 NP(空间,时间)

有时其他类型的NP也可以作为VP的修饰语:

3.1.3 QP

3.1.4 PP

3.1.5 CP

3.1.6 IP

3.1.7 DVP

3.1.8 LCP

4. 一些复杂困难的中文语法结构

本节中列出的结构已成为众多语言研究的主题。 然而,对于如何分析它们,尚未达成明确的共识。 我们在这里提出的分析不一定是唯一正确的分析,甚至不一定是正确的分析。 我们的方法是选择简单且符合我们整体框架的分析

4.1 存在结构

模式:{LCP/NP0} + V + NP1 + {XP}

V的例子:有,挂,站

我们认为 LCP/NP0 是主语部分。当XP存在时,我们认为 NP1 和 XP 构成IP。

当头部位置的NP缺失时,(-NONE- *pro*) 被使用:

4.2 把结构(把字句)

模式: NP0 + 把/将 + NP1 + VP

“把”被视作为动词,随后跟着的是一个由NP1和VP构成的句子补语。一个把结构可以理解为“NP0 导致 NP1 保持一个状态或改变到一个新状态”

当补语从句的副词以动作动词为首时,它被“被动化”以满足“把”的选择限制但是,没有像英语那样可见的被动化形态。

更复杂的例子:

4.3 被-结构(被字句)

模式:

长被结构:NP0 + 被 + NP1 + VP

短被结构:NP0 + 被 + VP

4.3.1 长被结构

我们把被当作一个动词,它以 NP0 为主语,NP1+VP 为句子补语。 长被结构可以解释为“NP0 经历了由句子补语指示的状态变化”

一个特殊的被子结构的情况,当主句的主语与补语从句的宾语共同指代时,就假定了一个运算符(an operator is assumed). 然而,我们不讲主句的主语与补语从句的宾语共同索引。取而代之的是,我们将补语从句中的宾语与同一从句中的*OP*共同索引。

注意,”被“以一个开放式从句作为补语。我们视它为”Wh-移动“(wh-movement)的一个案例。

4.3.2. 短被结构

短被结构与情态动词一样使用,因为它需要一个VP作为补语:

注意在第二个例子中,我们有一个 NP-移动(NP-movement)的例子,可以被看作是一个特殊的短被结构。

4.4 “V-得”结构

模式:

描述性的"V-得“:NP1 + V1 + 得 + VP2

因果性的"V-得”:NP1 + V1 + 得 + {NP2} + VP2

"V-得“结构既可以是描述性也可以是因果性

4.4.1 描述性“V-得”

当“V-得”结构是描述性时,VP不存在显示主语。为了区别描述性“V-得”结构和因果性“V-得”结构,我们不讲VP2扩展成IP在描述性“V-得”结构中

4.4.2 因果性“V-得”

如果“V-得”结构是因果性的,“得”后面的组成部分是IP并且获得功能标签-EXT。

4.5 连续动词结构

模式:NP1 + VP1 + VP2, VP1和VP2共享同一主语

至少有两种类型的连续动词结构,这里我们将介绍两种典型的连续动词结构连续

动词结构的第一种类型可以被视为共享主语的两个或多个动作的连续

注意在这个例子中,VP的数量可以是任意的,我们可以将它们视为没有明显并列连词的 VP 的合词。

第二种序列动词结构的标志是连续的两个 VP 共享同一主题。 VP 的总数不能超过两个。 第二个 VP 用于指示第一个 VP 的目的,可以说它有一个强制性的空宾语指向VP1 的宾语(it arguably has an obligatory null object which refers to the object of VP1)

这两种连续动词结构的不同是:在第一种类型中,VP2的宾语是显示的并且不一定需要和VP1的宾语相同。

4.6 动词复制

模式:NP1 + V1 + NP2 + V2 + XP,V1和V2有相同的词项

我们把动词复制视为一种特殊的连续动词结构:

4.7 由-结构

这种结构的独特之处在于主语来自动词的直接宾语,逻辑主语由“由”引入

4.8 MSP

有一类词在标注阶段被标注为MSP,它们具有非常独特的分布特性。它们出现在模式“VP1/PP MSP VP2”中。它们包括“而”,“所”,“来”,“以”和“去”。它们被视为带有VP补语的功能头(functional head)。MSP和VP映射另一层VP。下面是一些例子:

(MSP 以)

(MSP 以)以 VP 为补语,在这方面类似于提升谓词。 与提升动词不同,它不能出现在主句中。 它和它的 VP 补语映射另一个 VP 层并接收一个功能标签 -PRP。(It and its VP complement project anotehr layer of VP which receivs a functional tag -PRP).

(VP-PRB (MSP 以)

(MSP 所)

(MSP 所)被视为附着在其后的动词上的附着元素。 (MSP所)有两种情况会出现。在第一种情况下,它后面跟一个及物动词,它们一起形成一个名词短语。在这种情况下,我们把整个部分当作一个NP。

在第二种情况下(MSP所)发生在关系从句中的VP之前。 在这种情况下,我们将其视为与 VP 相邻的附着元素

(MSP 而)

(MSP 而)在出现在前面的PP和后面的动词之间的情况下被标记为MSP。它与并列连词(CC而)的不同之处在于后者连接两个VP。尽管由于这些介词都源于动词,使得着两种用法可能是相关的,但是我们视它们是不同的。我们将 (MSP 而) 视为附着在它所跟随的动词上的附着元素。

第五章:次要类别

本节涵盖的短语类别不如 NP 和 VP 突出和重要。 然而,与第一章和第二章中的简要参考资料相比,它们应该得到更详细的说明。 本节并不详尽,因为对于大多数类别,前两节中的描述就足够了。

1. LST (列表)

1.1 识别列表项的字符,字母,标点和数字以及它们周围的标点符号,被标记为LST:

1.2 数字列表

如果列表标记是数字,则不标记为QP。LST 与它前面的成分相邻。当它们出现在一个句子中时,它们是相连的

当枚举项出现在单独的句子中时(例如每个列表项以句点或其他类型的结束标点作为结束时),将冒号视为最后的标点符号并将每个列表项放在自己的一组空外括号中(set of empty outer parenthesis)

注意在下面的例子中,即使第一句话不完整,冒号仍被视为最后的标点符号,因为其他表项都用最后的标点符号标记

1.2 非数字列表。

诸如破折号之类的未编号列表必须由上下文确定,它们可能出现在一个句子或多个句子中。 当列表项(无论是否枚举)出现在单独的句子中(如句号或其他类型的标点符号所示)时,将冒号视为最后的标点符号并将每个列表项视为一个单独的句子。

2. PRN (附加说明的)(parenthetical)

附加说明的元素由标记为 PRN 的节点支配。PRN 节点中包含用于引出说明(例如逗号、破折号、括号(-LRB- 和 -RRB-))的标点符号。

以下是可能出现 PRN 的情况:

第六章 空元素

1. 组成部分(The building blocks)

1.1 清单 (Inventory) 134页

空元素盘点如下:

名词短语空元素:

(XP (-NONE- *T*)) (A'-运动的痕迹如主题化(trace of A'-movement such as topicalization)

(NP (-NONE- *))     (A-运动的痕迹(trace of A-movement)

(NP (-NONE- *PRO*)) (控制结构中使用的空类别)

(NP (-NONE- *pro*))(用于表示pro-drop的空类别)

(WHNP (-NONE- *OP*))(相对结构中使用的空 NP 运算符)

(WHPP (-NONE- *OP*))(相对结构中使用的空PP运算符)

用于表示伪附加的空元素:

(XP (-NONE- *RNR*))(用于右节点提升的空类别(right node raising))

其他空元素:

(XP (-NONE- *?*))(用于表示省略的占位符(placeholder for ellipses))

空元素在文献中也称为空类别 (ECs)。

空类别 (-NONE *)、(-NONE- *pro*)、(-NONE- *PRO) 和 (-NONE- *T*) 在维度上区分如下:

EC的位置  可以被显示NP所替代 先行词必须在同一个句子中

*T*

附加修饰语/主语/宾语
* 宾语
*pro* 主语/宾语
*PRO* 主语 否*

否*:在主语控制或宾语控制的情况下,*PRO* 的先行词必须在同一个句子中。 但是还有第三种控制称为任意控制,在这种情况下,*PRO* 的先行词可以是任何东西,它不必出现在同一个句子中。

1.2 共同索引

索引仅在它们指示一种关系时才使用,否则无法单独从括号中检索。 索引用于表示绑定等关系。 这些关系仅在涉及某种类型的空元素时显示,并且仅当关系是内部语句。 一个空元素可以与另一个相关联,如null wh-operator的情况。 显性代词与其先行词之间的共指关系没有注释(Coreference relations between overt pronouns and their antecedents are not annotated)。

(a)身份索引

原则上,根 CP/IP 中的每个括号都被理解为具有唯一索引,实际上仅当该成分与句子中的某些空元素有共指或以其他方式密切相关时才使用该索引(或者当它在gapping 'template'中起作用时)。 空元素周围的括号也被理解为与唯一标识索引相关联。 身份索引只出现在括号标签上,如(NP-1“张三“)

身份索引的实际编号是任意的; 也就是说,句子中的成分不一定按顺序编号,并且给定的句子可能包含带有标识索引 -1、-2、-5 和 -1978 的括号。 在实践中,我们尽可能使用一位数

(b)参考索引

在大多数情况下,空元素将带有一个整数(引用索引)作为后缀,该整数与某个其他成分的括号标签上的标识索引匹配。 请注意,空元素上的引用索引在空元素本身上采用破折号的形式,而不是在括号标签上,如 (NP (-NONE- *-1))。 如果空元素又指向第三个元素或与第三个元素相关联,它将带有自己的身份索引,类似于 (NP-1 (-NONE- *T*-2))。

另请注意,空元素可能带有额外的功能标签。

2 (-NONE- *T*): A' 运动的痕迹(trace of A' movement)

在中文中,(-NONE- *T*) 常用于两种一般结构。 一种是主题构建,其中一个成分被移动到从句开头的位置。 (-NONE- *T*) 的另一种用法是在相对从句中,这是发生 A' 移动的另一种情况。 它还用于构造中认为算子变量分析是合适的(It is also used in constructions that an operator-variable analysis is considered appropriate)。

(-NONE- *T*) 也可以看作是标记某些不在其通常位置成分的解释位置(interpretation location)

痕迹 (-NONE- *T*) (trace (-NONE- *T*))总是带有一个指称索引,该索引对应于句子中某个其他成分的身份索引(相对运算符、主题化 NP 等。

2.1 相对从句

关系从句与中心名词短语相邻。 “的”被认为是补语,放在CP里面。 我们还假设 CP 的 Spec (Spec of the CP) 中有一个空运算符,并且它与子句中的跟踪共索引 (coindexed with the trace inside the clause)。 请注意,在中文中,相对运算符始终为空

(-NONE- *T*)在宾语处

(-NONE- *T*)在主语处

(-NONE- *T*)在主题处

(-NONE- *T*)在附加修饰语处

没有“的”的关系从句以类似的方式注释。注意没有明确假设的 "的" 的空对应

一个运算符可能有多个(-NONE- *T*)

注意 (-NONE- *T*) 在关系从句的两个连词中出现在不同的位置 (occurs in different positions in the two conjuncts of the relative clause)

2.2 主题化(topicalization)

并非所有主题都源自运动并绑定痕迹。 当符合上述条件时,跟踪 (-NONE- *T*) 与主题共索引。(Not all topics are derived from movement and bind a trace, when they do, the trace (-NONE- *T*) is coindexed with the topic)

谓语动词之前的引用被视为前置参数:它们会留下痕迹 (-NONE- *T*) 并接收 -TPC 标签

当基本生成的项目(base-generated item)被标识为主题时,被标识为主题的 XP 将被分配功能标签 -TPC。 在这种情况下,没有痕迹,因此没有 (-NONE- *T*) 被识别,也不需要共索引。

如果前置参数是左错位的实例(与接应代词相关),前置参数和代词之间没有共同索引,但前置 NP 仍被分配功能标签 -TPC

2.3 被-结构

有大量证据支持在长被构造中涉及A'-运动的分析。 其中之一是这种运动可以是长距离的。 所以我们认为被结构内部的间隙是一个 (NP (-NONE- *T*))

但请注意,并非所有长被字结构都涉及运动。 在下面的例子中,没有明显的间隙,所以在这种情况下我们不使用 (-NONE- *T*)

2.4 (-NONE- *T*)的默认位置

当动词有附加词和参数时,确定 (-NONE- *T*) 的位置可能很困难。 为了保证一致性,我们在以下位置规定了轨迹(trace)的默认位置:

(a)作为主语

主语的默认位置是除主题和一些话语级别的附加修饰语(例如“但是”)之外的所有其他附加修饰语之前的位置。所有其他附加修饰语都被“推入”VP

(b)作为主题

主题的默认位置是除了一些话语级别的附加次(例如修饰)之外的IP的第一个附加修饰语

(c)作为附加修饰语

附加修饰语痕迹(adjunct trace)的默认位置是 VP 的第一个附加修饰语

(d)作为宾语

除非有宾格(间接宾语),否则宾语痕迹(object trace)的默认位置是动词的第一个补语

3 (-NONE- *):A运动的痕迹(trace of A movement)

在中文中,被动结构的证据是没有结论性的。被-结构对应着英文结构中的被动语态。然而,我们将“被”视为动词,因此,A-移动(A-movement)对长被结构来说不是必要的。但是对于短被结构和提升谓语来说,它是必须的。以下动词被认为是提升谓语并且(-NONE- *)经常被用于当它们作为“好像”时。

3.1 索引

(-NP (-NONE- *)) 带有参考索引,只要很清楚它受什么名词控制,大致对应于提升结构中的痕迹。((NP (-NONE- *)) bears a reference index whenever it is fairly clear what nominal it is controlled by, corresponding roughly to a trace in raising constructions)

(a)把字结构

(b)短被子结构

然而,并非所有短被字结构都可以合理地分析为涉及移动

如果是有共索引空元素的字符串,则空值将与最里面的高级子句的主语共索引,如以下示例所示

当多个 NP 连接时,索引来从最高级的 NP

4 (-NONE- *PRO*): 在控制结构中的空元素

(-NONE- *PRO*) 具有以下明确属性:(1)它与词法 NP 呈互补分布因此不能替代词法 NP(2)它可以作为动词或介词的补语出现。 根据定义,它也可以出现在附加修饰语的位置。唯一可用的位置是主语位置。但是,(-NONE- *PRO*) 并不是主语位置中可能出现的唯一空类别。 识别 *PRO* 的过程如下所述。

(-NONE- *PRO*) 在引用方面有两种风格:通用(泛型)或明确 (comes in two flavors in terms of reference: generic or definite)

4.1 获得任意读数(reading)的(-NONE- *PRO*)

泛型 (-NONE- *PRO*) 不必在同一个句子中有先行词。 它甚至不与话语中的另一个元素共索引。 泛型 (-NONE- *PRO*) 通常出现在作为整个句子的主语的从句的主语位置。当可以证明句子主语是非限定时,则可以使用泛型 (-NONE- *PRO*)。 如果主语为非限定式,则不能出现着、了、过等体标记。也不能有体状语如将、正在等。

4.2 (-NONE- *PRO*) 有明确的引用

带有明确引用(definite reference)的*PRO* 通常出现在“控制”动词的补语从句的主语位置。为了用明确引用来识别*PRO*,首先要确定带补语从句的动词是否是控制动词。控制动词通常以不定式从句作为补语,不定式从句的主语必须是空元素 *PRO* 并且不能用词法 NP 代替。虽然在英语中使用“to”来诊断不定式从句相当方便,但在汉语中不存在与“to”类似的东西。尽管如此,仍有许多测试可用于区分限定和非限定从句。控制动词的检测请参阅第四章。

4.2.1 主语控制

以下被认为是主语控制动词:要,设法等。在主语控制结构中,主语与更高一级的子句主语有共指关系。

4.2.2 宾语控制

以下被认为是宾语控制动词:请,权,叫,让等。这些动词的宾语将 PRO 绑定在嵌入从句的主语位置。

5 (-NONE- *PRO*): 在舍弃pro (pro-drop) 情况下使用

*pro* 可以出现在中文的主语或宾语位置。 与 *PRO*不同,*pro*是可选的,因为它们可以被明显的成分替换

5.1 命令式主语

5.2 话语中的理解式主语/宾语 (Understood subject/object in the discourse)

5.3 存在句中的主语

6 (-NONE- *RNR*): 用于右节点提升

(-NONE- *RNR*) 出现在当两个并列动词共享一个补语时。补语与最后一个动词组合在一起,所有其他动词都采用与它共索引的 (-NONE- *RNR*)。 注意这里使用(-NONE- *RNR*)的方式和宾夕法尼亚大学英语书库中的使用方式不同

第七章 并列

1 切分并列结构的一般准则

1.1 所有情况下的并列都是在尽可能低的层次上进行

也就是说,当在词级并列和短语级并列之间进行选择时,总是首选词级并列

1.2 并列结构的标签

连词连接两个或多个元素。 具有相同括号标签或词性标签的短语会在适当的括号标签下进行并列(例如,NP 和单词名词的协调级别标记为 NP)。如前几节所示,有时连词具有不同的标签。 在这种情况下,并列结构作为一个整体被标记为 UCP

1.3 并列结构的功能标签

功能标签仅出现在相同短语类型和相同功能的连词中的最高并列级别的括号标签上

注意只有当所有连接词共享相同的功能标签时,功能标签才会进入整个并列结构,在这种情况下,每个单独的连接词不会在接受相同的功能标签。单个连接词可以被视为继承了整个并列结构的功能标签。如果所有连接词不共享相同的功能,则功能标签出现在各个连接词上。

2. 并列级别

并列可以发生在不同层级上,如下所述:

2.1 词级别:

同一句法类别的单个词元素(包括复合词)在词级进行并列,并用扁平结构进行注释。 一条经验法则是,只有无法取补语的词类才能在词级进行并列。在中文中,这些类别包括所有名词(NT、NN、NR)、代词、形容词和不及物动词。

(a)名词

日期在词级进行并列

在所有连词都是专有名词的情况下,专有名词可以在词级进行并列。 整个并列NP接收功能标签-PN。

名词可以在词级进行并列,因为它们不带补语。 由名词在词级并列形成的 NP 可以带修饰语

由词级并列形成的NP可以作为修饰语

(b)不及物动词

词级并列形成的VP可以共享修饰语

(c)JJs

(d)PNs

(e)副词

2.2 短语级别

当一个或多个协调元素是多词(不是复合词且属于同一句法类别)时,每个元素都用适当的标签括起来,直接支配节点也是如此(as is the imediate dominating node)。 所有并列连词都是顶级短语节点的孩子。

(a)名词短语

当名词连词采用不同的功能标签时,它们是短语级别的并列,因为每个连词都必须有一个标签来锚定功能标签,而功能标签不能分配给整个连词。在下面的示例中,DNP 中的 NP 是短语级别的并列,因为 (NP-PN (NR 亚洲)) 和 (NP (NN 世界)) 带有不同的功能标签。

当 NP 使用修饰语时,它们会在短语级别连接

(b)动词短语的并列

如果连词有不同的修饰语或至少一个连词有补语,则并列发生在短语级别:

----至少一个连词有一个或多个补语

----连词有不同的修饰语,即使它们都不带补语

----连词有不同的修饰语和补语

当连词共享一个补语时,整个结构仍被认为是在短语级别上并列的,并且不与补语相邻的动词采用 (-NONE- *RNR*) 作为补语

(c)QPs

很少观察到在词级上的QP并列(不以量词作为补语的数词)。当连词是将量词作为补语的数词时,它们在词组层次上连起来。

当两个数词共享一个补语时,不与该补语相邻的数词取空(CLP (-NONE- *RNR*)),它与共享的量词补语共索引

(d)LCPs

(e)UCPs

不同类别词组的并列总是在词组层面

2.3 从句级别协调

当一个句子中有多个从句,并且它们不处于上下关系时,它们在句子层面进行并列,例如

一些从句级别的并列没有明确的并列连词。 这些从句通常用标点符号分隔。 在这种情况下,标点符号和从句附在同一级别。

3 并列连词的切分

3.1 单词连词

单词连词附加为连接词语的姐妹(和,与,或,或者,还是,至,到,及,并,而,并且,兼,跟,同,以及)

3.2 成对连词

单词连词附加为连接词语的姐妹(不但...而且,不仅...而且,又..又)

3.3 标点符号作为连词

在中文中,并列结构通常没有明显的并列连词。 相反,标点符号用于分隔不同的连接词语。在这种情况下,标点符号和连接词语连接在同一级别。

词级别:

短语级别:

从句级别:

3.4  零连词(zero conjunction)

在所谓的连续动词结构中,甚至不使用标点符号。在下面的例子中,结构中的短语被认为是连续的:

第八章:从属从句

1. 概述

本节涵盖了作为各种短语和从句类别的补充或附加修饰语的各种从句。它涵盖了所有出现的从句,除了那些在并列结构中的从句。

2. 从属从句的分布

从句(IP或CP)出现在下面的层级中:

2.1 CP

补语化成分将IP作为其补语。除了“的/DEC”和除了“了/SP”的句末补语以外,都被看作是补语化成分。注意被标记为CS的词语不被看作补语化成分。

2.2 IP

附加在 IP 级别的从句包括从句修饰语(IP 或 CP)、句子主语 (IP) 和主题从句 (IP)

(a)修饰语

CP作为修饰语

 IP作为修饰语

(b)句子主语

(c)句子主题

2.3 VP

从句可以出现VP层级的补语或附加修饰语位置。有关VP补语和附加修饰语的详细说明请参阅第四章。

(a)从句补语

(b)从句附加修饰语

如果主语和动词短语之间有明确的谓语,中间从句被视为VP级修饰语

2.4 NP

在NP层面有两种类型的从句:关系从句和同位从句。 关系从句区别于同位语从句在于它们在其中缺少参数或附加词。

(a)关系从句

(b)同位语从句

2.5 PP

介词将从句作为补语

2.6 LCP

定位词将从句作为补语

3 从属连词的切分

本节介绍如何切分标记为 CS 的词类。 标记为 CS 的单词被视为副词,它们要么占据从句开头的位置,要么占据主语后的位置。 由于它们的分布,它们被视为副词而不是补语。 然而,它们具有区别于其他副词的特性:它们将子句标记为从属从句。因此,当它们出现在句首位置时,它们与 CP 相邻。 否则,它们就像任何其他副词一样与 IP/VP 相邻。

3.1 句首CS

3.2 动词前,主语后CS

第九章 标点符号

1. 句中标点符号

这包括括号、大括号、逗号、冒号、破折号、引号、分号和书名的标点符号 (《,》)

1.1 成对标点

成对的标点符号是它们所围绕的成分的"兄弟"。中文中的成对标点符号包括引号,它们通常标记一个成分的开头和结尾。

1.1.1 引号

注意引号是(NN 世界) (NN 贸易) (NN 组织) (NR 中国) (NN 服务) (NN 贸易) 和 (NN 研讨会)的"兄弟",它们开始和结束整个主语NP。

请注意,在这种情况下,引用的 NP 是一个并列结构,引号是 NP 最高级成分的”兄弟“

引号应尽可能放在它们周围的任何地方之外。 当不可能时,它们只会被内部的任何东西拉动。 他们处于啄食顺序的最底层。(Quotation marks should go outside whatever they surround wheneever possible. When it is not possible they just get yanked around by whatever is inside them. They are at the very bottom of the pekcing order)

在下面的例子中,这对引号中的第二个引号被周期拉到 IP 级别(gets yanked to IP level by the period)

1.1.2 大括号,括号,破折号

破折号可能显示为标准的双连字符——或单连字符—

为了区分注释括号和作为原始文本一部分的括号,原始括号用代码显示:

(a)括号 ( 和 ) 分别用 -LRB- 和 -RRB 表示

(b)大括号 { 和 } 分别用 -LCB 和 -RCB 表示

(c)括号 [ 和 ] 分别用 -LSB- 和 -RSB- 表示

大多数由括号或破折号引起的内容都标记为 PRN

1.1.3 书名号

1.2 不成对标点符号(逗号,冒号,分号)

不成对标点符号在成分间最可能被切分的地方插入

1.3 撇号

撇号被括在可能的最低级别

2. 句末标点

句末标点符号通常是最高级别结构的子级,无论该结构可以是 IP、CP 还是 IP 的并列。

第十章 歧义

歧义是一种非常普遍的现象,发生在各个层级:分词、词性标注、句法、语义、语篇等。

1. 处理歧义的原则

(1)在我们的语料库中,我们没有在分词和词性标注层面标注歧义; 也就是说,我们每个句子只保留一个分段的 POS 标记序列。 这样一来,POS歧义引起的句法歧义就被“消除”了。

例如,序列“coverb + NP + VP”可以是:PP修饰VP当coverb被标记为P时,或者序列动词结构当coverb被标记为VV时。

注释者会根据上下文为coverb选择唯一的POS标签,从而出现独一无二的句法结构

(2)大多数句法歧义都可以在上下文的帮助下解决。 在这种情况下,我们只注释正确的理解

例如,在“鸡吃了”这句话中,鸡要么是吃的逻辑对象,不存在吃的主体,要么是吃的主体,不存在吃的逻辑对象。 尽管如此,从上下文来看,应该清楚谁吃了什么。 我们将只注释正确的解读。

(3)如果不能通过上下文解决歧义,目前,我们只选择最可能的一个。

我们认为,真正模棱两可的句子很少见,即使有不止一种似是而非的读法,注释者也可能只认出其中一种读法

2. 句法歧义的类别

我们根据产生歧义的原因对它们进行分类

2.1 由POS歧义造成的歧义

如前所述,我们不注释这种类型的歧义。 各种读法的含义差异可能非常微妙。 注释者根据语义选择正确的 POS 标签

2.1.1 带有动词和介词标签的词

例:他在屋里做饭

两种解读:

(1)

(2)

2.1.1 带有动词和名词标签的词

例:企业投入一亿元

两种解读:

(1)

(2)

2.2 由附加引起的歧义

模式是:X Y1 Y2 或者 Y2 Y1 X

其中 X 是 Y1 的姐妹或 Y1 和 Y2 的父母的姐妹。 Y1 和 Y2 之间的关系可以是修饰词-修饰词、头补词、连接元素。 Y1 和 Y2 不必属于相同的句法类别

X Y1 Y2 模式的例子:

—        相对从句 + NP1 + 的 + NP2

例:在工厂打工的学生的家长

a. (XY1)-Y2: the parents of the students who work in the factory

b. X-(Y1Y2): the students' parents who work in the factory

—        QP + NP1 + 的 + NP2

例:三个商店的雇员

a. (XY1)-Y2: the employees of three stores

b. X-(Y1Y2): three store employees

Y2 Y1 X 模式的例子:

—        V + NP1 + 的 + NP2

例:我喜欢看动物的小孩

a. Y2-(Y1X): I like to watch animals' children

b. (Y2Y1)-X:  I like the children who watch animal

—        NP1 + CC  + NP2 + 的 + NP3

例:北京和天津的北部

a. Y2-(Y1X): Beijing and the northern part of Tianjin

b.(Y2Y1)-X: the northern part of Beijing and Tianjin

2.3 由转换引起的歧义

2.3.1 宾语舍弃 vs (前置宾语 + 主语舍弃)

例子:鸡吃了

宾语舍弃:

前置宾语+主语舍弃:

2.3.2 宾语在主题位置 vs 宾语在焦点位置

例:他连我都不认识

宾语在主题位置:

宾语在焦点位置:

2.4 其他

根据我们目前的分析,歧义可能不会反映在句法结构中

2.4.1 V-R 复合词

例:张三追累了李四

a. 张三追李四,所以李四累了

b. 张三追李四,所以张三累了

c. 李四追张三,所以李四累了

2.4.2 V-得

例:张三追得李四很累

a. 张三追李四,所以李四累了

b. 李四追张三,所以李四累了

总之,在2.1和2.4类型中我们不标记歧义。在2.3和2.2中提到的真正的歧义是很罕见的,我们只注释最合理的解释。

第十章 疑难问题

1 复杂句子的切分

在我们树库中,大多数句子都很复杂。为了确保一致性,注解者器应该能够以一致的方式分解这些句子。下面是一些可能导致一致性问题的典型句子,以及它们应该如何被分割。

在上面的两个例子中,注解者很可能会把第一个子句分割作为从属子句,因为从语义上讲,第一个子句表达了第二个IP的原因或方式。因为我们更关心语法分析而不是其他任何事情,除非IP中有一个从属连词,否则IP不会被切分为从句。

第二个从句不是被分割成某种关系从句,而是被分割成一个单独的从句。只有前置关系从句允许这么做。

在上面的例子中,第二个IP被划分为一个单独的IP,而不是对第一个对象的同位语从句。只有前置同位语从句允许这么做。

 上面的例子可以用一个包括主题和形式主语的更复杂的结构来划分。相反,它被分成三个独立的协调的子句。

2 的话

的话都被视为一个补语标记。它既可以单独出现,也可以和如果一起出现。无论哪种情况,它都使构成它的从句成为从属从句。

3 即

我们将当作语篇水平副词。这样的副词总是出现在主语之前。因此,如果主语是一个空的范畴,它就排在后面这类副词。和即分布相似的有其中,此外。

4 等

(ETC等)被视为并列连词中的一个连接成分。

附录A:短语类别总结

1 头尾短语,表示为S(pec) C(complement) H(ead):

2 中心语前置短语

3 没有补语的短语

4 并列

5 垃圾处理

附录B: 不构成动词复合词的动词序列

在一些情况下,动词序列不被视为动词复合词。我们根据它们形成的结构对它们进行分类。

1 V1和v2被视为两个VP的一部分。(连续动词结构)

(a)NP0 + V1 + V2:VP-FOC + VP

V1是动作动词,v2是静态动词。

NP0是V1的主题,V2是V1的结果。

它和V-R相似,V1是一个动作,V2描述的是Vl的结果,区别是:

对V-R来说:V-R既可以是不及物动词,也可以是及物动词。

在前者中,主题是主体,在后者中,主题是对象。此外,V和R之间不能出现副词。

在“NP0 V1 V2”中,V2后面没有宾语,并且V2可以用副词修饰。

方法:

我们把V2当作主要的动词,V1投影到VP, VP被标记为-FOC。

例:

(b)NP0 + V1 + V2 + IP/CP:VP + VP

V2日或说,V1是动词“说”。

我们将VI和V2都投影到VPs,并将IP/CP作为V2的补充。例如:

(c) V1+V2: VP + VP

V1和V2是两个动作。

将V1和V2都投影到VPs。

2. V2投射到VP上,VP是V1的姐妹。V1是一个体动词或情态动词

(a)V1+V2:

V1是体的动词、辅助动词(包括情态动词),或被动词如预计,相信

V1之前的NP是V2的逻辑主语,但不是v1的逻辑主语。

我们将V2投射到VP, VP是V1的姐妹。

(b)V1 + V2: V+VP

V1是来或去。

V2投射到VP上,VP是V1的姐妹项目。

3. V1 + IP – OBJ:V2投射到IP,IP是V1的姐妹。

V1是控制动词。

(a)V1+V2:

V1之前的NP是VI和V2的逻辑主体。我们将V2投射到IP, IP是V1的姐妹。

例子:

4. V1+NP:NP的词头在其他语境中也可以作动词。如果名词在上下文中被错误地标记为动词,模式看起来就像V1+“V2“。

“V2”的逻辑宾语不能出现在“V2”之后,但可以作为“V2”的修饰语或V1的主语或在V1之前的PP的补充。

例子:

注意:对于“有所”,如果我们把它当作两个单词,那么“V2”可以被视为一个动词。同时,“值得”也可以把一个IP作为补充,在这种情况下,“V2”是紧随其后的是一个对象。

附录C: 树库标记集

1 词性标签:33个标签

AD         副词

AS        方面标志

BA        把在 ba-常量(in ba-cosnt)

CC        并列连词

CD        基数

CS       从属连词

DEC      的 对关系从句等。

DEG      组合的

DER      得在V-de 常量(in V-de const)。和V-de-R

DEV      地 作为DVP的首

DT        决定因素

ETC       标签为 等 和 等等 在短语的协调中

FW       外来词

IJ         感叹词

JJ         名词以外的名词修饰语

LB        被 in long bei-construction

LC        定位器

M         测量词(包括分类器)

MSP      一些粒子

NN        普通名词

NR        专有名词

NT         时间名词

OD        序数词

ON        拟声词

P          介词(包括把和被)

PN         代词

PU         标点符号

SB         被 in short bei-construction

SP         分析粒子

VA         表语形容词

VC        连系动词 是

VE         有 作为主要动词

W          其他动词

2 语法标签:23个标签

2.1. 短语标签:17个标签

ADJP     形容词

ADVP    以AD为首的副词短语(副词)

CLP       分类器的短语

CP         以C为首的子句(补语连词)

DNP      短语由XP+DEG构成

DP         限定词短语

DVP       由“XP+ DEG”组成的短语

FRAG    碎片

IP           以I (INEL)为首的简单子句

LCP       由“XP+ LC”组成的短语

LST        列表标记

NP         名词短语

PP          介词短语

PRN       放在括号里的

QP         量化句子

UCP       不一致的协调短语

VP         动词短语

2.2 复合动词的标签:6个标签

VCD      协调动词化合物

VCP       由W +VC构成的复合动词

VNV      由A-not-A或A-one-A构成的复合动词

VPT       潜在形式V-de-R或V-bu-R

VRD      动词表示结果的化合物

VSB       由修饰语+头部组成的复合动词

3.功能标签:26个

ADV      状语

APP       同位语

BNF       受益人

CND      条件

DIR        方向

EXT       程度

FOC       焦点

HLN       标题

IJ           感叹

IMP        祈使句

IO          间接宾语

LGS       逻辑主语

LOC       位置主语

MNR      方式

OBJ        直接宾语

PN         专有名词

PRD       谓语

PRP        目的或原因

Q           问题

SBJ        主语

SHORT  短形式

TMP       时间

TPC       主题

TTL       标题

WH        wh-短语

VOC      称呼的

4. 空类别(空元素):7个标签

*OP*      操作员

*pro*      了论点

*PRO*   用于控制结构

*RNR*   右节点抬高

*T*        跟踪A’的运动

*            跟踪A的项运动

*?*       其他未知空类别

宾州汉语句法依存指南 树库(3.0) 中文整理版相关推荐

  1. 汉语树库/CoNLL格式,依存句法分析语料

    转载自码农场,原文链接:http://www.hankcs.com/nlp/corpus/chinese-treebank.html 本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库).CoN ...

  2. 句法分析语料:宾州树库、UD树库

    句法分析语料:宾州树库.UD树库 目录 句法分析语料:宾州树库.UD树库 宾州树库 UD树库

  3. 中文-自然语言处理-开源工具-流行度调查+句法依存树可视化调研

    为了找到最流行的中文自然语言处理工具,我进行了一番调研. 开源工具包 百度返回网页数 NLTK 4470000 LTP 哈工大 542,000 OpenNLP 249,000 ICTCLAS 919, ...

  4. 7.中文句法依存分析

    1.概念 句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系.主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形 ...

  5. 【中文树库标记---CTB】

    北大标注集 词性编码 词性名称 注解 词性编码 词性名称 注解 Ag 形语素 形容词语素.形容词代码为a,语素代码为g前面置以A a 形容词 取英语形容词adjective的第1个字母 ad 副形词 ...

  6. 第16课:动手实战中文句法依存分析

    句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系.主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义 ...

  7. 中文树库-CTB短语结构标记

    中文树库-CTB短语结构标记 词类标记-33类 Tag Eecription AD 副词 AS 体态词,体标记 BA "把""将"的词性标记 CC 并列连词,& ...

  8. 句法分析语料:哈尔滨工业大学SemEval、清华大学树库

    句法分析语料:哈尔滨工业大学SemEval.清华大学树库 目录 句法分析语料:哈尔滨工业大学SemEval.清华大学树库 哈尔滨工业大学SemEval

  9. 独家 | 综述:情感树库上语义组合的递归深层模型

    作者:Talha Chafekar翻译:顾伟嵩校对:阿笛本文约1400字,建议阅读5分钟本文探讨了单词和n-grams的不同组合方法,以及如何借助基于树的表示法,以自底向上的方式预测短语或单词的二元或 ...

  10. 《STM32库开发实战指南:基于STM32F103(第2版)》——2.1节仿真器简介

    本节书摘来自华章社区<STM32库开发实战指南:基于STM32F103(第2版)>一书中的第2章,第2.1节仿真器简介,作者刘火良 杨森,更多章节内容可以访问云栖社区"华章社区& ...

最新文章

  1. spring webmvc使用ResponseBody前,在配置文件中的配置
  2. 【BC】如何将自定义的区域菜单添加到系统默认的菜单中
  3. 游历校园 [COGS 614] [欧拉图]
  4. 【机器学习】神经网络BP理论与python实例系列
  5. python之路——面向对象进阶
  6. 018 微服务之间调用
  7. 【C++实现python字符串函数库】strip、lstrip、rstrip方法
  8. 在互联网寒冬季节,他竟然是这样进了百度!值得学习 -- 来自最前沿的实战经验!...
  9. 棋盘上的麦粒c语言,棋盘上的麦粒
  10. matlab拟合曲线教程,【Matlab】matlab如何使用拟合工具?matlab如何拟合曲线?matlab拟合工具cftool如何使用?...
  11. 神器!程序员必备的Linux命令行大全(PDF下载)
  12. QIODevice::write : device not open
  13. 开源项目之:SharpDevelop
  14. 图像算法工程师面试考点集锦
  15. 今晚直播 |现实环境中的强化学习如何解决?你不可错过的RL终极奥义
  16. 【情人节警报】看我如何智斗陌陌情爱骗子
  17. 如何快速掌握一门新技术
  18. 06-Maven生命周期和单元测试
  19. 用systemtap研究内核
  20. UnityShader学习笔记 Unity的表面着色器

热门文章

  1. 电脑可以登微信但是登不上网页
  2. java-序列化以及反序列化
  3. Uva 11137 Ingenuous Cubrency(整数划分方案 背包)
  4. 全外显子组生信分析流程-4-数据质控
  5. 互联网大佬“舌战”996:马云、刘强东、周鸿祎、张朝阳、李国庆,你站谁?
  6. 自己的旧手机做html服务器,旧手机改座机_怎么将手机改成为座机
  7. android深色模式省电吗,护眼又省电,深色模式真这么厉害?
  8. QGIS3.20 制作栅格动画
  9. windows双系统完全删除ubuntu
  10. TwinCAT-C++基础