转载自码农场,原文链接:http://www.hankcs.com/nlp/corpus/chinese-treebank.html

本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库)、CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载。

最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉HanLP初具雏形。现在希望拿下依存句法分析,这样我就做出了史上第一个个人开发的功能最全面的自然语言处理基础工具库了。

树库的类型

谈到依存语料库,还是少不了介绍一下树库的类型。根据所描述结构的不同 ,  树库大体上可以分为两类 :  短语结构树库和依存结构树库 。

短语结构树库

短语结构树库一般采用句子的结构成分描述句子的结构。在照抄定义之前,我更乐意给你看一张图作为例子:

上图左边是可嵌套的语言规则与实例,右侧是它们的树状结构,更多理论。短语结构树包含了规则与依存双重信息,硬要说的话,叶子节点的词性也可算作第三种信息。

短语结构树顾名思义,可以同来提取短语,比如NP-名词短语等等。

短语结构树库的目的是分析句子的产生过程,这是特别深刻的命题。

依存结构树库

依存结构树库是根据句子的依存结构而建立的树库。依存结构描述的是句子中词与词之间直接的句法关系,相应的树结构也称为依存树。比如哈尔滨工业大学汉语依存树库中的一个例子:

这棵树看起来有些凌乱了,事实上,它可以投射(projective)为正常的线性句子“与上年同期相比,海上油田的年产能力增加了五十万吨”。又比如:

更多理论请阅读宗成庆:《自然语言理解》讲义,第 9 章。

依存结构树库的目的并不是探讨“句子如何产生”这样宏伟的命题,而是研究“已产生的句子”内部的依存关系。

我认为依存结构树库最大的好处就是简单,从语料库的制作到解析,再到句法器的构建及性能都更容易把握。下文也仅介绍依存结构树库语料的下载以及编辑工具(好吧,事实上,我一介草民也只能弄到一点依存结构树库语料而已)。

依存语料库下载

第二届自然语言处理与中文计算会议(NLP&CC 2013)的技术评测样例中提供了一部分中文树库语料下载——

下载地址:http://tcci.ccf.org.cn/conference/2013/dldoc/evsam05.zip

主页:http://tcci.ccf.org.cn/conference/2013/pages/page04_sam.html

内部包含了清华和哈工大提供的训练集和开发集,该会议到了第三届就不提供树库语料了,只有一些新闻分类和情感极性的语料,真遗憾。

依存树库的CoNLL格式

这些树库语料都是CoNLL格式的,CoNLL格式的语料以.conll结尾。

CONLL标注格式包含10列,分别为:

———————————————————————————

ID FORM LEMMA CPOSTAG POSTAG FEATS HEAD DEPREL PHEAD PDEPREL

———————————————————————————

本次评测只用到前8列,其含义分别为:

1 ID 当前词在句子中的序号,1开始.

2 FORM 当前词语或标点

3 LEMMA 当前词语(或标点)的原型或词干,在中文中,此列与FORM相同

4 CPOSTAG 当前词语的词性(粗粒度)

5 POSTAG 当前词语的词性(细粒度)

6 FEATS 句法特征,在本次评测中,此列未被使用,全部以下划线代替。

7 HEAD 当前词语的中心词

8 DEPREL 当前词语与中心词的依存关系

在CONLL格式中,每个词语占一行,无值列用下划线'_'代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行分隔。

还是举个例子说明——

哈尔滨工业大学依存语料库

序号 词语 原型(中文词语=原型) 粗粒度词性 细粒度词性 句法特征 中心词 依存关系    
1 城建 城建 NN NN _ 2 relevant _
2 成为 成为 VV VV _ 0 ROOT _
3 外商 外商 NN NN _ 4 agent _
4 投资 投资 VV VV _ 7 d-restrictive _
5 青海 青海 NR NR _ 4 patient _
6 JJ JJ _ 7 d-attribute _
7 热点 热点 NN NN _ 2 isa _
                   

对应图形

树形图:

清华大学语义依存网络语料

序号 词语 原型(中文词语=原型) 粗粒度词性 细粒度词性 句法特征 中心词 依存关系    
1 世界 世界 n n _ 5 限定    
2 m m _ 4 限定    
3 m m _ 2 连接依存    
4 a a _ 5 限定    
5 奇迹 奇迹 n n _ 6 存现体    
6 出现 出现 v v _ 0 核心成分    
                   

树形图:

两个树库的比较

哈尔滨工业大学依存语料库使用比较非主流的词性和依存标记,阅读起来稍有困难。

  1. Statistic for file: 依存分析训练数据\HIT\train.conll
  2. Sentence count: 8301
  3. Word count: 250311
  4. PosTag count: 35
  5. AD 21636
  6. AS 1919
  7. BA 450
  8. CC 2928
  9. CD 7219
  10. CS 566
  11. DEC 6768
  12. DEG 6471
  13. DER 195
  14. DEV 385
  15. DT 2615
  16. ETC 589
  17. FW 26
  18. IJ 10
  19. JJ 5882
  20. LB 150
  21. LC 4043
  22. M 6222
  23. MSP 759
  24. NN 63913
  25. NN-SHORT 1
  26. NR 12420
  27. NT 3242
  28. NT-SHORT 19
  29. OD 725
  30. P 8223
  31. PN 4029
  32. PU 33162
  33. SB 267
  34. SP 324
  35. VA 4486
  36. VC 3178
  37. VE 1885
  38. VV 37297
  39. X 6
  40. Dependency label count: 122
  41. accompaniment 249
  42. agent 9375
  43. angle 119
  44. aspect 2040
  45. aux-depend 29256
  46. basis 150
  47. beneficiary 82
  48. c-agent 118
  49. cause 230
  50. causer 232
  51. c-basis 2
  52. c-content 24
  53. comment 435
  54. concerning 14
  55. content 11519
  56. contrast 614
  57. cost 27
  58. c-patient 16
  59. d-attribute 5086
  60. d-category 1391
  61. d-content 1087
  62. d-deno 2842
  63. d-deno-p 979
  64. d-domain 1168
  65. degree 3917
  66. d-genetive 8249
  67. d-host 1261
  68. direction 286
  69. distance 4
  70. d-LocPhrase 312
  71. d-material 58
  72. d-member 1469
  73. d-quantity 6692
  74. d-quantity-p 3457
  75. d-restrictive 14089
  76. d-sequence 195
  77. d-sequence-p 241
  78. d-TimePhrase 600
  79. duration 1365
  80. emphasis 2381
  81. existent 627
  82. experiencer 5181
  83. frequency 608
  84. instrument 118
  85. isa 3727
  86. j-agent 335
  87. j-content 249
  88. j-existent 15
  89. j-experiencer 253
  90. j-instrument 3
  91. j-isa 1
  92. j-location 16
  93. j-means 3
  94. j-partner 1
  95. j-patient 528
  96. j-possession 26
  97. j-possessor 12
  98. j-relevant 24
  99. location 2783
  100. LocationFin 779
  101. LocationIni 216
  102. LocationThru 79
  103. manner 5406
  104. material 50
  105. means 293
  106. modal 3009
  107. negation 2315
  108. OfPart 217
  109. partner 634
  110. patient 7374
  111. possession 1993
  112. possessor 1772
  113. prep-depend 9045
  114. PU 33159
  115. qp-mod 17
  116. r-agent 1090
  117. r-basis 10
  118. r-causer 9
  119. r-content 628
  120. relevant 3638
  121. r-existent 100
  122. r-experiencer 460
  123. r-instrument 29
  124. r-location 81
  125. r-means 8
  126. ROOT 7917
  127. r-partner 1
  128. r-patient 660
  129. r-possession 80
  130. r-possessor 139
  131. r-relevant 161
  132. r-state 1
  133. r-whole 24
  134. s-abandonment 38
  135. s-besides 184
  136. s-cause 745
  137. s-concerning 8
  138. s-concession 735
  139. s-condition 426
  140. s-coordinate 12087
  141. scope 2093
  142. sequence 673
  143. sequence-p 111
  144. s-measure 152
  145. s-or 201
  146. s-preference 35
  147. s-progression 218
  148. s-purpose 248
  149. s-recount 53
  150. s-result 1
  151. s-succession 6383
  152. s-summary 195
  153. state 1245
  154. StateFin 192
  155. StateIni 245
  156. succeeding 1827
  157. time 3043
  158. TimeAdv 2618
  159. TimeFin 136
  160. TimeIni 319
  161. times 22
  162. whole 242
  163. Average sentence length: 30.1543
  164. Average dependency length: 4.8009

所幸HIT的主页上留了一个说明文档(该文档针对的是最新的树库,并非上述树库,只可作为参考)——

(1)词性标注说明:

词性标注采用863的标注体系,以下是其符号的解释,

a 形容词

b 区别词

c 连词

d 副词

e 叹词

g 语素字

h 前接成分

i 习用语

j 简称

k 后接成分

m 数词

n 名词

nd 方位名词

nh 人名

ni 团体、机构、组织的专名

nl 处所名词

ns 地名

nt 时间名词

nz 其它专名

o 拟声词

p 介词

q 量词

r 代词

u 助词

v 动词

wp 标点

ws 字符串

x 非语素字

(2)依存关系标注说明:

本标注规范共有依存关系类型24种:

定中关系ATT(attribute)

数量关系QUN(quantity)

并列关系COO(coordinate)

同位关系APP(appositive)

前附加关系LAD(left adjunct)

后附加关系RAD(right adjunct)

动宾关系VOB(verb-object)

介宾关系POB(preposition-object)

主谓关系SBV(subject-verb)

比拟关系SIM(similarity)

核心HED(head)

连谓结构VV(verb-verb)

关联结构CNJ(conjunctive)

语态结构MT(mood-tense)

独立结构IS(independent structure)

状中结构ADV(adverbial)

动补结构CMP(complement)

“的”字结构DE

“地”字结构DI

“得”字结构DEI

“把”字结构BA

“被”字结构BEI

独立分句IC(independent clause)

依存分句DC(dependent clause)

清华大学语义依存网络语料采用全中文描述,且词性我都认识。

Statistic for file: 依存分析训练数据\THU\train.conll.fixed.txt

Sentence count: 20001

Word count: 165541

PosTag count: 22

a 5867

b 2923

c 4590

d 8995

f 2676

h 10

k 205

m 8556

M 1

n 43817

o 17

p 8274

q 2118

r 5837

R 2

s 666

t 3600

u 13973

v 33263

x 36

y 5

z 109

Dependency label count: 69

..是..的依存 441

“的”字依存 11091

伴随 56

比较量 37

比较内容 8

并列 97

部分 110

材料 22

参照体 262

程度 3616

除了 2

处所 2036

触及部件 6

存现体 589

代价 28

递进 7

动量 245

范围 757

方式 3205

方位词依存 2284

方向 150

根据 102

工具 66

关联词依存 1855

关系主体 2184

核心成分 15354

后延时段 50

接续 182

结果 287

结果事件 738

介词依存 7788

进程时段 351

经验者 2028

来源 102

类指 719

连接依存 8531

领有者 1

描述 3368

描写体 1188

目标 1337

目的 425

内容 3746

频率 288

评论 4477

起始时间 186

趋向动词依存 535

让步 7

施事 7430

时间 2401

时距 133

时态依存 3283

时态语态依存 199

事件过程 12

手段 78

受事 6153

数量 5627

条件 114

通过处所 38

同位语 942

限定 36014

相伴体 775

语气依存 91

原处所 198

原因 284

原状态 96

整体 180

终处所 388

终止时间 76

终状态 84

Average sentence length: 8.2766

Average dependency length: 2.0258

清华的树库量非常足,足足有2万句,哈工大的才8千。于是我愉快地决定使用清华的树库做了HanLP的训练语料。

编辑和可视化工具

欢迎使用HanLP在线句法分析并可视化:http://hanlp.hankcs.com/ 。

你一定很好奇我上面的图是从哪里来的,南京大学开发了一个叫Dependency Viewer的工具,非常好用。

下一步准备实现一些常见的句法分析算法。

汉语树库/CoNLL格式,依存句法分析语料相关推荐

  1. .依存句法分析--提取用户评论

    原文链接:https://cloud.tencent.com/developer/article/1590322 <自然语言处理入门>12.依存句法分析--提取用户评论 2020-02-2 ...

  2. 句法分析语料:哈尔滨工业大学SemEval、清华大学树库

    句法分析语料:哈尔滨工业大学SemEval.清华大学树库 目录 句法分析语料:哈尔滨工业大学SemEval.清华大学树库 哈尔滨工业大学SemEval

  3. 句法分析语料:宾州树库、UD树库

    句法分析语料:宾州树库.UD树库 目录 句法分析语料:宾州树库.UD树库 宾州树库 UD树库

  4. 自然语言处理学习笔记十二(依存句法分析)

    词法分析之后,语法分析也是理解语言的重要一环.对于简单句子,还可以通过分词进行理解:但对于长句子,还得通过语法来分析才能更好的理解. 语法分析是自然语言处理中的一个重要的任务,其目标就是分析句子的语法 ...

  5. 百度开源的依存句法分析系统

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 依存句法分析是自然语言处理核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句子的句法结 ...

  6. 中文依存句法分析概述及应用

    句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽 ...

  7. HanLP --- 依存句法分析

    1.HanLP GitHub路径:https://github.com/hankcs/HanLP 2.剖析HanLP依存句法分析的功能(基于神经网络依存句法分析器) HanLP中有很多句法分析器,结构 ...

  8. 【CS224n】(lecture4)Dependency Parsing 依存句法分析

    学习总结 句法分析(Syntactic Parsing),两种典型的句法结构表示: (1)短语结构句法:依托上下文无关文法,S代表起始符号,如NP和VP分别表示名词短语和动词短语. (2)依存结构句法 ...

  9. NLPCC-2019 依存句法分析领域移植评测技术分享(封闭情况下双第一)

    在刚刚结束的NLPCC-2019 依存句法分析领域移植评测任务中,我们队有幸拿到了在封闭条件下无监督和半监督两个任务的双第一.这离不开大家的付出与努力,在这里想与大家分享下参赛的一些细节. 1.任务介 ...

最新文章

  1. Atitit.auto complete 自动完成控件的实现总结
  2. python画动态爱心-使用Python画出小人发射爱心的代码
  3. Python机器学习--回归
  4. C#中[WebMethod]的用法,aspx、ashx、asmx
  5. UA MATH563 概率论的数学基础 中心极限定理20 弱收敛的性质
  6. Exception in thread AWT-EventQueue-0 java.lang.IllegalThreadStateException
  7. 31 socket客户端. 服务器 异常 语法
  8. [Abp 源码分析]ASP.NET Core 集成
  9. 00后确实卷,公司新来的卷王,我们这帮老油条真干不过.....
  10. 多学一招总没错吧?SpringBoot解决前后端分离的跨域问题
  11. “通讯录不属于用户隐私”?今日头条:绝对不认可这个说法
  12. UVa101 - The Blocks Problem
  13. Eclipse+CDT+MinGW 配置 C/C++ 开发环境
  14. sim卡iccid编辑软件_一篇文章扫盲手机SIM卡相关知识
  15. js并列排名之div图片加载
  16. java abs是什么意思_java math.abs
  17. 自动化Python+selenium 用这一篇学习就够了
  18. 图像分辨率与长度单位转换
  19. linux系统取消自检,Linux 磁盘自检设置
  20. Word2010中怎样压缩图片使文件变小

热门文章

  1. iEx.ec演示DApp的初步了解,快来“尝鲜”iEx.ec分布式云的强大算力
  2. 计算机病毒语音,新病毒:让被感染的计算机发出语音提醒
  3. OpenStack Victoria搭建(一)简介
  4. 数据库实验 嵌套查询和连接查询
  5. IT创业见闻13-说说老板即将成功的风向标
  6. python 自动生成文档
  7. 【sql server】英文按首字母排序+首字母相同英文排中文后面+数字开头最后+忽略空格影响
  8. 2021中石油程序设计平台新生热身赛7-挨打记录2021/11/29
  9. 【学术篇】不知道该起啥标题了怎么办OvO
  10. 【厚积薄发系列】C++项目总结14—Windows平台下异常捕获不到问题分析