Penn Treebank Tags做点小翻译 (上篇)
前言 :最近在研究自然语言处理,搞的很浅,然后下了openNLP,实现了分词和分句,现在要做词性标注,结果openNLP参照的是这个Penn Treebank Tags,所以没办法要看懂词性标注的结果,只有先看懂这个Penn Treebank Tags了。
附注:我下的是英文的ME模型(Maxent model最大熵模型)实现的词性标注,openNLP还有感知模型(Perceptron model)实现。
本人语言水平实在不杂的,所以有些翻译完全是我自己的理解,可能在语法上不对。。
--------------------------------------------------------------------------------------------------------------------------------------
注意:这些信息来自于“Bracketing Guidelines for Treebank II Style Penn Treebank Project”这个项目-部分文档来自Penn Treebank(一个库)。
一、支架级别
1、从句级别
S - 简单的陈述句,例如,一个句子既不由从属连词引导或者wh-开头的单词,因此不存在主谓倒
置。
SBAR - 从属连词引导的从句
SBARQ - wh-开头的单词或者wh-开头的短语的直接我问句。间接问句和相关的从句应该是被标识的
是SBAR。
SINV - 倒装句。例如,主题跟随着紧张动词和情态动词。??
SQ -- 倒是/否问句,或者主从句是一个wh-开头的问句,跟随着wh-短语。
(最后两个,不理解,我的语法太烂了。)
2、短语级别
ADJP - 形容词短语
ADVP - 副词短语
CONJP - 连词短语
FRAG - fragment(片段)???
INTJ - 感叹词。大概相当于这部分的语义标签感叹词。
LST - 标记列表(??)。 包括周围的标点符号。
NAC - 不是句子中的成分,用来显示在一个名词短语前的*******************(完全不懂了,什么置于名词前的)
NP - 名词短语
NX - 用来复杂的名词短语前标识名词短语的头部。与N-bar级别类似但是用法不同。??
PP - 介词短语
PRN - 插入语
PRT - 小品词(与动词构成短语动词的副词或介词)。如果是单词类别的标签则被标注为RP。
QP - 量词短语(例如。复杂的度量/数量短语);在名词短语中运用。
RRC - 相对减少的从句。??
UCP - 协调不同的词组。
VP - 动词短语
WHADJP - wh-形容词短语。形容词短语包含一个wh-副词,例如how hot.
WHAVP - wh - 副词短语。引出一个从句通过一个名词短语。有可能没有或者词法包含了一个wh副
词,比如how 或者是why.(这句翻真垃圾)
WHNP - wh-名词短语。引出一个从句通过一个名词短语。有可能没有或者词法包含了一个wh副词,例
如 who, which book, whose daughter ,none of which ,or how many leopards.
WHPP- wh - 介词短语。介词短语包含了wh-名词短语(例如 of which 或者by whose authority)或者有
一个介词的间隔 或者 包含在WHNP中。
X- 不知道,不确定或者不在支架表中。
3、单词级别
CC - 并列连词
CD - 基数词
DT - 限定词(the ,some ,my)
EX - 存在词(there)
FW - 外来词
IN - 介词或者从属连词
JJ - 形容词
JJR - 形容词比较级
JJS - 形容词最高级
LS - 列表标记
MD - 情态动词
NN - 名词,单数
NNS -名词,复数
NNP - 专有名词,单数
NNPS - 专有名词,复数
PDT - 前置限定词
POS - 所有格结束
PRP - 人称代词
PRP$ - 所有格代名词(prolog版本 PRP-S)
RB - 副词
RBR - 副词的比较级
RBS - 副词的最高级
RP - 小品词(与动词构成短语动词的副词或介词)
SYM - 符号
TO - to
UH - 感叹词
VB - 动词原形
VBD - 动词过去式
VBG - 动名词或现在分词
VBN - 动词过去分词
VBP - 动词,非第三人称单数现在式
VBZ - 动词,第三人称单数现在式
WDT - wh-限定词
WP - wh - 代名词
WP$ - 所有格的wh -代名词
WRB - wh-副词
Penn Treebank Tags做点小翻译 (上篇)相关推荐
- Penn Treebank Tags做点小翻译 (下篇)
二.功能标签 1.形式/功能差异 -ADV(副词作用的) - 标记成分不同于ADVP 或者是PP 当它当副词使用时.但是,成分修改一个ADVP通常没有-ADV.如果一个更加特别的标签(例如-TMP)可 ...
- POS Tagging 标签类型查询表(Penn Treebank Project)
在分析英文文本时,我们可能会关心文本当中每个词语的词性和在句中起到的作用.识别文本中各个单词词性的过程,可以称为词性标注. 英语主要的八种词性分别为: 1.名词(noun) 2.代词(pronoun) ...
- Esp8266 进阶之路20 【高级篇】深入学习esp8266的esp now模式组网,仿机智云做一个小网关,实现无需网络下轻松彼此连接通讯交互数据。(附带Demo)
本系列博客学习由非官方人员 半颗心脏 潜心所力所写,不做开发板.仅仅做个人技术交流分享,不做任何商业用途.如有不对之处,请留言,本人及时更改. 序号 SDK版本 内容 链接 1 nonos2.0 搭建 ...
- Esp8266进阶之路⑨ 【小实战上篇】Windows系统搭建8266的本地Mqtt服务器,局域网点亮一盏LED灯。(带Demo)
本系列博客学习由非官方人员 半颗心脏 潜心所力所写,不做开发板.仅仅做个人技术交流分享,不做任何商业用途.如有不对之处,请留言,本人及时更改. 序号 SDK版本 内容 链接 1 nonos2.0 搭建 ...
- Django-知识回顾做个小DEMO
title: Django-知识回顾做个小DEMO copyright: true top: 0 date: 2019-07-07 12:50:16 tags: categories: WEB 后端框 ...
- 微信小程序和微信商城的对比,看看你的企业适合做微信小程序还是微商城
什么是微信小程序 微信小程序是一种不需要下载安装即可使用的应用,它实现了应用"触手可及"的梦想,用户扫一扫或者搜一下即可打开应用.也体现了"用完即走"的理念,用 ...
- 对神经网络某一层做了小改进,效果却提升显著,可以发论文吗?
点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 知乎:青春没有终点 编辑:深度学习自然语言处理公众号 链接:见原文链接 学术分享,侵删 ...
- python手机版做小游戏代码大全-Python大牛手把手教你做一个小游戏,萌新福利!...
原标题:Python大牛手把手教你做一个小游戏,萌新福利! 引言 最近python语言大火,除了在科学计算领域python有用武之地之外,在游戏.后台等方面,python也大放异彩,本篇博文将按照正规 ...
- c#怎么做windows窗体小程序_个人想做微信小程序怎么做?
在我们以往人的印象中,想要做电商,想要当线上商家,就需要有一个自己的网站,然后在上面挂上自己的商品进行销售,或者入驻于淘宝等电商平台中,开店铺,而微信小程序的出现,则打破了这一规律,商家可以在微信平台 ...
最新文章
- C++中的vector的用法
- JS(JavaScript)的深入了解1(更新中···)
- UA MATH571A R语言回归分析实践 一元回归3 NBA球员的工资
- 获取远程计算机动态ip,c# - 获取远程主机的IP地址
- android ble status,Android BLE peripheral disconnects with status code BLE_HCI_INSTANT_PASSED(0x28)
- vue 导出html
- Qt文档阅读笔记-QLibrary基本概念及实例
- 乾坤 微前端_最全汇总之微前端知识和实战(EMP技术方案)
- 区块链教程(三):Solidity编程基础
- IDEA隐藏不需要的文件
- Nexus启动失败处理:The nexus service was launched, but failed to start.
- 算法:逆序局部链表 Reverse Linked List II
- 让XP系统也支持微软雅黑字体
- 22款奔驰GLE350升级原厂360全景倒车影像,智能科技化繁为简
- matlab非线性拟合算检验,matlab非线性拟合求参数怎样确定初始值
- 《非计算机毕业生2015互联网校招求职之路》2014-10-15
- 与《代码大全》齐名的经典著作 1
- NTFS格式和FAT格式的区别
- 深入解读神策分析云两大闭环,助力企业全面数字化转型应用
- MATLAB案例-汽车雷达