第四篇:Part of Speech Tagging 词性标注
词性也就是单词类别,形态类别,句法类别
名词,动词,形容词等。
POS告诉了我们单词和他的邻居的一些信息,简单举例:
- 名词前常有限定词
- 名词前有动词
- content 作为名词,发音为 CONtent
- content作为形容词,发音为内容
作者的归属权(也就是作者是谁)
简单举例,信息抽取:
原句 | 抽取 |
“巴西首都巴西利亚成立于 1960 年。” |
首都(巴西、巴西利亚) 成立(巴西利亚,1960 年) |
中间涉及许多步骤,但首先需要知道名词(巴西利亚,首都)、形容词(巴西Brazilian)、动词(成立)和数字(1960)。
词性(Part of Speech)
以英语为例
开放类 vs 封闭类:POS 类别对新词的接纳程度如何?
只有一些开放类:
- 名词
- 适当proper(澳大利亚Australia)与普遍common(袋熊wombat)
- 质量(大米rice)与数量(碗bowls)
- 动词
- 丰富的变化(go/goes/going/gone/went)
- 助动词(英语中的 be、have 和 do)
- 传递性(wait versus hit versus give)
— 参数数量
- 形容词
- 可分级(快乐happy)与不可分级(计算computational)
- 副词
‣ 方式manner(缓慢slowly)
‣ 本地locative(此处here)
‣ 程度degree(真的really)
‣ 时间temporal(今天today)
封闭类
- 介词(in、on、with、for、of、over、...)
- on the table
- Particles 小品词(与动词构成短语动词的副词或介词)
- brushed himself off
- 限定词
- 冠词articles (a, an, the)
- 指示词demonstratives(这个、那个、这些、那些)
- 量词quantifiers(每个、每个、一些、两个……)
- 代词
- Personal(我,我,她,...)
- Possessive(我的,我们的,...)
- 疑问Interrogative或 Wh(谁,什么,……)
- 连词
- 协调coordinating(和、或、但是)
- 从属subordinating(如果,虽然,那个,...)
- 情态动词 modal verbs
- 能力ability(可以,可以)
- 许可permission(可以,可以)
- 可能性possibility(可能、可能、可能、将)
- 必要性necessity(必须)
- 其他等。。。
因为存在很多词属于很多种类型,比如上面提到的content既可以做名词也可以做形容词;这会带来一定的歧义
标签集
标签集是POS 信息的紧凑表示:
- 通常≤ 4 个大写字符
- 通常包括之前所说的inflectional 区别
主要英文标签集:
- Brown (87 tags)
- Penn Treebank (45 tags)
- CLAWS/BNC (61 tags)
- “Universal” (12 tags)
NN | noun | VB | verb |
JJ | adjective | RB | adverb |
DT | determiner | CD | cardinal number |
IN | preposition | PRP | personal pronoun |
MD | modal | CC | corordinating conjuction |
RP | particle | WH | wh pronoun |
TO | to |
上表列了部分主要的标签在Penn Treebank中,通过这些标签还可以派生其他标签,在此就不罗列了。
自动标记
使用该方法的原因:
- 对词的形态分析很重要,比如之前文章写道的lemmatisation
- 对一些应用重要,比如信息检索主要看名词,情感分类主要看形容词
- 有用的特征来做特定的分类任务比如 音乐中的流派分类
- POS可以提供词义消除歧义
- 可以使用它们来创建更大的结构(解析)
分类:
- 基于规则的标记器
- 每个单词都会有对应的标签的列表,来源于词汇资源/语料库
- 通常也会包含其他的词汇信息,比如动词子类别(它的参数)
- 应用规则去缩减到单个标签。比如限定词后面不可能跟动词
- 大型系统会有1000条限制
- 基于统计的标记器
- 一元标记器:为每个词类型分配最常见的标签
- 需要标记词的语料库
- “模型”只是一个查找表
- 但实际上相当不错,准确率约为 90%,并且正确解决约 75% 的歧义
- 通常被视为更复杂方法的baseline
- 基于分类器的标记器
- 使用标准的判别分类器(例如逻辑回归、神经网络),具有以下特点:
- 目标词
- 单词周围的上下文
- 已经在句子中分类的标签
- 最好的序列模型之一
- 但可能会受到错误传播的影响:先前步骤的错误预测会影响下一步
- 使用标准的判别分类器(例如逻辑回归、神经网络),具有以下特点:
- 隐马尔可夫模型 (HMM) 标记器
- 一个基本的顺序(或结构化)模型
- 像序列分类器一样,使用先前的标签和词汇
- 和分类器不同,分类器会将将先前的标签证据和词汇证据视为彼此独立
- 更少的稀疏性
- 序列预测的快速算法,找到整个词序列的最佳标记
- 一元标记器:为每个词类型分配最常见的标签
未知词
- 对于形态丰富的语言来说,是大问题
- 可以通过我们见过一次的来猜测,比如倾向于名词后跟动词
- 可以使用子词表示来捕捉形态,比如寻找常见词缀
第四篇:Part of Speech Tagging 词性标注相关推荐
- NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
2019 年,NeurIPS 接受与元学习相关的研究论文约有 20 余篇.元学习(Meta-Learning)是近几年的研究热点,其目的是基于少量无标签数据实现快速有效的学习.本文对本次接收的元学习论 ...
- spring之旅第四篇-注解配置详解
spring之旅第四篇-注解配置详解 一.引言 最近因为找工作,导致很长时间没有更新,找工作的时候你会明白浪费的时间后面都是要还的,现在的每一点努力,将来也会给你回报的,但行好事,莫问前程!努力总不会 ...
- 深入理解javascript作用域系列第四篇——块作用域
前面的话 尽管函数作用域是最常见的作用域单元,也是现行大多数javascript最普遍的设计方法,但其他类型的作用域单元也是存在的,并且通过使用其他类型的作用域单元甚至可以实现维护起来更加优秀.简洁的 ...
- android 测试工具,Android开源项目第四篇:开发及测试工具篇
本文为那些不错的Android开源项目第四篇--开发工具篇,**主要介绍Android开发工具和测试工具相关的开源项目**. Android开源项目系列汇总已完成,包括: 1.Buck faceboo ...
- Python之路【第十四篇】:AngularJS --暂无内容-待更新
Python之路[第十四篇]:AngularJS --暂无内容-待更新 转载于:https://www.cnblogs.com/weiman3389/p/6224181.html
- 最简单人工智能python_Python人工智能之路 - 第四篇 : jieba gensim 最好别分家之最简单的相似度实现...
简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能 ...
- VULKAN学习笔记-inter教学四篇
VULKAN学习笔记-inter教学四篇 --交换链相关函数:实例层 vkCreateWin32SurfaceKHR vkDestroySurfaceKHR vkGetPhysicalDeviceSu ...
- 【论文相关】盘点AAAI2020中的四篇推荐系统好文
AAAI中推荐系统的文章并不多,目之所及处仅有四篇.内容上覆盖了评论推荐.多目标推荐以及图神经网络等话题. 本文基于AAAI中的这四篇推荐系统论文,展开瞅一瞅它们都讲了些什么. 第一篇文章:可解释评论 ...
- 四篇NeurIPS 2019论文,快手特效中的模型压缩了解一下
在即将过去的 2019 年中,快手西雅图实验室在 ICLR.CVPR.AISTATS.ICML 和 NeurIPS 等顶会上发表了十多篇论文. 除了这些研究方面的成果,针对实际业务,西雅图实验室和快手 ...
最新文章
- 2022-2028年中国纺织服装专业市场深度调研及前景预测报告(全卷)
- MyEclipse配置JDK6+Opencv2.4.11
- 检索数据_21_处理空值的排序
- git/github使用完整教程(1)基础
- Redis五大基本数据类型及其相关命令及常用用途
- git可视化工具—GitKraken
- RTX——第13章 事件标志组
- android系统 限制应用安装程序,安卓手机不能安装软件是什么原因 安卓手机不能安装软件解决方法...
- 省级面板数据(1990-2019):能源消费(煤炭、焦炭、石油、原油等)excel或stata版本
- 老男孩python全栈day01
- 最大子列和问题(PTA)
- Mysql常用技巧总结
- 欧美大脑计划存在的问题和忽视的一个重要元素,互联网大脑计划系列三
- 色彩设计基础知识整理
- 我的大脑越来越喜欢那些碎片化的、不用思考的文章了!
- The Expressive Power of Neural Networks: A View from the Width
- Unicode双向算法详解(bidi算法)(二)
- 可捕捉的 Microsoft Jet错误
- Java接入微信支付超级详细教程——从入门到精通
- PL/SQL 如何查看当前连接信息以及SQL PLUS如何指定IP地址