词法分析与词性标注学习之笔记(二)----词性标注
词性标注
词性标注的概念
词性是词汇的基本语法属性,通常称为词类。
词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术
词性标注可以由人工或特定算法完成,使用机器学习(machine learning)方法实现词性标注是自然语言处理(Natural Language Processing, NLP)的研究内容。
常见的词性标注算法包括隐马尔可夫模型(Hidden Markov Model, HMM)、条件随机场(Conditional random fields, CRFs)等 。
词性标注主要被应用于文本挖掘(text mining)和NLP领域,是各类基于文本的机器学习任务,例如语义分析(semantic analysis)和指代消解(coreference resolution)的预处理步骤。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
词性标注中的难点
词性标注遇到的最重要的问题就是词性兼类问题。
汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语那样,直接从词的形态变化上来判别。
造成词性兼类问题的原因主要有以下几点:
1.汉语缺乏词形态变化,无法通过词形变化判别词类;
2.汉语中,常用词兼类现象严重,比如:“这个人什么都好,就是好酗酒。”其中,第一个“好”读三声,是形容词,而第二个“好”读四声,是动词。
3.没有统一的汉语词类划分标准,有些语料划分很粗糙。
注意:《现代汉语八百词》收取的常用词中,兼类词所占的比例高达22.5%,而且发现越是常用的词,不同的用法越多。由于兼类使用程度高,兼类现象涉及汉语中大部分词类,因而造成在汉语文本中词类歧义排除的任务量巨大。
进行词性标注的原因
词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
词性标注的方法
词性标注这里基本可以照搬分词的工作,在汉语中,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。
主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:
1、基于最大熵的词性标注
2、基于统计最大概率输出词性
3、基于HMM的词性标注
词性标注的应用
1、句法分析预处理
2、词汇获取预处理
3、信息抽取预处理
汉语词性对照表
词性标注有小标注集和大标注集。
例如小标注集把代词都归为一类,大标注集可以把代词进一步分成三类。
人称代词:你、我、他、它、你们、我们、他们
疑问代词:哪里、什么、怎么
指示代词:这里、那里、这些、那些
采用小标注集比较容易实现,但是太小的标注集可能会导致类型区分度不够。、
举个例子:在黑白两色世界中,可以通过颜色的深浅来分辨出物体,但是通过七彩颜色可以分辨出更多的物体。
练习例子
示例一
示例二
词法分析与词性标注学习之笔记(二)----词性标注相关推荐
- 词法分析与词性标注学习之笔记(一)----词法分析
词法分析 词法分析的概念 **词法分析:**词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程.进行词法分析的程序或者函数叫作词法分析器(Le ...
- Scala学习教程笔记二之函数式编程、Object对象、伴生对象、继承、Trait、
1:Scala之函数式编程学习笔记: 1:Scala函数式编程学习:1.1:Scala定义一个简单的类,包含field以及方法,创建类的对象,并且调用其方法:class User {private v ...
- 中文词性标注学习笔记(一)---词性标注概念
词性标注(一) 前言 词性标注也被称为语法标注或词类消疑,是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术. 词性标注可以由人工或特定算法完成,使用机器学习方法实现词 ...
- NLP入门学习1——分词和词性标注
NLP入门学习1--分词和词性标注 0.简介 1.概念和工具 1.1 词性标注 1.2 NLTK 1.3 jieba 1.4 LAC 2.代码实现 2.1 分词 2.1.1 使用nltk进行分词: 2 ...
- 嵌入式系统设计师学习笔记二十八:嵌入式程序设计③——高级程序设计语言
嵌入式系统设计师学习笔记二十八:嵌入式程序设计③--高级程序设计语言 解释程序和编译程序 编译器的工作阶段示意图 语法错误:非法字符,关键字或标识符拼写错误 语法错误:语法结构出错,if--endif ...
- qml学习笔记(二):可视化元素基类Item详解(上半场anchors等等)
原博主博客地址:http://blog.csdn.net/qq21497936 本文章博客地址:http://blog.csdn.net/qq21497936/article/details/7851 ...
- [转载]dorado学习笔记(二)
原文地址:dorado学习笔记(二)作者:傻掛 ·isFirst, isLast在什么情况下使用?在遍历dataset的时候会用到 ·dorado执行的顺序,首先由jsp发送请求,调用相关的ViewM ...
- PyTorch学习笔记(二)——回归
PyTorch学习笔记(二)--回归 本文主要是用PyTorch来实现一个简单的回归任务. 编辑器:spyder 1.引入相应的包及生成伪数据 import torch import torch.nn ...
- tensorflow学习笔记二——建立一个简单的神经网络拟合二次函数
tensorflow学习笔记二--建立一个简单的神经网络 2016-09-23 16:04 2973人阅读 评论(2) 收藏 举报 分类: tensorflow(4) 目录(?)[+] 本笔记目的 ...
- Scapy学习笔记二
Scapy学习笔记二 Scapy Sniffer的用法: http://blog.csdn.net/qwertyupoiuytr/article/details/54670489 Scapy Snif ...
最新文章
- Android Studio环境搭建
- 转:java网络编程-HTTP编程
- 选择在共享模式中运行时使用的采样频率和位深度_优化的逻辑(三)干扰相关及扫频仪的使用...
- Axure 元件导入元件库
- SAP财务主要模块介绍
- 最新《java互联网架构师全套课程》附带代码资料(完整)
- ant-design-vue 动态主题 css前缀变更
- 网页前往小程序指定页面
- 微信相册显示服务器偷懒,微信上这样「偷懒」,比使唤男朋友还省心!
- 【AngularJs】Angular双向数据绑定
- 树莓派linux下gpio驱动,树莓派官方自带gpio驱动bcm2708_gpio.c原理分析 linux gpio架构 gpio子系统...
- java的prefetch()_聊聊FluxFlatMap的concurrency及prefetch参数
- mysql数据库实战演练_SQL 语句实战演练
- Fortran语言的入门与心得
- 超标量处理器设计 姚永斌 第9章 指令执行 摘录
- 手把手教你做20道菜全套教程
- 浪潮信息AIStation联合智源研究院 帮助用户灵敏获取本地AI算力
- linux ubuntu 下禁用/启用touchpad
- 开学季!美斯坦福提醒各位新生:警惕来自自考成教的忽悠!
- lazypics——用python实现漫画网站自动浏览
热门文章
- 令人比较失落的IT圈子-关于华为裁员
- 美国篮球巨星科比坠机去世 年仅41岁
- 博途PLC如何通过FB285实现V90 PN的速度控制
- source命令用法详解
- 2022-2028年中国旅游演艺行业市场现状分析及发展前景展望报告
- 做视频后期剪辑用什么软件好?4款常用软件推荐
- uva-10177 - (2/3/4)-D Sqr/Rects/Cubes/Boxes?
- 学号在java是什么意思_在JAVA程序中增加姓名学号
- CentOS Steam 9 安装测试
- c#通过126邮箱自动发送 微信端实现QQ邮箱邮件提醒