从限定词开始 - 词性识别在人工智能自然语言处理中的不足与改进

词性识别在人工智能的自然语言处理领域具有极其重要的意义，可以说是更深层次分析和处理的主要基础。

* 自然语言处理：指的是在计算机和人工智能领域中，利用电脑或人工智能神经网络来对人类语言进行理解、分析和其他进一步处理的一门科学。

一般来说，对于一篇文章、一段文字，人工智能系统对它进行分析的过程从分句、分词开始，之后就是词性分析了，这一步在英文中称作Part of Speech（简称POS），然后才能进一步做专有名词或短语分析（NER）、句子成分分析、分句从句分析、情感分析、主旨提取、关键词提取等更高级的分析处理。可想而知，如果词性分析的结果不准确，对于后面的各个步骤都会造成极大的困难。

目前主流的自然语言处理框架或系统，大都还存在着一些不足，以至于在词性分析这么基础的步骤上还不能做到很准确，并且可能是为了尽量贴近于人类对语言的一般理解，因此还存在一些理论上的硬伤，对于电脑或者神经网络来处理还存在不妥之处，我们下面将看看其中的一些问题。另外，我们也要看到，自然语言处理作为一门已经发展了很久的计算机科学，加上最近这些年来的人工智能大潮的推动，还是取得了很大的进展的，在一些方面上，比我们日常语言教学中的理论体系还是做出了一些有益的改进的，我们也将做一些讨论。

由于在语言分析中，英语适用范围较广，在自然语言处理中比较典型，相对也比较容易一些，因此我们在这里举例也将以英语为主。本文就从比较有特色的“限定词”来说起。

关于限定词（determiner）

在我国的英语教育体系中，“限定词”这个概念提的很少，而是经常与形容词的概念相混淆，而实际上这个限定词的词性划分非常重要，与形容词存在明显的不同，对于人工智能的语义分析也有很大的指导意义。

简单地理解，限定词是指给它所修饰的名词指定一个“范围”的词，这与形容词是给出名词的一些特性、特点、特征有本质上的不同，例如： red apples 指的是这些苹果的颜色是红的，红色是苹果自身的特征属性，因此 red 是形容词；而 many apples 中的 many，是指“很多”而不是一个苹果，“很多”这个概念与苹果本身无关，仅是表示它们的数量，因此 many 应该是限定词。

将限定词和形容词区分开来，在人工智能分析句法和语义时有着相当重要的意义，例如，many red apples中，是“限定词+形容词+名词”的结构，限定词一般是需要放在形容词之前的，而如果是两个形容词很多情况下是可以调换顺序的，限定词+形容词就不行，这对人工智能做一些语法和语义推断时具有指导意义。

但是我们在大多数可以接触到的词典中（包括一些主流的在线词典）中，查询 many 这个词给出来的主要还是形容词（adj.）。在大多数教材中，尤其是中小学教材中也仍然依循形容词的说法。

而某些在人工智能领域已经做了一些研究和实践的IT公司，则有所改进，例如下图中

已经给出了det.也就是限定词这个词性。限定词在自然语言处理领域一般记作“DT”或“DET”。（determiner的简写）。

指示代词与限定词

还有一些其他的典型例子，如“this”、“that”这一类在我们教育体系中称之为“指示代词”，如下图所示：

而实际上，代词（Pronoun）的概念所起的作用应该是代替名词的，也就是说是名词性的，而this这种词有时候确实是起修饰作用而非指代作用的。例如：

This is an apple.

这里的this是代替后面的apple作主语，因此应该是代词，而：

This apple is red.

这里的this显然是限定词，用来限定本句话中所说的苹果的范围（是“这个”苹果，而不是“那个”或其他苹果）。

有些说法说this这时候是形容词，如上面的截图所示，但我们之前已经说过，形容词是表示名词的一些属性、特定的该物体自有的特征，限定词才是限定名词的范围、数量等非物体自身属性的东西。

而一些人工智能引擎将第一句中的This认为是限定词，这也是不合理的，例如谷歌（Google）公司的自然语言分析引擎是这样分析的：

它把this认为是限定词（用DET来代表），而如下图所示，对于This apple is red. 这句话，它也认为this是限定词。

这种划分方法也不能说是错误，因为解决问题的方法可以不止一种。但是，限定词属于修饰名词的词，代词则是代替名词也就是名词性质的词，这两个性质在人工智能分析句子时显然处理会有所不同，因此如果像谷歌的引擎这样，把this在这两种情况下都认成限定词，会对后续的处理造成不可避免的困扰。第二句中的this是应该作为主语来看待处理的，限定词从其词义上来想，按理说是不应该做名词性的句子成分的(主语属于名词性成分，Noun Phrase）。

冠词与限定词

在我们常见的语法体系中，冠词包括不定冠词（a、an）和定冠词（the），这在自然语言处理体系中，也是划归到限定词范畴的，因为a或an是表示“一个”后面的名词，the则是表示“指定的”（即说话双方或者作者与读者之间由于上下文都知道的某个东西）后面的名词，其实都是限定范围而不是修饰物体本身，所以也都是限定词。冠词实际上可以算作限定词中的一个细分子类。

物主代词与限定词

在我们的语法体系中，物主代词也是定义的比较混乱的一类词，国内往往把my、her、your这一类词和mine、hers、yours都称做物主代词。但显然这两类词从本质上不同，前一类词是修饰性的，后面一定有名词，而后一类词则本身就是名词性的，确实是代词，称作物主代词是合理的。我们的解释也能自圆其说，说前一类词是“形容词性的物主代词”，后一类词是“名词性的物主代词”，但这种分法显然有些硬凑的感觉，在计算机处理时也会造成混乱。

实际在自然语言处理中，由于前一类词（my、her、your等）也具备限定词的定义，是指定名词范围的，因此也可以说成是限定词，但一般把它再分配一个细分的词性，就叫做代词所有格（记作PRP$），这样也算一个方法，起码比记作名词性的代词要好。

数量词与限定词

与前面相似，数词和量词也具有限定的作用，例如：

ten apples 限定了苹果的数量是10个

a lot of apples 指定了很多的苹果

some apples 则指定是“一些”苹果

所以数词是限定词中的一种，自然语言处理中一般记作“CD”（即cardinal number，基数词），量词也在英语中地位不是很突出，可以直接算入限定词这一大类中。

而

The second apple is green.

这一句中，second是序数词，也属于限定词。

再细说数词的话，实际上也分形容词性的数词和名词性的数词，例如ten apples中的ten是形容词性的，也就是我们所说的限定词，而如果说考试得分的时候，I got a ten. 这里的ten又是名词性的了，表示所得的分数。这里我们一般可以把前一个ten记作CDJ，表示形容词性的数词（也是限定词中的一种），后一个ten记作“CDN”，表示是名词性的数词。

疑问限定词

还有就是在疑问句中或引导从句用的一些限定词，例如：

Whose apple is red?

这里的whose就是疑问限定词，表示问的是“谁的”苹果，表示范围限定而非苹果本身的特征。疑问限定词一般记作“WDT”，其中的“W”以疑问引导词常见的开头的字母“W”而来。再如：

Which apple is yours?

这里的which也是疑问限定词。

前位、中位、后位限定词

限定词如果要细分的话，还可以分做前位、中位和后位限定词，它们的区别主要是在同时出现时的顺序排列上。例如下面这个短语：

all the two red apples

其中，all是前位限定词，the是中位限定词（也是冠词），two是数词，也是后位限定词，这几种词的顺序是不可以变的，例如不能说 the two all red apples。

另外，当然，red这个形容词更不能放在限定词前面，无论是前位、中位还是后位。

最后，要让计算机理解人类的语言，需要从最基础的地方开始把语言中的各个要素明确化、数字化、量化，需要把我们常常理解得模模糊糊的概念清晰化，分清理浊，才能让机器更好地理解与处理，后续我们还将逐步阐述其中的更多知识。

从限定词开始 - 词性识别在人工智能自然语言处理中的不足与改进相关推荐

人工智能人脸识别系统,人工智能应用人脸识别
手机人脸识别的原理是什么? . 不同品牌机型采用的面部识别技术方案不同,面部识别效果也会不一样:目前vivo/iQOO系列手机,仅NEX双屏版采用3D人脸识别技术,其余机型均采用FaceWake面部识 ...
自然语言处理中的中文词性、标记规范及其应用
分词和词性标注是自然语言处理领域的重要组成部分,尤其对于中文而言,作为整条自然语言处理pipeline的源头,分词和词性标注更是起到了关键的作用.我整理这篇文章,主要来源于这几个问题: 一.理解中文词 ...
《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：08 自然语言处理中的机器学习方法
08 自然语言处理中的机器学习方法 8.1 机器学习的基本概念 8.1.1 ML类型 8.1.2 ML 监督学习 8.1.3 无监督学习 8.1.4 强化学习 8.2 自然语言处理应用的开发步骤 8. ...
哈工大刘挺：自然语言处理中的可解释性问题！
"知其然,亦知其所以然"是现代计算机科学家针对神经网络可解释性问题追逐努力的方向和梦想.针对自然语言处理中的可解释性问题,哈尔滨工业大学刘挺教授在2022北京智源大会报告中做了详尽 ...
哈工大刘挺：自然语言处理中的可解释性问题
"知其然,亦知其所以然"是现代计算机科学家针对神经网络可解释性问题追逐努力的方向和梦想.针对自然语言处理中的可解释性问题,哈尔滨工业大学刘挺教授在近期的报告中做了详尽的解读.首先介 ...
论文阅读：Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展
Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展目录 Natural Langu ...
综述：自然语言处理中深度学习应用综述
原文链接:https://arxiv.org/abs/1807.10854 在过去几年中,自然语言处理领域由于深度学习模型的使用取得重大突破. 本综述简要介绍了这个领域,并简要概述了深度学习架构和方法 ...
自然语言处理中的预训练技术发展史
公众号关注 "视学算法" 设为 "星标",重磅干货,第一时间送达! 本文作者:张俊林 https://zhuanlan.zhihu.com/p/49271699 ...
《预训练周刊》第19期：歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...
No.19 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期&l ...
黄萱菁：自然语言处理中的可理解分析
与深度学习所面临的困难相似,目前,大规模应用的神经网络模型同样让自然语言处理领域的研究结果难以解释.模型的性能和可解释性仿佛是天生的敌人,统计结果表明,其性能愈佳,结构就越发复杂,越发难以理解. 在诸 ...

从限定词开始 - 词性识别在人工智能自然语言处理中的不足与改进

从限定词开始 - 词性识别在人工智能自然语言处理中的不足与改进相关推荐

最新文章

热门文章