【9月16日】中文信息MMT模型
近期读了《自然语言处理的形式模型》一书,为冯志伟老先生的科研精神点赞。致敬。
作者根据依存语法和德国配价语法的精髓,针对N.Chomsky短语结构语法的弱点和汉语语法的特点,在80年代初提出了Multiple branched Multiple labeled Tree analysis,即多叉多标记树形图分析法(有称“中文信息MMT模型”)。 早期的MMT模型提出汉语中的一系列的特征/值系统,用于揭示或者挖掘深层次的语法、语义以及语用信息。在各类特征中,主要分为三类:
- 静态特征: 词类特征;单词的固有语义特征;单词固有的语法特征。这类特征是直接在字典中可以找到的,为单词的本身固有的特征。
- 动态特征: 词组类型特征;句法功能特征;语义关系特征;逻辑关系特征。这类特征并不是单词本身固有的特征,而是词之间相互联系之后产生的特征。
以上也称为“双态原则”,这对于自然语言自动处理系统的设计具有指导作用。在实际操作时,计算机先从“字典”中查询静态特征,在静态特征的基础上进一步求解动态特征。下面就这些特征/值进行梳理。
词类特征
词类是中文句子的基本特征之一,记为CAT。 CAT值:名词,处所词,方位词,时间词,区别词,数词,量词,体验性代词,谓语性代词,动词,形容词,副词,介词,连词,助词,语气词,拟声词,感叹词。 为了便于计算机处理,可以将标点符号以及供词各作为一种“类型”。也就是说,CAT可以取20个不同的值。每个特征还可以进行进一步的细分,如形容词可以进一步细分为性质形容词和状态形容词等……
词组特征
词组类型是描述中文的另一个特征,记为K。 K值:动词词组,名词词组(包含介词词组),形容词词组,数量词组。 将介词词组并入名词词组,是因为从信息处理的角度来看,介词词组中的介词,实际上只是它后面的名词词组的功能的一种标志,并入名词词组处理更为方便。
语义特征
词的语义特征,是指词的语义类别。它表示的是孤立的单词的语义,而不是单词与单词之间的语义。单词的固有语义特征记为SEM。 SEM可取如下的值和子值。 物象:其子值为生物,无生物,机关组织,类别名称。 物资:其子值为设备,产品,原材料。 现象:其子值为自然现象,人工现象,社会现象,力能现象。 时空:其子值为时间,空间。 测度:其子值为数量,单位,标准。 抽象:其子值为学问,概念,符号。 属性:其子值为性质,形状,关系,结构。 行动:其子值为行为,动作,操作。 这些固有语义特征都标在词典上孤立的词上面,成为单词本身固有的语义属性。冯先生后又从知识本体(ontology)的角度,提出了更加完善的语义分类系统(冯志伟.术语学中的概念系统与知识本体[J].术语标准化与信息化,2006,1.)
语法特征
孤立的词也是固有语法特征。例如,不同的名词要求不同的量词,因此,带量词特征,就是名词的固有的语法特征;又如,动词有“及物”和“不及物”之分;再如,不同动词的“价”也不同。 词固有的语法特征记为GRM. 语法特征也可以具有子值。除“及物”之外,对一个对我来说比较新的概念--“价”进行说明。其实这个化学中的化学物的“化合价”有同工之妙。动词的“价”反应的是该动词的语法特征,具体来说: “一价”动词只有一个主语,如“咳嗽”;“二价”动词可以有一个主语和一个宾语,如“写”;“三价”动词可以有一个主语,一个直接宾语和一个间接宾语,如“给”。
句法功能
中文中词组类型和句法功能没有明确的对应关系。在中文句子的自动分析中,必须注意句法的功能特征,这些特征都是在句子的自动分析中产生的,不是词或者词组的固有特征。 语法功能记为SF(solo咩?我的SF贼6)。 SF可取如下值:主语,谓语,宾语,定语,状语,补语,述语,中心语。
语义关系特征
区别于上述的单词固有的语义特征,语义特征是在计算机自动进行句法语义分析的过程中通过运算得出的。孤立的词没有语义关系,只有两个以上的单词或者词组才会产生语义关系。 语义关系特征记为SM。 SM可取值:主体者,对象者,收益者,时刻,时段,时间七点,时间终点,空间点,空间段,空间起点,空间终点,初态,末态,原因,结果,目的,工具,方法,条件,内容,范围,比较,伴随,程度,附加,修饰等。当然还可以继续细分。
逻辑关系
如果把句子看成一个命题逻辑,那么命题逻辑与它的各个论元之间还存在着逻辑关系。由于逻辑命题的各个论文在句子中是由句子中的词或者词组来充当的,故这些词或者词组就存在逻辑关系。这种关系就是N.Chomsky所说“题元关系”。 逻辑关系记为LR. LR可取值: 论元0:它是句子的深层主语; 论元1:它是句子的深层直接宾语; 论元2:它是句子的深层间接宾语。 每一个论元起且仅起一个题元的作用。
【9月16日】中文信息MMT模型相关推荐
- 3D打印机硬件驱动-马林固件最新版本2.0.X中文注释(1)marlin 2.0.9.2 截至发稿时间2021年12月16日
马林固件最新版本翻译注释 /*============================================================================== Marlin ...
- 聚观早报|百度3月16日发布文心一言;特斯拉被控维修和零部件垄断
今日要闻:百度将3月16日发布「文心一言」:央视3·15曝光诱骗老人直播间均已被封:特斯拉在美国被控「维修和零部件垄断」:英伟达降低 40 系显卡欧洲售价:谷歌在Gmail等办公应用中引入AI技术 百 ...
- 【历史上的今天】12 月 16 日:晶体管问世;IBM 停售 OS/2;科幻小说巨匠诞生
整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 12 月 16 日,在 1998 年的今天,"首都之窗"站点正式开通,成为我国第 ...
- 【历史上的今天】2 月 16 日:世界上第一个 BBS 诞生;中国计算机教育开端;IBM 机器人赢得智能竞赛
整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2023 年 2 月 16 日,在 1914 年的今天,世界第一条空中航线--美国洛杉矶到旧金山航线开通.洛杉矶位 ...
- 微软或将于下周推出GPT-4;百度将在3月16日发布文心一言;小i机器人成功登陆纳斯达克丨每日大事件...
数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 百度计划于3月16日14时召开新闻发布会,主题围绕文心一言 3月10日,据百度官方微博消息,百度计划于3月16日14时在北京总部召 ...
- 互联网晚报 | 06月16日 星期四 | 优酷会员涨价;微信朋友圈广告可直达天猫店;爱奇艺否认百度出售其股份...
优酷会员价格追平腾讯爱奇艺,单月价格将调整至30元 6月15日,优酷宣布调整会员价格.6月21日零时起,月卡调整至30元.季卡78元.年卡258元,88VIP不受影响.调整后优酷会员价格追平腾讯爱奇艺 ...
- 最新手机号段归属地数据库(2017年4月16日版)免费下载
2017年4月16日版 360569条记录 最新 手机号段数据库 号码归属地数据库 移动号段 联通号段 电信号段 14号段 170号段(虚拟运营商) 权威 全面 准确 规范 字段包括 ...
- 记录值上调10_「阴阳师」10月16日维护更新公告,海国迷踪,迷影重重
重要更新 1.活动-海国迷踪 ※晴明一行人自日轮之城归来后,发觉黑夜山.七角山.逢魔之原三地出现异样,便立刻派出童女.白狼.童男分别前往附近地区进行探查,海国大军的密谋逐渐浮出水面...... ※活动 ...
- 分享Silverlight/WPF/Windows Phone/HTML5一周学习导读(4月16日-4月22日)
分享Silverlight/WPF/Windows Phone/HTML5一周学习导读(4月16日-4月22日) 本周Silverlight学习资源更新 银光中国网友原创:Silverlight中获取 ...
最新文章
- Linux系统分辨率设置
- R语言ggplot2可视化散点图、移除可视化图像中的网格线(remove gridlines)
- wxWidgets:wxCriticalSectionLocker类用法
- string.Format出现异常输入的字符串格式有误的解决方法
- matlab z变换离散化_用C++编写一个简单的光栅化渲染器:3D篇
- WinHEC(Windows硬件project产业创新峰会)将2015回归
- Java IO: FileReader和FileWriter
- vue - cli 脚手架安装
- 何小鹏:雷军造车是我“怂恿的” 我一直建议小米要造车
- 特斯拉全球超级充电站已超过25000座 国内超过870座
- ionic 组件之二维码扫描
- Bailian2886 能被3除尽的数之和【进制】
- 《大道至简》的幕后故事(2):“愚公移山记”人物篇
- Ali-Tomcat 安装
- Lingo多版本下载地址和安装教程
- Druid-1.1.12.jar下载 (链接下载+使用)
- 海康威视sdk语音转发(实现)implementation ‘com.hikvision.ezviz:ezviz-sdk:4.8.3‘(修改)
- 汉诺塔游戏设计(C++控制台版)
- Kafka ui 搭建以及使用
- instagram分享_存档instagram帐户正在教被忘记的历史