(3)形态学:语言的词汇----NLP的语言学基础
术语:
- 词库:心理词典
- 正字法: 心理词库中为每个词独特的语音表征、发音、语义的方法
- 语法范畴/语法类:词的性质
1 词典
2 实义词和功能词
- 实义词/开放类:名词、动词、形容词、副词
- 功能词/功能词/封闭类:连词、借此、冠词,界定语法关系,很少或根本没有语义
- 人脑处理功能词和实义词的方法不同
3 语素:意义的最小单位
- 形态学:对词的内部结构和构词规则的研究
- 词汇可以分解为语素,体现了人类语言的另一个特征:离散性(BPE等sub_words的语言学原理?)
3.1 黏着语素与自由语素
3.1.1 前缀和后缀
3.1.2 中缀
3.1.3 外接缀/非连续语素:同一个语基语素的开头和末尾附加上的语素
3.1.4 词根和词干
- 词根:无法进一步分析为更小成分,具有实际意义词汇的语素
- 词干:词根语素和词缀的结合
4 构词规则
4.1 派生形态学
- 将黏着语素加到一个词基上:pure + -ify --> purify
4.2 词的层级结构
- 用树形图来表征词(以及句子)的层级组成
- 有时存在歧义问题,类似if-else嵌套时的匹配问题
4.3 派生语速再论
- 一些词通过形态规则进入词库,但是另一些会被堵塞:commum ist为词,commum ian 不是
4.4 词汇缺位
- 合式但并不存在的词
4.5 规则的能产性
- 一些形态规则具有能产性:它们能够自由加以运用,从而将清单中的自由语素和黏着语素组成新词
5 手语形态学
6 创造新词
6.1 来自名字的词
6.2 逆构词
- 一个新词因为不正确的词汇形态分析进入语言,eg. 错误认为-er为后缀,从peddler派生出peddle
6.3 复合词
6.3.1 复合词的意义
- 不总是组成部分意义的总和
- 表现出组成成分之间的其他语义关系
6.3.2 复合构词的普遍性----存在于各种语言
6.4 拦截词
- 由两个词构成,一部分合成之后被删除
6.5 缩减词
- 截短词:将较长的的词截为较短
- 缩略词:提取首字母
7 曲折语素
- 有严格语法功能的黏着语素,标明“时态、数、性、格”等的黏着语素
- 派生语素是没有屈折变化的 词缀,曲折语速标志着语法关系
7.1 例外与异干替换
- 异干替换:不规则形式,如go-went
7.2 形态和句法
- 一些语法关系可以或者通过屈折形式或者句法来表示
8 形态分析:辨认语素:寻找反复出现的形式
(3)形态学:语言的词汇----NLP的语言学基础相关推荐
- NLP相关的语言学基础
前言 自然语言处理是一门融语言学.计算机科学.数学于一体的科学.只会数学和计算机是不够的,本文补充相关的语言学基础. 语言学是以人类语言为研究对象的学科. 探索范围包括语言的性质.功能.结构.运用和历 ...
- c语言常用词汇下载,C语言常用词汇表
C语言常用词汇表 大小cost花费pay支付area 面积rate速度,比率,价格count 折扣total 总计size 大小sizeof字节data 数据default默认,缺省constant ...
- c语言题目翻译,c语言专业词汇表达带翻译
c语言专业词汇表达带翻译 学习c语言的.时候,我们会遇到很多比较专业的相关英语词汇,这也就需要我们努力掌握c语言学习中专业的英语词汇,那么下面就一起来学习吧. c语言专业词汇表达 Address 地址 ...
- 南师大考研632c语言,2019南京师范大学外国语言学及应用语言学考研623外国语言文学基础知识与汉语写作与830英语语言学基础知识与翻译考试真题试卷...
2019南京师范大学外国语言学及应用语言学考研623外国语言文学基础知识与汉语写作与830英语语言学基础知识与翻译考试真题试卷 本复习全析是由仙林南师大考研网依托多年丰富的教学与辅导经验,组织仙林教学 ...
- C语言常用词汇积累及其翻译,c语言重要专业词汇带翻译
在学习c语言的.过程中,掌握重要的一些专业英语词汇是非常重要的,那么下面就来学习一些带翻译的c语言重要专业词汇吧,欢迎大家一起学习. c语言重要专业词汇 运算符与表达式: 1.constant 常量 ...
- 自然语言处理2——语言学基础
自然语言处理2--语言学基础 文章目录 自然语言处理2--语言学基础 词性与词法 短语结构 语义和语用 词性与词法 词性分类: 开放类(词汇类):名词.动词.形容词 封闭类(功能类):介词.限定词等 ...
- 统计自然语言处理基础-第三章 语言学基础(笔记)
3 语言学基础 语言学概念+语法(句子结构)现象(附着歧义.短语结构)+词法(词语形成)+语义 3.1 词性和词法 句法=语法类=词性(POS):按照词的语法结构和典型的语义类型分类,类别的名称 开放 ...
- 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第二章 数学基础与语言学基础
前言 关毅老师,现为哈工大计算机学院语言技术中心教授,博士生导师.通过认真学习了<自然语言处理(哈工大 关毅 64集视频)>1(来自互联网)的课程,受益良多,在此感谢关毅老师的辛勤工作!为 ...
- 第二节 数学基础与语言学基础
数学基础与语言学基础内容: 数学基础:概率论,(从大规模预料中统计较小的语言单位的相关的统计信息,然后运用统计推理技术计算更高一级的语言单位出现的概率) 语言学基础 实用知识 统计自然语言处理的步骤: ...
最新文章
- 57-高级路由:分发列表:多协议分发列表实验:DV、LS
- IOS开发数据库篇--- sqlite常用语句
- mysql后台修改表_mysql之约束以及修改数据表
- Hashtable TreeMap HashMap LinkedHashMap的区别
- maxthon在浏览的页面上右键按住不动再按滚轮可以对打开的选项卡进行选择!
- c 普通的文本变成注释文本的快捷键_IntelliJ Idea 常用快捷键列表 (2019年总结)
- 切换网络配置之脚本法
- [置顶] 动软软代码生成器使用(127.0.0.1)无法看到 SQLServer2008 新附加数据库的 原因 以及 解决方案...
- WPF 左侧菜单样式
- 面向对象并不是必要的
- 漫话:如何给女朋友解释String对象是不可变的?
- P5737 【深基7.例3】闰年展示(python3实现)
- 理论基础 —— 排序 —— 直接插入排序
- Springboot配置文件
- 教你傻瓜式抠图透明图透头像透明字体
- 笔记本win10玩红警黑屏_外星人笔记本新手优化教程
- 15-传输层协议和应用层协议
- 居家第二十六天烤鸡翅
- Ubuntu神奇地变成了只读文件系统的错误--修复方法
- 计算机视觉与音乐,探索计算机视觉与音频的交叉:基于视觉的音乐相关研究Review...
热门文章
- Firefox OS应用程序入门
- dataguard 版本必须一致吗?
- 【小知识】opencv里去掉小连通区域的函数remove_small_objects()解析
- pandas的行列获取/pandas iloc和loc的使用/如何获取pandas的行和列
- 前端CDN资源库,再也不用担心vue首次加载慢的问题了,vue项目必备cdn加速
- PMO如何采用两个维度进行绩效考核
- linux怎么查看内容并显示行号,linux中查看文件时显示行号
- Dalvik 指令学习
- 【C库函数】strlen函数详解
- matlab 毕业论文题目,matlab论文题目