11-411/611NLP Lecture 4.Words and Morphology
文章目录
- Morphology(形态学)
- Morphemes(语素)
- Concatenative morphology(毗邻语素)
- Nonconcatenative morphology(非毗邻语素)
- Words(词)
- Inflectional morphology(屈折形态学)
- Derivation morphology(派生形态学)
- Irregularity(不规则性)
- Finite State Transducers(有穷状态转换器)
- Finati State Automata(有穷状态自动机)
- FSAs and regular expressions(正则表达式)
- Morphology Parsing(形态剖析)
- Finite State Transducers(有穷状态转换器)
- FST and FSA
- Stemming(词干提取)
- Tokenization(分词)
- Algorithem(算法)
- Weighted Finite State Transducers
Morphology(形态学)
words are not atoms
单词并不是语言的最小单位,它们由更深的内部结构语素(Morphems)构成。
单词就好比化学中的分子虽然是一个整体,而但可以将其拆分为原子,而语素就是够成它的原子。
[example]
- mis-undersatnd-ing-s
- 同志们
Morphemes(语素)
Concatenative morphology(毗邻语素)
每个单词由若干语素毗邻组成
- Roots(词根)
- 单词的中心语素,是单词的含义
- Affixes(词缀)
- Prefixes(前缀)
- pre-nuptual
- ir-regular
- Suffixes(后缀)
- determin-ize
- iterat-or
- Infixes(中缀)
- Pennsyl-f**kin-vanian
- Circumfixes(位缀)
- ge-sammel-t
- Prefixes(前缀)
Nonconcatenative morphology(非毗邻语素)
- Umlaut(元音变音)
- foot:feet
- tooth:teeth
- Ablaut(元音变换)
- sing:sang:sung
- Root-and-pattern morphology(词根与模式语素) or templatic morphology(模板语素)
- 常见于Arabic(阿拉伯),Hebrew(希伯来),other Afroasiatic(亚非语系)语言中
- 辅音构成词根,再推入元音
- Infixation(中缀)
- Gr-um-adwet
Words(词)
语素构成单词的方法主要为两类:inflrction(屈折)、derivation(派生)。
Inflectional morphology(屈折形态学)
将与上下文相关的信息添加到单词中。这类词之间一般语义相同。
例如上下文中名词的数量、动词的第三人称单数形式等,在句子中表示主谓宾位置的变化等。
[example]
- Number(singular versus plural)
- automaton:automata
- walk:walks
- Case(nominative versus accusative versus…)
- he:him:his…
Derivation morphology(派生形态学)
将单词与词缀组合构成新词。这类词之间一般语义不同。
[example]
- parse:parse
- repulse:repulsive
Irregularity(不规则性)
屈折形态一般与其词根有关
相同的派生词素根据它所依附的词根可能具有不同的含义与功能
- Formal irregularity(形式不规则)
- walk:walked:walked
- sing:sang:sung
- Semantic irregularity/unpredictability(语义不规则/不可测)
- a king-ly old man(使用正确)
- a slow-ly old man(使用错误)
Finite State Transducers(有穷状态转换器)
Finati State Automata(有穷状态自动机)
正则语言(regular language):能被FSA识别的语言。大多数自然语言都能被表示为正则语言。
形式语言(formal lauguage):一种能被自动机生成或识别的不同于自然语言的语言
- Q:a finite set of states(有穷状态集)
- q0q_{0}q0∈Q:a special start state(特殊的开始状态)
- F⊆\subseteq⊆Q:a set of final states(结束状态集,是Q的子集)
- Σ\SigmaΣ:a finite alphabet(有穷字母集)
- Trancitions(过渡):
- Encodes a set of strings that can be recongnized by following paths from q0q_{0}q0 to some state in F.
[example]
关于羊的语言‘baaaa!’的FSA识别过程
它可以识别
baa!
baaa!
baaaa!
...
对应的正则表达式为’baa+!’
[example]
FSA for English Derivational Morphology
FSAs and regular expressions(正则表达式)
- 正则表达式是描述FSA的一种方法
- 任何正则表达式都可以用FSA来实现
- 任何FSA都可以用正则表达式来描述
在某些编程语言(如Perl、Python)中出现的正则表达式的功能经常超越了真正的正则表达式
Morphology Parsing(形态剖析)
输入:单词
输出:由其他语素表达的词干、特征
[example]
- geese: {goose+N+PI}
- gooses: {goose+V+3P+Sg}
- dog: {dog+N+Sg, dog+V}
- leaves: {leaf+N+PI, leave+V+3P+Sg}
形态分析方法
- Table(查表)
- 优点:快速查找
- 缺点:占用空间大,建立数据库消耗资源大
- Trie(字典树)
- 优点:灵活性高
- 缺点:冗余高
- Final-state transducer(有穷状态转换机)
Finite State Transducers(有穷状态转换器)
- Q:a finite set of states(有穷状态集)
- q0∈q_{0}\inq0∈Q:a special start state(特殊的开始状态)
- F⊆\subseteq⊆Q:a set of final states(终止状态集,是Q的子集)
- Σ\SigmaΣ and Δ\DeltaΔ:two finite alphabets(两个有穷字母集)
- Transitions(过渡):
[example]
通过FSTs进行的形态分析
形态分析器(morphological analyzer)的构成 - Morphotactics(形态顺序规则)
- 建立语素间顺序的模型与映射
- Allomorphic rules(同构规则)
- 建立词汇层与表层的映射。如,“zoch^s#” <-> “zoches”
- orthographic rule(正词法规则)
[example]
一个关于E Insertion rule的FST例子
ϵ⟶e/{sxz}\epsilon \longrightarrow e/\begin{Bmatrix} s\\ x\\ z \end{Bmatrix}ϵ⟶e/⎩⎨⎧sxz⎭⎬⎫^___s#
FST and FSA
FSA的主要表现形式是正则表达式,用于识别(recongnize) 语言。
FST不仅可以识别语言,还能产生(generates) 语言。分析(parse)输入、转化(transform)文字为新的形式
Stemming(词干提取)
Input: a word
Output: the word’s stem (approximately)
[example]
- -sses→\to→-ss
- -ies→\to→-i
- -ss→\to→-s
Tokenization(分词)
Input: raw text
Output: sequence of tokens normalized for easier processing
Algorithem(算法)
Weighted Finite State Transducers
11-411/611NLP Lecture 4.Words and Morphology相关推荐
- 苹果4s怎么越狱教程_苹果iOS 11.4-11.4.1越狱发布:附越狱教程
来自1月30日晚间消息,国外Electra团队正式发布了苹果iOS 11.4 - 11.4.1越狱(1.2.0版本),新的版本越狱工具支持适用iOS 11.0–11.4.1内的所有iPhone设备.i ...
- Electra 支持 iOS 11.4.1 正式版越狱
在 2018 年 Electra 最新能支持到 11.3.1 越狱,很长的一段时间 11.4 只能支持 Beta 版本,临近春节给了我们一个大礼物,终于支持 iOS 11.4-11.4.1,目前 iO ...
- iOS 11.4.1 正式版越狱
在 2018 年 Electra 最新能支持到 11.3.1 越狱,很长的一段时间 11.4 只能支持 Beta 版本,临近春节给了我们一个大礼物,终于支持 iOS 11.4-11.4.1,目前 iO ...
- 2020天猫淘宝双11超级红包怎么领
超级红包领取入口 第一次抢的100%中奖,领取淘口令:¥YkdnciQvcdh$,长按复制本条信息,到[手机淘宝]即可查看 天猫双十一领红包地址:https://1111.tmall.com (每天都 ...
- 2021年京东双11购物节如何买才能最优惠?京东双11优惠规则规则
2021年京东双11购物节如何买才能最优惠?京东双11优惠规则规则 2021年"双11"已经打响了第一枪.10月17日,京东举行"双11"大促发布会," ...
- 阿里达摩盘:双11大促人群诊断、DEEPLINK洞察、大促标签定制
作者介绍 画像数据产品@草帽小子 <大数据实践之路:中台+分析+应用>核心作者 著有用户画像.标签体系.广告投放等系列文章 人人都是产品经理专栏作家 "数据人创作者联盟" ...
- Oracle Solaris 11.4安装桌面/gdb
文章目录 1. 说明 2. 挂载镜像 3. 安装桌面 4. 安装gdb 5. 重启OS 1. 说明 该文承接上文Solaris 11.4安装,映像包管理系统(IPS)搭建. Solaris 11.4的 ...
- 技术博客2013年11月份头条记录
=============11.29-11.30头条回顾============ Hadoop完整安装配置 [Hadoop专业解决方案之构建Hadoop企业级应用][Hadoop运维全记录] [从库宕 ...
- CS229 6.5 Neurons Networks Implements of Sparse Autoencoder
sparse autoencoder的一个实例练习,这个例子所要实现的内容大概如下:从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张,现在需要用sparse autoen ...
- Steave Jobs
乔布斯传中总计包括数字在内用词15487个. 出现3次(包括三次以上的单词)6788个. 1: 49 1,000: 9 1,500: 3 1,995: 3 1.0: 4 1.2: 3 1.8-inch ...
最新文章
- 事务隔离机制原理深入分析以及MySQL不同隔离级别分场景下实验对比
- Ubuntu系统安装stardict(星际译王)词典
- 程序员面试题精选100题(14)-圆圈中最后剩下的数字[算法]
- js javascript 实现多线程
- java处理文件路径windows与linux兼容问题
- 在SunOS5.8/solaris7上使用Xerces-C解析器
- 技术干货 | 为高音质保驾护航 - 通信中的回声消除
- typescript数组,对象,接口实例
- 【剑指offer】面试题56 - I:数组中数字出现的次数 I
- 超越传感器和相机 - 将物联网从云端迁移到物理世界
- WPF窗体隐藏鼠标光标的方法
- 为什么说Java中要慎重使用继承
- 会聊天到底有多重要?汽车语音识别大盘点
- Scala中的Apply方法与伴生对象
- 用ubuntu+Eclipse+PyDev制作第一个Django站点
- 02 华为交换机配置telnet远程登录
- amd显卡驱动目录linux,面向 Radeon、Radeon Pro、FirePro、APU、CPU、锐龙、台式机、笔记本的 AMD 驱动程序和支持...
- java opennlp_在java中使用opennlp提取名词短语
- 西门子1200控制V90伺服,西门子1200通过PN通讯控制V90伺服,程序控制采用FB285功能块
- Flink SQL Client的使用