文章目录

  • Morphology(形态学)
    • Morphemes(语素)
      • Concatenative morphology(毗邻语素)
      • Nonconcatenative morphology(非毗邻语素)
    • Words(词)
      • Inflectional morphology(屈折形态学)
      • Derivation morphology(派生形态学)
      • Irregularity(不规则性)
  • Finite State Transducers(有穷状态转换器)
    • Finati State Automata(有穷状态自动机)
      • FSAs and regular expressions(正则表达式)
    • Morphology Parsing(形态剖析)
    • Finite State Transducers(有穷状态转换器)
    • FST and FSA
  • Stemming(词干提取)
  • Tokenization(分词)
  • Algorithem(算法)
    • Weighted Finite State Transducers

Morphology(形态学)

words are not atoms

单词并不是语言的最小单位,它们由更深的内部结构语素(Morphems)构成。

单词就好比化学中的分子虽然是一个整体,而但可以将其拆分为原子,而语素就是够成它的原子。
[example]

  • mis-undersatnd-ing-s
  • 同志们

Morphemes(语素)

Concatenative morphology(毗邻语素)

每个单词由若干语素毗邻组成

  • Roots(词根)

    • 单词的中心语素,是单词的含义
  • Affixes(词缀)
    • Prefixes(前缀)

      • pre-nuptual
      • ir-regular
    • Suffixes(后缀)
      • determin-ize
      • iterat-or
    • Infixes(中缀)
      • Pennsyl-f**kin-vanian
    • Circumfixes(位缀)
      • ge-sammel-t

Nonconcatenative morphology(非毗邻语素)

  • Umlaut(元音变音)

    • foot:feet
    • tooth:teeth
  • Ablaut(元音变换)
    • sing:sang:sung
  • Root-and-pattern morphology(词根与模式语素) or templatic morphology(模板语素)
    • 常见于Arabic(阿拉伯),Hebrew(希伯来),other Afroasiatic(亚非语系)语言中
    • 辅音构成词根,再推入元音
  • Infixation(中缀)
    • Gr-um-adwet

Words(词)

语素构成单词的方法主要为两类:inflrction(屈折)、derivation(派生)。

Inflectional morphology(屈折形态学)

将与上下文相关的信息添加到单词中。这类词之间一般语义相同。
例如上下文中名词的数量、动词的第三人称单数形式等,在句子中表示主谓宾位置的变化等。
[example]

  • Number(singular versus plural)

    • automaton:automata
    • walk:walks
  • Case(nominative versus accusative versus…)
    • he:him:his…

Derivation morphology(派生形态学)

将单词与词缀组合构成新词。这类词之间一般语义不同。
[example]

  • parse:parse
  • repulse:repulsive

Irregularity(不规则性)

屈折形态一般与其词根有关
相同的派生词素根据它所依附的词根可能具有不同的含义与功能

  • Formal irregularity(形式不规则)

    • walk:walked:walked
    • sing:sang:sung
  • Semantic irregularity/unpredictability(语义不规则/不可测)
    • a king-ly old man(使用正确)
    • a slow-ly old man(使用错误)

Finite State Transducers(有穷状态转换器)

Finati State Automata(有穷状态自动机)

正则语言(regular language):能被FSA识别的语言。大多数自然语言都能被表示为正则语言。
形式语言(formal lauguage):一种能被自动机生成或识别的不同于自然语言的语言

  • Q:a finite set of states(有穷状态集)
  • q0q_{0}q0​∈Q:a special start state(特殊的开始状态)
  • F⊆\subseteq⊆Q:a set of final states(结束状态集,是Q的子集)
  • Σ\SigmaΣ:a finite alphabet(有穷字母集)
  • Trancitions(过渡):
  • Encodes a set of strings that can be recongnized by following paths from q0q_{0}q0​ to some state in F.

[example]
关于羊的语言‘baaaa!’的FSA识别过程
它可以识别

baa!
baaa!
baaaa!
...

对应的正则表达式为’baa+!’

[example]
FSA for English Derivational Morphology

FSAs and regular expressions(正则表达式)
  • 正则表达式是描述FSA的一种方法
  • 任何正则表达式都可以用FSA来实现
  • 任何FSA都可以用正则表达式来描述

在某些编程语言(如Perl、Python)中出现的正则表达式的功能经常超越了真正的正则表达式

Morphology Parsing(形态剖析)

输入:单词
输出:由其他语素表达的词干、特征
[example]

  • geese: {goose+N+PI}
  • gooses: {goose+V+3P+Sg}
  • dog: {dog+N+Sg, dog+V}
  • leaves: {leaf+N+PI, leave+V+3P+Sg}

形态分析方法

  • Table(查表)

    • 优点:快速查找
    • 缺点:占用空间大,建立数据库消耗资源大
  • Trie(字典树)
    • 优点:灵活性高
    • 缺点:冗余高
  • Final-state transducer(有穷状态转换机)

Finite State Transducers(有穷状态转换器)

  • Q:a finite set of states(有穷状态集)
  • q0∈q_{0}\inq0​∈Q:a special start state(特殊的开始状态)
  • F⊆\subseteq⊆Q:a set of final states(终止状态集,是Q的子集)
  • Σ\SigmaΣ and Δ\DeltaΔ:two finite alphabets(两个有穷字母集)
  • Transitions(过渡):

    [example]
    通过FSTs进行的形态分析

    形态分析器(morphological analyzer)的构成
  • Morphotactics(形态顺序规则)
    • 建立语素间顺序的模型与映射
  • Allomorphic rules(同构规则)
    • 建立词汇层与表层的映射。如,“zoch^s#” <-> “zoches”
  • orthographic rule(正词法规则)

[example]
一个关于E Insertion rule的FST例子

ϵ⟶e/{sxz}\epsilon \longrightarrow e/\begin{Bmatrix} s\\ x\\ z \end{Bmatrix}ϵ⟶e/⎩⎨⎧​sxz​⎭⎬⎫​^___s#

FST and FSA

FSA的主要表现形式是正则表达式,用于识别(recongnize) 语言。
FST不仅可以识别语言,还能产生(generates) 语言。分析(parse)输入、转化(transform)文字为新的形式

Stemming(词干提取)

Input: a word
Output: the word’s stem (approximately)
[example]

  • -sses→\to→-ss
  • -ies→\to→-i
  • -ss→\to→-s

Tokenization(分词)

Input: raw text
Output: sequence of tokens normalized for easier processing

Algorithem(算法)

Weighted Finite State Transducers


11-411/611NLP Lecture 4.Words and Morphology相关推荐

  1. 苹果4s怎么越狱教程_苹果iOS 11.4-11.4.1越狱发布:附越狱教程

    来自1月30日晚间消息,国外Electra团队正式发布了苹果iOS 11.4 - 11.4.1越狱(1.2.0版本),新的版本越狱工具支持适用iOS 11.0–11.4.1内的所有iPhone设备.i ...

  2. Electra 支持 iOS 11.4.1 正式版越狱

    在 2018 年 Electra 最新能支持到 11.3.1 越狱,很长的一段时间 11.4 只能支持 Beta 版本,临近春节给了我们一个大礼物,终于支持 iOS 11.4-11.4.1,目前 iO ...

  3. iOS 11.4.1 正式版越狱

    在 2018 年 Electra 最新能支持到 11.3.1 越狱,很长的一段时间 11.4 只能支持 Beta 版本,临近春节给了我们一个大礼物,终于支持 iOS 11.4-11.4.1,目前 iO ...

  4. 2020天猫淘宝双11超级红包怎么领

    超级红包领取入口 第一次抢的100%中奖,领取淘口令:¥YkdnciQvcdh$,长按复制本条信息,到[手机淘宝]即可查看 天猫双十一领红包地址:https://1111.tmall.com (每天都 ...

  5. 2021年京东双11购物节如何买才能最优惠?京东双11优惠规则规则

    2021年京东双11购物节如何买才能最优惠?京东双11优惠规则规则 2021年"双11"已经打响了第一枪.10月17日,京东举行"双11"大促发布会," ...

  6. 阿里达摩盘:双11大促人群诊断、DEEPLINK洞察、大促标签定制

    作者介绍 画像数据产品@草帽小子 <大数据实践之路:中台+分析+应用>核心作者 著有用户画像.标签体系.广告投放等系列文章 人人都是产品经理专栏作家 "数据人创作者联盟" ...

  7. Oracle Solaris 11.4安装桌面/gdb

    文章目录 1. 说明 2. 挂载镜像 3. 安装桌面 4. 安装gdb 5. 重启OS 1. 说明 该文承接上文Solaris 11.4安装,映像包管理系统(IPS)搭建. Solaris 11.4的 ...

  8. 技术博客2013年11月份头条记录

    =============11.29-11.30头条回顾============ Hadoop完整安装配置 [Hadoop专业解决方案之构建Hadoop企业级应用][Hadoop运维全记录] [从库宕 ...

  9. CS229 6.5 Neurons Networks Implements of Sparse Autoencoder

    sparse autoencoder的一个实例练习,这个例子所要实现的内容大概如下:从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张,现在需要用sparse autoen ...

  10. Steave Jobs

    乔布斯传中总计包括数字在内用词15487个. 出现3次(包括三次以上的单词)6788个. 1: 49 1,000: 9 1,500: 3 1,995: 3 1.0: 4 1.2: 3 1.8-inch ...

最新文章

  1. 事务隔离机制原理深入分析以及MySQL不同隔离级别分场景下实验对比
  2. Ubuntu系统安装stardict(星际译王)词典
  3. 程序员面试题精选100题(14)-圆圈中最后剩下的数字[算法]
  4. js javascript 实现多线程
  5. java处理文件路径windows与linux兼容问题
  6. 在SunOS5.8/solaris7上使用Xerces-C解析器
  7. 技术干货 | 为高音质保驾护航 - 通信中的回声消除
  8. typescript数组,对象,接口实例
  9. 【剑指offer】面试题56 - I:数组中数字出现的次数 I
  10. 超越传感器和相机 - 将物联网从云端迁移到物理世界
  11. WPF窗体隐藏鼠标光标的方法
  12. 为什么说Java中要慎重使用继承
  13. 会聊天到底有多重要?汽车语音识别大盘点
  14. Scala中的Apply方法与伴生对象
  15. 用ubuntu+Eclipse+PyDev制作第一个Django站点
  16. 02 华为交换机配置telnet远程登录
  17. amd显卡驱动目录linux,面向 Radeon、Radeon Pro、FirePro、APU、CPU、锐龙、台式机、笔记本的 AMD 驱动程序和支持...
  18. java opennlp_在java中使用opennlp提取名词短语
  19. 西门子1200控制V90伺服,西门子1200通过PN通讯控制V90伺服,程序控制采用FB285功能块
  20. Flink SQL Client的使用

热门文章

  1. 计算机系统保密检查整改情况函,保密工作整改情况汇报
  2. jdk 文档下载地址
  3. php+mysql图书管理系统
  4. 三菱fx3uplc恢复出厂设置_三菱fx3u plc解密过程与步骤分享
  5. 标签打印软件中Excel数据整理及导入
  6. 2019PMP项目管理考试报名时间取证流程-真题模拟题
  7. vs各个版本的编译器号
  8. 【深入浅出通信原理-学习笔记】天线技术
  9. abaqus一维固结模拟
  10. linux 服务器长ping 加时间戳