论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner

  • 1. 文章简介
  • 2. 文章背景
  • 3. 文章导读
    • 3.1 概括
    • 3.2 文章重点技术
      • 3.2.1 SL和TL的相似度
      • 2.2.2 句子长度
      • 2.2.3 Word Correspondance
      • 2.2.4 Numeric, Phonetic, and Cognate Matching (NPC)
      • 2.2.5 Common Word Count (CWC)
      • 2.2.6 Synonym Intersection (SNI)
      • 2.2.7 Hypernym Intersection (HPI)
    • 2.3 编译&预处理
    • 2.4 结合方法
  • 3. 文章亮点
  • 4. 原文传送门
  • 5. References

1. 文章简介

  • 标题:Exploring Translation Similarities for Building a Better Sentence Aligner
  • 作者:Anil Kumar Singh, Samar Husain
  • 日期:2007
  • 期刊:IICAI

2. 文章背景

  定义翻译任务中的源文本句子为Source Language(SL) 句子,目标文本句子为Target Language(TL)句子。句子对齐(Sentence Alignment)任务是指要从TL集合中找到哪个句子是某个SL的翻译。
  句子翻译可能存在插入、删除、扩充、收缩等情况,这些情况使得源文本和目标文本可能不是一一对应的(从单词、句子、句法层面来说都可能不是一一对应)。
  一般来说,句子对齐方法分为几下几种:

  • 基于句子长度的对齐方法:基于SL句子和其对应的TL句子长度很可能相似。
  • 基于单词对应性(correspondance)的对齐方法:基于SL和TL单词的分布很可能相似。
  • 基于上述两者结合和方法

3. 文章导读

3.1 概括

  本文尝试将句子长度、单词对应性(correspondance)、同源匹配等方法进行结合,构造一个句子对齐工具。

3.2 文章重点技术

3.2.1 SL和TL的相似度

  文章指出,源文本SL和翻译文本TL之间在以下几方面存在相似度:

  • 符号学 Symbolic:SL和TL的符号可能不完全相同,但一般存在对应关系。

    • 公共符号(阿拉伯数字等)
    • 专有名词
    • 外来词
    • 语音和词汇的对应关系
  • 元-句法 Meta-syntactic:一种简单识别句子动词(名词)的方法
  • 句法Syntactic:句子组成成分的顺序、结构等
  • 元-语法 Meta-Semantic:例如信息量,一种简单度量句子长度的方法(基于句子长度的对齐方法就是采用该相似度衡量
  • 语法 Semantic:涵义、知识等。语法相似度可能是句子对齐任务的最终衡量标准,即确定了两个文本的语法相似度基本上可以锁定对应的句子。但是句子对齐任务不一定需要用到语法信息,或者说不一定需要用到全部语法信息。

2.2.2 句子长度

  文章使用可定制化的加权的句子长度(WSL, Weighted Sentence Length)来衡量句子长度层面相似度。文章从三个维度计算WSL
(1) 单词计数(wc, word count),即考虑每个句子的单词数量。参见[1]
(2) 字符计数(cc, character count),即考虑每个句子的字符数量。参见[1]
(3) 句子签名(sig, signature of sentence):使用句子中所有单词的ASCII值和作为句子的一个签名。如果有将SL翻译为TL的辞典,那么我们将SL中的所有在辞典中的词语替换为其对应的TL单词,这样SL和TL在辞典中的词语有相同的ASCII值,最后对应句子的签名会更接近。这个过程我们称为substitution
  文章手动标记来7000句子其中的SL和TL的对应关系,计算所有SL-TL的signature、char count和word count的相关性。**相关性越大,说明该指标越能表征句子对是否对齐。**得到sig的相关性为0.814,cc的相关性为0.816,wc的相关性为0.783。结果表明sig的相关性大于 wc相关性,说明可以将signature作为句子相似度的一个补充。
 WSL的计算公式如下 l = w w c l w c + w c c l c c + w s i g l s i g , w w c + w c c + w s i g = 1 \begin{equation}l=w_{wc} l_{wc} + w_{cc}l_{cc} + w{sig}l_{sig}, w_{wc} + w_{cc} + w{sig} =1 \end{equation} l=wwc​lwc​+wcc​lcc​+wsiglsig​,wwc​+wcc​+wsig=1​​
其中 l w c , l c c , l s i g l_{wc}, l_{cc}, l_{sig} lwc​,lcc​,lsig​为各个相似度标准化之后的值,比如 l w c = l w c max ⁡ { l w c s ∣ s ∈ S } l_{wc}= \frac{l_{wc}}{\max\{l_{wc_s} | s\in S\}} lwc​=max{lwcs​​∣s∈S}lwc​​,其中 S S S为所有句子,从而使得得到的 l w c ∈ [ 0 , 1 ] l_{wc} \in [0,1] lwc​∈[0,1]。
  假设WSL服从参数为 r l s rl_s rls​的泊松分布(对随机事件发生次数进行建模的分布),其中 r r r为TL和SL的平均句子长度之比。则给定SL的WSL,TL的WSL满足 p ( l t ∣ l s ) = e − l s r ( l s r ) l t l t ! \begin{equation}p(l_t|l_s) = \frac {e^{-l_sr} (l_s r)^{l_t}}{l_t !}\end{equation} p(lt​∣ls​)=lt​!e−ls​r(ls​r)lt​​​​(详见[3],基本思想就是“SL的每个单词根据泊松分布翻译成TL中的单词/单词组,其均值可以简单地估计为两种语言的平均句子长度之比。)

2.2.3 Word Correspondance

  文章基于IBM模型得到SL和TL之间的单词分布相似度,用于在word correspondance层面衡量句子对齐相似度。

2.2.4 Numeric, Phonetic, and Cognate Matching (NPC)

  文章还考虑了包含数字、专有名词、同源词或外来词的句子。对于该类句子,文章按照[4]中的方法进行比较:首先进行字符匹配,接着计算DTW距离衡量句子相似度

2.2.5 Common Word Count (CWC)

  首先将SL句子中属于辞典中的单词全部翻译并替换为TL中的单词,然后分别计算得到SL和TL的词袋,得到SL和TL每对句子的公共单词个数(词袋的交集),并除以句子的总长度进行标准化,得到0~1之间的数值,即为CWC。

2.2.6 Synonym Intersection (SNI)

  类似2.2.5,我们现在计算两个句子的同义词交集,来表示两个句子在抽象层面的相交情况。文章从WordNet获取到SL的同义词辞典,然后将TL中的所有单词替换为它在SL中的翻译 单词,接着计算SL和TL的同义词词袋(每组同义词选择一个固定的单词),计算每对SL和TL句子中公共单词(同义词认为相同)个数,并除以句子的总长度进行标准化,得到0~1之间的数值,即为SNI。

2.2.7 Hypernym Intersection (HPI)

  Hypernym即泛化词(如color是red对hypernym)。HPI的计算方法和SNI相同,除了将其中的同义词用Wordnet的泛化词词表代替。

2.3 编译&预处理

  首先我们得到单词的Word Type(包含单词字符串、POS tag(if available)、单词签名、表明单词是当前语料库单词或同义词或泛化词的flag等)

2.4 结合方法

  文章把2.2节所述技术进行结合。分为两个步骤
  (1) The first pass: 我们使用一定数量的WSLs来进行句子对齐,具体数量可定制。特别说明,当发生冲突时,比如3个WSLs认为SL中的第9个句子应该和TL中的第10个句子对齐,但是4个WSLs认为SL中的第9个句子应该和TL中的第11个句子对齐,则我们选择后者。但如果少于1/3个WSLs认为第9个句子应该和TL中的第j(任意j)个句子对齐,则我们跳过第9个句子,不将它和TL中的任意句子对齐。
  (2)The second pass: 计算2.2种提到的CMC、HPI、NPC、SNI和Word correpondance(Wcorr)共计5个对齐指标。首先将CMC与Wcorr和NPC融合,得到结果1;再将HPI、SNI和CMC的结果融合(语义对齐),再将其与Wcorr和NPC的结果融合,得到结果2。用户可自行选择两种结果之一。

3. 文章亮点

  文章定义了一种新的句子对齐标准WSL,且将其与多种已知的句子对齐方法进行结合,评估了不同结合方式的对齐结果。数值实验结果表明,WSL,NPC和CWC的结合方法表现最好。

4. 原文传送门

Exploring Translation Similarities for Building a Better Sentence Aligner

5. References

[1] ALIGNING SENTENCES IN PARALLEL CORPORA
[2] 泊松分布
[3] Fast and Accurate Sentence Alignmentof Bilingual Corpora
[4] A Comparative Performance Study of Several Dynamic Time Warping Algorithms for Speech Recognition

论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner相关推荐

  1. 论文笔记:WORD TRANSLATION WITHOUT PARALLEL DATA

    引用文章 Facebook MUSE 无监督跨语言迁移学习任务 face - Word Translation without Parallel Data 文献阅读笔记:Word Translatio ...

  2. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  3. GAN学习历程之CycleGAN论文笔记

    GAN目前发展的很快,成果也很多,从GAN->Pix2pix->CycleGAN 本来是准备看一篇19年一月份ICLR发表的conference paper INSTAGAN,发现这篇论文 ...

  4. 【论文笔记】Encoding cloth manipulations using a graph of states and transitions

    [论文笔记]Encoding cloth manipulations using a graph of states and transitions Abstract 问题: Cloth manipu ...

  5. 行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...

  6. Attention Is All You Need 论文笔记

    Attention Is All You Need 论文笔记 文章目录 Attention Is All You Need 论文笔记 背景 Tansformer模型简介 Attention & ...

  7. 论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples

    论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples 文章简要介绍 出处 ...

  8. Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记

    Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记 0. 概述 如今一些深度 ...

  9. NLP论文笔记合集(持续更新)

    NLP论文笔记合集(持续更新) 经典论文 参考文献 情感分析论文 关键词 综述 参考文献 非综述 参考文献 其他论文 参考文献 经典论文 2003年发表的文章1^11,NLP经典论文:NNLM 笔记 ...

最新文章

  1. A Strange Bitcoin Transaction
  2. 每秒上千订单场景下的分布式锁高并发优化实践!
  3. python怎么网络通信_深入Python中的网络通信
  4. 智慧城市需要百姓智慧
  5. mysql 锁 会话_MySQL会话锁等待关系原理
  6. ios 销毁当前页面重新开启_问:如何强制销毁iOS中的视图控制器?
  7. 一个基于 SpringBoot 开源的小说和漫画在线阅读网站,简洁大方、强烈推荐
  8. mysql主从复制简单实现
  9. Linux指定jre运行jar包,Linux如何运行和停止jar包
  10. 采用单/双缓冲区需要花费的时间
  11. 03环信好友管理 - 删除好友
  12. vue img标签无图片显示默认图片效果
  13. 网件刷breed_斐讯K2刷不死breed加padavan华硕固件教程
  14. 搭建前后端分离主流项目完整步骤——在线教育系统(阿里云服务器部署上线)
  15. 微信公众号服务号申请-模板消息发送-自定义菜单-测试账号指南
  16. 修改rcS启动定制功能,后台运行脚本,新建子SHELL进程。
  17. Linux下编写运行C语言程序
  18. 基于SSM开发大学食堂采购管理系统
  19. 优思学院|带你从零开始学习六西格玛
  20. 移讯云短信系统专业版功能介绍|客户通道选择短信平台开发

热门文章

  1. 零基础学python_03_字符串(拼接+换行+制表符)
  2. 洛谷P1463 - 反素数
  3. ListView--QQ联系人样式
  4. 怎样去识别是否双线主机服务器的方法
  5. 关于springboot 的默认数据源
  6. 2022放假安排时间表(来自天才哥快速阅读)
  7. 阿里天池大数据竞赛——口碑商家客流量预测 A2
  8. 纵即逝的烟花蓄势于纸
  9. 实现App跳转到应用商店
  10. excel怎么从身份证中提取性别?