论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner
论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner
- 1. 文章简介
- 2. 文章背景
- 3. 文章导读
- 3.1 概括
- 3.2 文章重点技术
- 3.2.1 SL和TL的相似度
- 2.2.2 句子长度
- 2.2.3 Word Correspondance
- 2.2.4 Numeric, Phonetic, and Cognate Matching (NPC)
- 2.2.5 Common Word Count (CWC)
- 2.2.6 Synonym Intersection (SNI)
- 2.2.7 Hypernym Intersection (HPI)
- 2.3 编译&预处理
- 2.4 结合方法
- 3. 文章亮点
- 4. 原文传送门
- 5. References
1. 文章简介
- 标题:Exploring Translation Similarities for Building a Better Sentence Aligner
- 作者:Anil Kumar Singh, Samar Husain
- 日期:2007
- 期刊:IICAI
2. 文章背景
定义翻译任务中的源文本句子为Source Language(SL) 句子,目标文本句子为Target Language(TL)句子。句子对齐(Sentence Alignment)任务是指要从TL集合中找到哪个句子是某个SL的翻译。
句子翻译可能存在插入、删除、扩充、收缩等情况,这些情况使得源文本和目标文本可能不是一一对应的(从单词、句子、句法层面来说都可能不是一一对应)。
一般来说,句子对齐方法分为几下几种:
- 基于句子长度的对齐方法:基于SL句子和其对应的TL句子长度很可能相似。
- 基于单词对应性(correspondance)的对齐方法:基于SL和TL单词的分布很可能相似。
- 基于上述两者结合和方法
3. 文章导读
3.1 概括
本文尝试将句子长度、单词对应性(correspondance)、同源匹配等方法进行结合,构造一个句子对齐工具。
3.2 文章重点技术
3.2.1 SL和TL的相似度
文章指出,源文本SL和翻译文本TL之间在以下几方面存在相似度:
- 符号学 Symbolic:SL和TL的符号可能不完全相同,但一般存在对应关系。
- 公共符号(阿拉伯数字等)
- 专有名词
- 外来词
- 语音和词汇的对应关系
- 元-句法 Meta-syntactic:一种简单识别句子动词(名词)的方法
- 句法Syntactic:句子组成成分的顺序、结构等
- 元-语法 Meta-Semantic:例如信息量,一种简单度量句子长度的方法(基于句子长度的对齐方法就是采用该相似度衡量)
- 语法 Semantic:涵义、知识等。语法相似度可能是句子对齐任务的最终衡量标准,即确定了两个文本的语法相似度基本上可以锁定对应的句子。但是句子对齐任务不一定需要用到语法信息,或者说不一定需要用到全部语法信息。
2.2.2 句子长度
文章使用可定制化的加权的句子长度(WSL, Weighted Sentence Length)来衡量句子长度层面相似度。文章从三个维度计算WSL
(1) 单词计数(wc, word count),即考虑每个句子的单词数量。参见[1]
(2) 字符计数(cc, character count),即考虑每个句子的字符数量。参见[1]
(3) 句子签名(sig, signature of sentence):使用句子中所有单词的ASCII值和作为句子的一个签名。如果有将SL翻译为TL的辞典,那么我们将SL中的所有在辞典中的词语替换为其对应的TL单词,这样SL和TL在辞典中的词语有相同的ASCII值,最后对应句子的签名会更接近。这个过程我们称为substitution
文章手动标记来7000句子其中的SL和TL的对应关系,计算所有SL-TL的signature、char count和word count的相关性。**相关性越大,说明该指标越能表征句子对是否对齐。**得到sig的相关性为0.814,cc的相关性为0.816,wc的相关性为0.783。结果表明sig的相关性大于 wc相关性,说明可以将signature作为句子相似度的一个补充。
WSL的计算公式如下 l = w w c l w c + w c c l c c + w s i g l s i g , w w c + w c c + w s i g = 1 \begin{equation}l=w_{wc} l_{wc} + w_{cc}l_{cc} + w{sig}l_{sig}, w_{wc} + w_{cc} + w{sig} =1 \end{equation} l=wwclwc+wcclcc+wsiglsig,wwc+wcc+wsig=1
其中 l w c , l c c , l s i g l_{wc}, l_{cc}, l_{sig} lwc,lcc,lsig为各个相似度标准化之后的值,比如 l w c = l w c max { l w c s ∣ s ∈ S } l_{wc}= \frac{l_{wc}}{\max\{l_{wc_s} | s\in S\}} lwc=max{lwcs∣s∈S}lwc,其中 S S S为所有句子,从而使得得到的 l w c ∈ [ 0 , 1 ] l_{wc} \in [0,1] lwc∈[0,1]。
假设WSL服从参数为 r l s rl_s rls的泊松分布(对随机事件发生次数进行建模的分布),其中 r r r为TL和SL的平均句子长度之比。则给定SL的WSL,TL的WSL满足 p ( l t ∣ l s ) = e − l s r ( l s r ) l t l t ! \begin{equation}p(l_t|l_s) = \frac {e^{-l_sr} (l_s r)^{l_t}}{l_t !}\end{equation} p(lt∣ls)=lt!e−lsr(lsr)lt(详见[3],基本思想就是“SL的每个单词根据泊松分布翻译成TL中的单词/单词组,其均值可以简单地估计为两种语言的平均句子长度之比。)
2.2.3 Word Correspondance
文章基于IBM模型得到SL和TL之间的单词分布相似度,用于在word correspondance层面衡量句子对齐相似度。
2.2.4 Numeric, Phonetic, and Cognate Matching (NPC)
文章还考虑了包含数字、专有名词、同源词或外来词的句子。对于该类句子,文章按照[4]中的方法进行比较:首先进行字符匹配,接着计算DTW距离衡量句子相似度
2.2.5 Common Word Count (CWC)
首先将SL句子中属于辞典中的单词全部翻译并替换为TL中的单词,然后分别计算得到SL和TL的词袋,得到SL和TL每对句子的公共单词个数(词袋的交集),并除以句子的总长度进行标准化,得到0~1之间的数值,即为CWC。
2.2.6 Synonym Intersection (SNI)
类似2.2.5,我们现在计算两个句子的同义词交集,来表示两个句子在抽象层面的相交情况。文章从WordNet获取到SL的同义词辞典,然后将TL中的所有单词替换为它在SL中的翻译 单词,接着计算SL和TL的同义词词袋(每组同义词选择一个固定的单词),计算每对SL和TL句子中公共单词(同义词认为相同)个数,并除以句子的总长度进行标准化,得到0~1之间的数值,即为SNI。
2.2.7 Hypernym Intersection (HPI)
Hypernym即泛化词(如color是red对hypernym)。HPI的计算方法和SNI相同,除了将其中的同义词用Wordnet的泛化词词表代替。
2.3 编译&预处理
首先我们得到单词的Word Type(包含单词字符串、POS tag(if available)、单词签名、表明单词是当前语料库单词或同义词或泛化词的flag等)
2.4 结合方法
文章把2.2节所述技术进行结合。分为两个步骤
(1) The first pass: 我们使用一定数量的WSLs来进行句子对齐,具体数量可定制。特别说明,当发生冲突时,比如3个WSLs认为SL中的第9个句子应该和TL中的第10个句子对齐,但是4个WSLs认为SL中的第9个句子应该和TL中的第11个句子对齐,则我们选择后者。但如果少于1/3个WSLs认为第9个句子应该和TL中的第j(任意j)个句子对齐,则我们跳过第9个句子,不将它和TL中的任意句子对齐。
(2)The second pass: 计算2.2种提到的CMC、HPI、NPC、SNI和Word correpondance(Wcorr)共计5个对齐指标。首先将CMC与Wcorr和NPC融合,得到结果1;再将HPI、SNI和CMC的结果融合(语义对齐),再将其与Wcorr和NPC的结果融合,得到结果2。用户可自行选择两种结果之一。
3. 文章亮点
文章定义了一种新的句子对齐标准WSL,且将其与多种已知的句子对齐方法进行结合,评估了不同结合方式的对齐结果。数值实验结果表明,WSL,NPC和CWC的结合方法表现最好。
4. 原文传送门
Exploring Translation Similarities for Building a Better Sentence Aligner
5. References
[1] ALIGNING SENTENCES IN PARALLEL CORPORA
[2] 泊松分布
[3] Fast and Accurate Sentence Alignmentof Bilingual Corpora
[4] A Comparative Performance Study of Several Dynamic Time Warping Algorithms for Speech Recognition
论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner相关推荐
- 论文笔记:WORD TRANSLATION WITHOUT PARALLEL DATA
引用文章 Facebook MUSE 无监督跨语言迁移学习任务 face - Word Translation without Parallel Data 文献阅读笔记:Word Translatio ...
- 论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
- GAN学习历程之CycleGAN论文笔记
GAN目前发展的很快,成果也很多,从GAN->Pix2pix->CycleGAN 本来是准备看一篇19年一月份ICLR发表的conference paper INSTAGAN,发现这篇论文 ...
- 【论文笔记】Encoding cloth manipulations using a graph of states and transitions
[论文笔记]Encoding cloth manipulations using a graph of states and transitions Abstract 问题: Cloth manipu ...
- 行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...
- Attention Is All You Need 论文笔记
Attention Is All You Need 论文笔记 文章目录 Attention Is All You Need 论文笔记 背景 Tansformer模型简介 Attention & ...
- 论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples
论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples 文章简要介绍 出处 ...
- Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记
Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记 0. 概述 如今一些深度 ...
- NLP论文笔记合集(持续更新)
NLP论文笔记合集(持续更新) 经典论文 参考文献 情感分析论文 关键词 综述 参考文献 非综述 参考文献 其他论文 参考文献 经典论文 2003年发表的文章1^11,NLP经典论文:NNLM 笔记 ...
最新文章
- A Strange Bitcoin Transaction
- 每秒上千订单场景下的分布式锁高并发优化实践!
- python怎么网络通信_深入Python中的网络通信
- 智慧城市需要百姓智慧
- mysql 锁 会话_MySQL会话锁等待关系原理
- ios 销毁当前页面重新开启_问:如何强制销毁iOS中的视图控制器?
- 一个基于 SpringBoot 开源的小说和漫画在线阅读网站,简洁大方、强烈推荐
- mysql主从复制简单实现
- Linux指定jre运行jar包,Linux如何运行和停止jar包
- 采用单/双缓冲区需要花费的时间
- 03环信好友管理 - 删除好友
- vue img标签无图片显示默认图片效果
- 网件刷breed_斐讯K2刷不死breed加padavan华硕固件教程
- 搭建前后端分离主流项目完整步骤——在线教育系统(阿里云服务器部署上线)
- 微信公众号服务号申请-模板消息发送-自定义菜单-测试账号指南
- 修改rcS启动定制功能,后台运行脚本,新建子SHELL进程。
- Linux下编写运行C语言程序
- 基于SSM开发大学食堂采购管理系统
- 优思学院|带你从零开始学习六西格玛
- 移讯云短信系统专业版功能介绍|客户通道选择短信平台开发