读Unsupervised NMT
UNSUPERVISED NEURAL MACHINE TRANSLATION
github上总得给老师检查备一份
1. translation是基于word embedding。embedding的时候分别train两个language embedding。用一个小的配好对的字典(seed dictionary)做mapping,去找到两个language相对应的words,在这个过程中得到一个关于对应关系的线性函数来对应两个language embedding里面其他所有的词。相当于seed dictionary里面的是ground truth,通过ground truth来找对应关系,来对应其他不知道怎么对应的词。这一部分其实是另一篇paper讲cross-lingual word embedding的,一会就看!
2. 这篇文章侧重讲的是unsupervised translation。在得到两个language word-embedding之后,去做unsupervised training。文章里说主要用到denoising和on-the-fly backtranslation两个步骤,但我觉得看懂back translation就能懂为什么叫unsupervised了。比如用language L1里面的一句S1翻译成language L2里面对应意思的句子S2。在training过程中,S1随便被翻译成S2',但不告诉系统真正的S2是什么,而是再用得到的S2'去翻译回L1语言里面对应的S1'。通过比较S1和S1'的不同来更新参数,来达到训练效果。我觉得**unsupervised**指的就是中间翻译成的S1'的那步,**backtranslation**指的应该就是从S2'翻译回S1'那步。
3. 顺便记一下denoising。就是人为添加的noise,通过减小语序对翻译结果的影响,从而提高翻译质量。denoising就是随机打乱(交换)S1里面一般的词的顺序。
最后的最后,是一个打赏链接
读Unsupervised NMT相关推荐
- Unsupervised Neural Machine Translation with SMT as Posterior Regularization
Unsupervised Neural Machine Translation with SMT as Posterior Regularization 知识点 摘要 本文方法 这是2019 AAAI ...
- Unsupervised Monocular Depth Estimation With Left-Right Consistency 论文笔记
文 | 陈十三 公众号首发 | 一只在路上的哈士奇 公众号ID | super_Mrchen 关注可了解更多.问题或建议,请公众号留言 0x00 补充知识 1.视差:左右双目图像中,两个匹配块中心像素 ...
- 北大AI公开课2019 | 微软亚洲研究院周明:NLP的进步将如何改变搜索体验?
本文由InfoQ家整理首发,未经授权请勿转载 4月3日,北大AI公开课第七讲如期开讲,微软亚洲研究院副院长周明与大家分享了近期自然语言技术取得的进展和创新成果,并探讨了自然语言技术和搜索引擎如何进一步 ...
- Paper:GPT-3《 Language Models are Few-Shot Learners》的翻译与解读
Paper:GPT-3< Language Models are Few-Shot Learners>的翻译与解读 目录 <GPT-3: Language Models are Fe ...
- qlabel文本改变信号_周明:NLP进步将如何改变搜索体验
编者按:4月3日,微软亚洲研究院副院长周明受邀参加北大AI公开课,与大家分享了近期自然语言技术取得的进展和创新成果,并探讨了自然语言技术和搜索引擎如何进一步结合并创造新的可能.在课后问答环节,周明解读 ...
- [文献阅读]—一篇不错的低资源机器翻译综述(Neural Machine Translation for Low-Resource Languages: A Survey)
文章目录 前言 时间线 技术 数据增强(data augmentation) 基于单词.短语替换的数据增强(坑1) 基于回译的数据增强 平行语料挖掘 无监督机器翻译(unsupervised NMT) ...
- 浅析大规模多语种通用神经机器翻译方法
导语:只训练一个模型就能够支持在多个语言之间的翻译 作者 | 陈贺轩 单位 | 小牛翻译 陈贺轩,东北大学自然语言处理实验室研究生,研究方向为机器翻译. 小牛翻译,核心成员来自东北大学自然语言处理实验 ...
- 周明:NLP进步将如何改变搜索体验
https://www.toutiao.com/a6682254230226469384/ 来源:AI 前线(ID:ai-front) 本文约4500字,建议阅读8分钟. 本文详细描述了周明如何在NL ...
- Survey of Low-Resource Machine Translation阅读笔记
文章目录 1 Introduction 2 Data Sources 2.1 Searching Existing Data Sources 2.2 Web-crawling for Parallel ...
最新文章
- Docker Buildx插件
- 架构师实践日 · 6.30 杭州站 | 视觉 AI 技术如何助力行业提升?来西子湖畔与业内大咖面对面交流!
- 干货 | 基于 BDD 理念的 UI 自动化测试在携程度假的应用
- 安装secureCRT提示sorry的解决办法
- Apache PIO 操作Excel
- 华晨集团债务违约65亿 宝马中国:华晨宝马运营不受影响
- 如何在VS上用C#玩坏“Hello World”。
- 图像分割——meanshift算法(C++GDAL库)
- UE4母材质之法线贴图
- 手动获取我们所感兴趣网站X.509证书的一般方法
- linux 定制自己的开机logo
- Excel编号相同数字
- 安科瑞水电气三表集抄电能管理系统在阿克希龙公司的设计方案
- linux 命令总结大全
- 零基础入门无人机--无人机概述--1
- 输入名字显示其电话号码
- Zynq入门——PS和PL接口技术详解
- H5获取手机型号,获取具体手机型号
- 电池充放电自动测试系统介绍
- 全国二级C语言上机必读
热门文章
- 网络游戏《丛林战争》开发与学习之(四):游戏客户器端的功能开发(上)
- 无忧全国计算机等级考试超级模拟软件如何安装
- pdf阅读器如何语音朗读文件
- 合并报表软件系统_财务合并报表的基础工作
- 《快递查询-您身边的快递助手-隐私协议》
- 里约奥运会开幕:您的好友机器人记者已上线!
- java制作月度报表_Java报表制作详细过程
- 一台兼容计算机配置价格,完成一台计算机的配置。要求:1、写出配置单,包含品牌、型号和报价 2、写出配置...
- Castor xsd生成java,Can Castor handle class generation from multiple XSDs importing from a base XSD?...
- 统计学中特征函数理解和学习