课程目标:
1.聊聊翻译能力落地时需要考虑的方方面面

2.如何根据业务需求定制一个翻译模型

3.谈谈一些快速提升翻译质量的小技巧

为什么要做机器翻译?
日常人们如何使用翻译?
手机上的翻译产品形态:
机器翻译如何落地?
目录:

  1. 做算法前先了解你的业务

  2. 算法不仅是NMT模型

  3. 数据决定了翻译效果的上限

  4. 科学评测指引优化方向

  5. 工程工作同样很重要

  6. 做算法前先了解你的业务
    核心人群:

    高频场景分析:

    需要的翻译技术类型:

  7. 算法不仅是NMT模型
    总体流程:

    语种检测:

    中英文分词:

中文分词:优化分词错误,提升翻译质量。

英文分词:将用户拼写错误、OCR错误粘贴的英文单词分割开。

文本处理:

模块作用:主要包括Tokenize,Detokenize,Truecase,Detruecase, Recase做翻译前后的大小写和标点处理。


长句拆分:

模块作用:将长句子、段落拆分成合适模型长短的句子。

混合语种文本拆分:

模块作用:将不同语种的句子拆开处理。

模型领域适应:

1.领域数据微调

•领域分类器

•领域相似句子检索

2.模型领域自适应

•数据侧:训练领域分类器,打上领域Label;

•模型侧:在每个encoder 和 decoder 添加一层Adapter层训练。


模型鲁棒性增强:

•随机替换ground truth单词

论文:Bridging the Gap between Training and Inference for Neural Machine Translation

•平滑标签算法( graduated label smoothing )

论文: On the Inference Calibration of Neural Machine Translation

•生成对抗样本

论文: Robust Neural Machine Translation with Doubly Adversarial Inputs

论文: Robust Adversarial Augmentation for Neural Machine Translation

•随机修改数据

修改句末标点、单词粘粘、句末单词不完整等


3. 数据质量决定了翻译效果的上限
拆解分析训练数据:


单语数据搜集与清洗:

•单语数据作用:增强生成译文流畅度、地道程度

•筛选方法:语言模型(ppl)、分类模型


双语数据搜集与清洗:

开源双语数据源:

•历年的WMT、CCMT、statmt会议提供数据

•UN联合国平行语料库

•维基百科语料

•Opus多语种网站

•Github开源数据

•可可英语、沪江英语的双语例句

01规则过滤方法

•长度信息:长度、长度比、平均token长度

•编码范围:有效token占比、 其他语言占比、特殊字符占比

02概率模型方法

•句子中词、短语互译概率

•句子语言模型概率

•I8M对齐模型、Moses词对齐模型

•WMT04 top1 阿里

03损失函数方法

•高质量基础翻译模型

•模型预测与目标译文的loss值

•代表工作:WMT04 top0 微软 对偶条件交叉嫡损失函数

04向量相似度方法

•多语言句子向量表示

•动态词向量表示

•计算源端目标端向量距离、余弦相似度

05分类模型方法

•将语料清洗任务转化为二分类任务

•高质量句对正例样本和噪声句对负例样本

06预训练模型方法

•阿里WMT1-1- 训练双向双语GPT+1模型

•华为WMT1-1- 微调跨语言预训练模型XLM+R

•字节WMT1-1- 训练2个XLM模型,模型集成+重排序

翻译模型如何"本土化":

从细节处优化翻译体验:

  1. 俚语翻译增强:

  2. 数字、时间、日期表达式翻译增强

  3. 缩写翻译增强

  4. 序号翻译增强

  5. 人名翻译增强

  6. 地名翻译增强

    从细节处优化翻译体验——业务场景
    4. 科学评测指引优化方向
    翻译评测:

"信"指意义不悖原文,即译文要准确,不偏离, 不遗漏,也不可随意增减含义;

"达"指不拘泥于原文形式,译文通顺明白;

"雅"则指译文时选用的词语要得体,追求文章本身的古雅,简明优雅。


5. 工程工作同样很重要
性能优化:


线上快速修复:

•检索库:紧急修复错误翻译

•翻译干预:快速修复句中术语翻译错误

模型迭代优化闭环:

总结&展望:

技术层面

•预训练模型,充分应用海量单语文本数据

•多模态翻译能力,图像翻译、语音翻译

用户导向

•将技术落地到真正解决用户问题的地方去

•提升场景下用户的翻译交互体验

从技术到体验:机器翻译产品落地实践相关推荐

  1. 酷家乐 Serverless FaaS 产品落地实践

    K8s已经成为一线大厂分布式平台的标配技术.你是不是还在惆怅怎么掌握它?来这里,大型互联网公司一线工程师亲授,不来虚的,直接上手实战,3天时间带你搭建K8s平台,快速学会K8s,点击下方图片可了解培训 ...

  2. 百分点大数据技术团队:基于HugeGraph的知识图谱技术在白酒行业的落地实践

    编者按:信息化是企业在外部环境变化时保持核心竞争力的有力手段.在白酒企业信息化过程中,通过应用大数据.云计算等的新智慧营销方式,精准定位消费群体,将对中国白酒未来营销起到革命性作用. 在营销过程中,白 ...

  3. 优酷播放黑科技 | 自由视角技术的全链路策略与落地实践

    ​ 作者:李晓阳(苏铭) 在<优酷播放黑科技 | 自由视角技术体验优化实践>中我们提出对自由视角观影体验做了很多优化,为何需要做如此多的体验优化,下面将一一解答. 随着5G时代的到来,视频 ...

  4. 阿里云CDN产品经理陈章炜:边缘创新技术和落地实践

    简介:CDN除了加速外,不断被赋予更多价值.在阿里云CDN推出的<极速奔跑吧 2021>首场直播中,阿里云架构师和产品经理不仅对近期阿里云发布的CDN产品最佳实践图进行了详细解读,还对CD ...

  5. 技术沙龙 | 云时代下的架构演进—企业云及云原生技术落地实践

    云改变了IT行业的形态和市场格局,催生了应用的发展.随着云计算技术的不断演进,作为一名优秀的架构师,必须深入了解云计算平台的特点及架构设计,包括构建数据库.大规模落地微服务.Service Mesh和 ...

  6. 腾云忆想技术文|CREDIS在TMF平台中的落地实践

    导语 Credis是腾讯云在开源reids的基础上打造的一款高新能.易扩展.可监控的缓存数据库服务,结合在腾讯移动金融开发平台中的网关服务.消息推送.数据同步.移动分析.移动监控等移动中台服务中的应用 ...

  7. 三维声技术在赛事直播中的应用,TWS耳机中音频技术落地实践,通话降噪算法落地应用及挑战...

    三维声技术在赛事直播中的应用 Topic <三维声技术在赛事直播中的应用探析> 韩建  咪咕文化科技有限公司 资深音频技术专家 作为元宇宙重要的技术基石之一,三维声技术也随着元宇宙概念的走 ...

  8. AI 场景的价值体现——视觉 AI 技术落地实践

    https://www.infoq.cn/article/2017/12/Ground-practice-visual-AI?utm_source=related_read&utm_mediu ...

  9. 美团技术:复杂环境下落地 Service Mesh 的挑战与实践

    在私有云集群环境下建设 Service Mesh ,往往需要对现有技术架构做较大范围的改造,同时会面临诸如兼容困难.规模化支撑技术挑战大.推广困境多等一系列复杂性问题.本文会系统性地讲解在美团在落地 ...

最新文章

  1. 特殊标记字段(#)实时富文本显示
  2. Oracle note 基礎入門篇1
  3. 编译包含Google Play服务App的SDK版本问题
  4. php中可以实现多态的是继承,PHP设计模式通过继承实现多态
  5. spring boot 中json数据处理
  6. JavaScript基础学习之数据类型(一)
  7. class 'memcache' not found php,PHP Fatal error: Class 'Memcache' not found in
  8. 【书籍推荐】《美国黒室》
  9. Linux防火墙连续多个端口,Linux防火墙iptables配置开放某个端口
  10. JZOJ 1714. 小x的三角形(triangles.pas/cpp)
  11. 2017电子设计大赛论文:滚球控制系统
  12. vue学习笔记 el-dialog 固定宽度
  13. WPF剪切板问题-OpenClipboard HRESULT:0x800401D0 (CLIPBRD_E_CANT_OPEN))
  14. 面试官问:你在项目中做过哪些安全防范措施?
  15. 有关linux的一些真相
  16. amazeui分页打印
  17. 【 爬虫解决了什么问题】
  18. qunee 开发清新、高效的拓扑图组件 http://www.qunee.com/
  19. TRECA 崔佧智能低代码开发使用说明
  20. Oracle enq: TX contention 和 enq: TM contention 等待事件说明

热门文章

  1. TensorflowTTS 中文android客户端
  2. HDU6599I Love Palindrome String 回文树+哈希
  3. Linux下安装QQ2012
  4. 英文原版电子书下载地址集合
  5. Elasticsearch高级操作
  6. vue项目 无法下载导出的execel文件
  7. 生成项目文件requirement.txt并执行。
  8. Udacity机器学习入门项目5:预测波士顿房价
  9. numpy完成手写字体识别(机器学习作业02)
  10. python的jieba统计西游记_python运用jieba库统计《西游记》中相关分词出现次数最高的20个...