从技术到体验:机器翻译产品落地实践
课程目标:
1.聊聊翻译能力落地时需要考虑的方方面面
2.如何根据业务需求定制一个翻译模型
3.谈谈一些快速提升翻译质量的小技巧
为什么要做机器翻译?
日常人们如何使用翻译?
手机上的翻译产品形态:
机器翻译如何落地?
目录:
做算法前先了解你的业务
算法不仅是NMT模型
数据决定了翻译效果的上限
科学评测指引优化方向
工程工作同样很重要
做算法前先了解你的业务
核心人群:
高频场景分析:
需要的翻译技术类型:算法不仅是NMT模型
总体流程:
语种检测:
中英文分词:
中文分词:优化分词错误,提升翻译质量。
英文分词:将用户拼写错误、OCR错误粘贴的英文单词分割开。
文本处理:
模块作用:主要包括Tokenize,Detokenize,Truecase,Detruecase, Recase做翻译前后的大小写和标点处理。
长句拆分:
模块作用:将长句子、段落拆分成合适模型长短的句子。
混合语种文本拆分:
模块作用:将不同语种的句子拆开处理。
模型领域适应:
1.领域数据微调
•领域分类器
•领域相似句子检索
2.模型领域自适应
•数据侧:训练领域分类器,打上领域Label;
•模型侧:在每个encoder 和 decoder 添加一层Adapter层训练。
模型鲁棒性增强:
•随机替换ground truth单词
论文:Bridging the Gap between Training and Inference for Neural Machine Translation
•平滑标签算法( graduated label smoothing )
论文: On the Inference Calibration of Neural Machine Translation
•生成对抗样本
论文: Robust Neural Machine Translation with Doubly Adversarial Inputs
论文: Robust Adversarial Augmentation for Neural Machine Translation
•随机修改数据
修改句末标点、单词粘粘、句末单词不完整等
3. 数据质量决定了翻译效果的上限
拆解分析训练数据:
单语数据搜集与清洗:
•单语数据作用:增强生成译文流畅度、地道程度
•筛选方法:语言模型(ppl)、分类模型
双语数据搜集与清洗:
开源双语数据源:
•历年的WMT、CCMT、statmt会议提供数据
•UN联合国平行语料库
•维基百科语料
•Opus多语种网站
•Github开源数据
•可可英语、沪江英语的双语例句
01规则过滤方法
•长度信息:长度、长度比、平均token长度
•编码范围:有效token占比、 其他语言占比、特殊字符占比
02概率模型方法
•句子中词、短语互译概率
•句子语言模型概率
•I8M对齐模型、Moses词对齐模型
•WMT04 top1 阿里
03损失函数方法
•高质量基础翻译模型
•模型预测与目标译文的loss值
•代表工作:WMT04 top0 微软 对偶条件交叉嫡损失函数
04向量相似度方法
•多语言句子向量表示
•动态词向量表示
•计算源端目标端向量距离、余弦相似度
05分类模型方法
•将语料清洗任务转化为二分类任务
•高质量句对正例样本和噪声句对负例样本
06预训练模型方法
•阿里WMT1-1- 训练双向双语GPT+1模型
•华为WMT1-1- 微调跨语言预训练模型XLM+R
•字节WMT1-1- 训练2个XLM模型,模型集成+重排序
翻译模型如何"本土化":
从细节处优化翻译体验:
俚语翻译增强:
数字、时间、日期表达式翻译增强
缩写翻译增强
序号翻译增强
人名翻译增强
地名翻译增强
从细节处优化翻译体验——业务场景
4. 科学评测指引优化方向
翻译评测:
"信"指意义不悖原文,即译文要准确,不偏离, 不遗漏,也不可随意增减含义;
"达"指不拘泥于原文形式,译文通顺明白;
"雅"则指译文时选用的词语要得体,追求文章本身的古雅,简明优雅。
5. 工程工作同样很重要
性能优化:
线上快速修复:
•检索库:紧急修复错误翻译
•翻译干预:快速修复句中术语翻译错误
模型迭代优化闭环:
总结&展望:
技术层面
•预训练模型,充分应用海量单语文本数据
•多模态翻译能力,图像翻译、语音翻译
用户导向
•将技术落地到真正解决用户问题的地方去
•提升场景下用户的翻译交互体验
从技术到体验:机器翻译产品落地实践相关推荐
- 酷家乐 Serverless FaaS 产品落地实践
K8s已经成为一线大厂分布式平台的标配技术.你是不是还在惆怅怎么掌握它?来这里,大型互联网公司一线工程师亲授,不来虚的,直接上手实战,3天时间带你搭建K8s平台,快速学会K8s,点击下方图片可了解培训 ...
- 百分点大数据技术团队:基于HugeGraph的知识图谱技术在白酒行业的落地实践
编者按:信息化是企业在外部环境变化时保持核心竞争力的有力手段.在白酒企业信息化过程中,通过应用大数据.云计算等的新智慧营销方式,精准定位消费群体,将对中国白酒未来营销起到革命性作用. 在营销过程中,白 ...
- 优酷播放黑科技 | 自由视角技术的全链路策略与落地实践
作者:李晓阳(苏铭) 在<优酷播放黑科技 | 自由视角技术体验优化实践>中我们提出对自由视角观影体验做了很多优化,为何需要做如此多的体验优化,下面将一一解答. 随着5G时代的到来,视频 ...
- 阿里云CDN产品经理陈章炜:边缘创新技术和落地实践
简介:CDN除了加速外,不断被赋予更多价值.在阿里云CDN推出的<极速奔跑吧 2021>首场直播中,阿里云架构师和产品经理不仅对近期阿里云发布的CDN产品最佳实践图进行了详细解读,还对CD ...
- 技术沙龙 | 云时代下的架构演进—企业云及云原生技术落地实践
云改变了IT行业的形态和市场格局,催生了应用的发展.随着云计算技术的不断演进,作为一名优秀的架构师,必须深入了解云计算平台的特点及架构设计,包括构建数据库.大规模落地微服务.Service Mesh和 ...
- 腾云忆想技术文|CREDIS在TMF平台中的落地实践
导语 Credis是腾讯云在开源reids的基础上打造的一款高新能.易扩展.可监控的缓存数据库服务,结合在腾讯移动金融开发平台中的网关服务.消息推送.数据同步.移动分析.移动监控等移动中台服务中的应用 ...
- 三维声技术在赛事直播中的应用,TWS耳机中音频技术落地实践,通话降噪算法落地应用及挑战...
三维声技术在赛事直播中的应用 Topic <三维声技术在赛事直播中的应用探析> 韩建 咪咕文化科技有限公司 资深音频技术专家 作为元宇宙重要的技术基石之一,三维声技术也随着元宇宙概念的走 ...
- AI 场景的价值体现——视觉 AI 技术落地实践
https://www.infoq.cn/article/2017/12/Ground-practice-visual-AI?utm_source=related_read&utm_mediu ...
- 美团技术:复杂环境下落地 Service Mesh 的挑战与实践
在私有云集群环境下建设 Service Mesh ,往往需要对现有技术架构做较大范围的改造,同时会面临诸如兼容困难.规模化支撑技术挑战大.推广困境多等一系列复杂性问题.本文会系统性地讲解在美团在落地 ...
最新文章
- 特殊标记字段(#)实时富文本显示
- Oracle note 基礎入門篇1
- 编译包含Google Play服务App的SDK版本问题
- php中可以实现多态的是继承,PHP设计模式通过继承实现多态
- spring boot 中json数据处理
- JavaScript基础学习之数据类型(一)
- class 'memcache' not found php,PHP Fatal error: Class 'Memcache' not found in
- 【书籍推荐】《美国黒室》
- Linux防火墙连续多个端口,Linux防火墙iptables配置开放某个端口
- JZOJ 1714. 小x的三角形(triangles.pas/cpp)
- 2017电子设计大赛论文:滚球控制系统
- vue学习笔记 el-dialog 固定宽度
- WPF剪切板问题-OpenClipboard HRESULT:0x800401D0 (CLIPBRD_E_CANT_OPEN))
- 面试官问:你在项目中做过哪些安全防范措施?
- 有关linux的一些真相
- amazeui分页打印
- 【 爬虫解决了什么问题】
- qunee 开发清新、高效的拓扑图组件 http://www.qunee.com/
- TRECA 崔佧智能低代码开发使用说明
- Oracle enq: TX contention 和 enq: TM contention 等待事件说明
热门文章
- TensorflowTTS 中文android客户端
- HDU6599I Love Palindrome String 回文树+哈希
- Linux下安装QQ2012
- 英文原版电子书下载地址集合
- Elasticsearch高级操作
- vue项目 无法下载导出的execel文件
- 生成项目文件requirement.txt并执行。
- Udacity机器学习入门项目5:预测波士顿房价
- numpy完成手写字体识别(机器学习作业02)
- python的jieba统计西游记_python运用jieba库统计《西游记》中相关分词出现次数最高的20个...