继为语文书上的各位名家豪杰担任服装、造型设计师后,热心网友开始志愿使用各类在线翻译软件「诠释」古人作品、热门歌曲等语段,美名其曰:生草翻译。下图即为新年经典曲目「恭喜发财」经过火山翻译「生草」的效果:

注:「生草」一词源自日语「草生える」(长草了),日语「笑」的首字母「w」常在弹幕中被用于表示「好笑」之义,由于一排「w」在弹幕中颇有青青草原的气息,便开始有人用「草生える」形容幽默有趣的现象。

想要不花一分钱让机器翻译软件为你的视频种下青青草原吗?你只需要完成两个步骤!

1. 选择一篇你想要「诠释」的文段(注意是文段,不是一个词或一句话)

2. 按照中文、阿拉伯语、德语、英语、西班牙语的顺序对语段循环翻译20次(或以上)

最后你将会得到一篇AI倾情奉献的、自带故事情节的魔幻现实小说(或散文)~

如果只是想知道生草教程的朋友可以关闭本篇推送了,当然我知道优秀的你更想了解 AI 这令人赞叹的想象力从何而来。

1. 翻译原理让AI「木有感情」

机翻软件的「胡言乱语」是其遵循翻译规则的结果。

现今机器翻译使用的技术主要为「神经机器翻译(NMT)」。在它之前广泛使用的「统计机器翻译(SMT)」技术是在大量双语平行语料基础上建立一个翻译模型来完成该语对的翻译过程。(注:平行语料:由原文文本及其平行对应的译文文本构成的语料)

SMT翻译过程好比查阅词典:由语料构建而成的语料库可以被视为一本「词典」,「词典」里一个词会有多个译文选择,SMT建立模型来算出各个选择与原文词配对的概率,优先考虑使用概率最大的词。在此之后SMT将刚刚选出的概率最大的词与原文对应词一一对齐,再调试句子中语法、词与词之间的顺序,获得最终翻译结果。

图中源语言为英语,目标语言为德语

如上图所示:通过模型计算出 the 对应 das 的概率为0.58,对应 haus 的概率为0.02,所以我们可以初步确定 the 对应的译文为 das。其他单词以此类推。

对齐、调试的过程

NMT模型在SMT模型的基础上进行优化。在 NMT中,翻译过程可以用一个「编码→解码」的模型来实现。NMT通过使用编码器将文字转化为固定的向量,从而将源语言表示为连续空间的形式,再使用解码器把向量逐步解码。

这个过程好比为小女孩编辫子:「原始输入」是她乌黑顺滑的长发,在经过「编码器」这双巧手的「编织」后变成辫子——「向量」,另一双巧手「解码器」把「向量」辫子解开,就得到了波浪式的卷发——「翻译结果」。

向量的表示方法可以让语义相似的词在语义空间中有相似的表示,从而使语义相似的句子被映射在同一个空间里。

以下图为例:

Tom is loved by Lily 和 Lily loves Tom 这两个句子的语序和单词组成是不一样的,但是它们的语义相似,所以被映射在同一个空间。

而 Lily loves Tom 和 Tom loves Lily 的单词组成是一样的,但是它们的语序差异带来了较大的语义差别,因此它们被投射到不同的空间。

不同于线性的SMT模型,NMT使用连续空间表示语言,从而增强语义相似的文本之间的关联性,改善了SMT模型中数据稀疏性的问题,提升翻译质量。NMT在短短的两三年内便取代了SMT成为商业机翻系统的主流模型。

2. 语料库稀缺让AI「难为无米之炊」

杰出钢琴家如果只将一首曲子作为训练曲目,很难练就扎实的演奏技法。同理,训练NMT模型需要丰富的平行语料库,即源语言和目标语言的语料对作为训练数据。要想训练出优秀的翻译系统,大量高质量的语料储备是不可或缺的。

问题来了:不同于拥有丰富语料的大语种、新闻,小语种、古文的语料资源是长期处于稀缺状态的。

首先,小语种之所以被冠名「小」,古文之所以被冠名「古」,说明它们的通用程度是相对较低的,使用这种语言/表达方式的地区覆盖率小、人口少,当然相关语料也难以多得,在某些特殊领域场景中(如社交网络或小说)该语种的语料资源的收集难度可想而知。

小语种、古文较低的传播率也进一步导致了其市场需求的低迷,用途不广的领域很难获得较多的研究投入,渐渐淡出人们的视野,长此以往其相关资源也无从追溯。

这些语料资源的稀缺会让翻译模型在遇到一些偏门领域语句或较长语句时失去参照,从而开始硬着头皮翻译,翻译效果如同在大学四六级考场上做翻译题的你:

就连人类这种高级生物都会遇到以上情况,AI 当然也在劫难逃。此外,参考人类口口相传后真相的扭曲程度,经历多种语种接连20次对逐渐扭曲的译文进行叠加翻译后,AI最后给出奇葩的翻译结果也不是太难理解了(AI:我太累了)。这也解释了为什么我们在给机翻软件「松土施肥」的时候需要尽量使用小语种去翻译,或者选择文言文、歌曲等比较偏门的资源作为原始文本。

3. 大数据学习让AI「乱」加逻辑

可能有朋友会觉得奇怪,AI 强行生硬翻译就算了,为什么还常常「口出狂言」,往译文乱加逻辑和人名?

现今业界所有线上AI 翻译系统均以句子为单位进行翻译。为了保证翻译单位的流畅度,AI翻译会保证每句话的逻辑性与可读性,而它保证的方法就是运用自己的看家本领:「大数据学习」,即参考语料库中频繁出现的词,在面对「分崩离析」的句子时及时将它们填充进去。

使用这种方式也只能保证这句话单独存在的时候是通顺的,是符合近期人类常用表达的,如果将句子放到上下文或语段的语境中,就会出现让人啼笑皆非的现象:

翻团君:「对不起,比鬼畜我还真比不过你」

当然,AI再怎么苦读人类提供的语料库,也不可能参透人类社会的精髓,更不可能故意多次创造令人惊叹的「巧合」。B站上流传的AI翻译创造的奇闻轶事,实际上离不开视频创作者对文本的后期加工。

恶搞归恶搞,火山翻译等机器翻译软件仍然能够保质保量完成正常任务。在对话交流、视频制作、线上会议、线上直播等拥有较丰富语料的场景,机器翻译软件仍然能够给出较为准确的翻译效果。

毕竟日常需求并不会出现把语段来回翻译20次的情况,机器翻译实为高效率、低成本的一个选择。而长草了的火山翻译,也仍是一座致力于「让翻译更简单」的火山。

  • 现今火山翻译提供了火山同传、火山翻译API、火山翻译Studio、浏览器翻译助手等一系列矩阵产品,在视频、会议、直播翻译等场景都有出色的翻译表现;

  • 火山翻译掌握的翻译能力也获得了业界认可,在2020年国际机器翻译大赛(WMT2020)上获得多个关键语向翻译项目竞赛的冠军

  • 火山翻译精益求精,推出了「多语言翻译新范式mRASP」、「高性能序列推理引擎LightSeq」和「镜像生成式翻译模型MGNMT」等前沿翻译技术

「火山翻译」希望成为你辛勤工作时的好帮手,好伙伴。在此也诚挚邀请大家花一两分钟用「火山翻译」开拓自己的青青草原,说不定会有更大的惊喜呢~快点击「阅读原文」试试吧!

教你如何用机翻软件开拓自己的青青草原相关推荐

  1. 如何用标签打印软件制作物料标识卡

    每个公司的物料标识卡都是不同的,显示的信息也不同,一般的物料标识卡上面的信息会有:物料名称.物料编号,物料规格.物料数量等信息,那么如何制作物料标识卡呢?今天小编教大家如何用标签打印软件制作物料标识卡 ...

  2. 东方木教你如何用WINDOWS自带的压缩功能去压缩软件

    {原创编辑}:东方木 语言:中文 地点:武汉 时间:2020年2月12日 版权声明:本文为CSDN博主「东方木」的原创文章 下午东方木来教大家如何做压缩包,教你如何用WINDOWS自带的压缩功能去压缩 ...

  3. 以ChatGPT写诗为例,教你如何用AI软件创新性提问?

    想用AI软件创作出动人的诗篇吗? ChatGPT 是一款人工智能软件,可以帮助你创作鼓舞人心的诗歌.它为您提供了一个强大的平台来探索您的创意方面.通过一组简单的问题,您只需点击几下就可以生成令人惊叹的 ...

  4. 一步步教你如何用疯狂.NET架构中的通用权限系统 -- 如何控制用户显示的菜单权限...

    菜单权限是我们经常会遇到的权限,也是经常需要进行处理的权限,往往权限是通过控制菜单权限开始折腾起来的. 第一步:我的后台管理控制端,有一个叫模块配置的功能,这里集中配置,哪些模块可以用,哪些模块先锁定 ...

  5. 教你如何用python制作平面直角坐标系模拟器 python项目小发明 【安安教具】-【数学】-【平面直角坐标系】模拟器

    平面直角坐标系和之前的数轴模拟器有异曲同工之妙,但是作为一个二维的软件,肯定是要难一些的... [安安教具]-[数学]-[数轴]模拟器 教你如何用python制作数轴模拟器 python 小项目创作_ ...

  6. python批量删缩进_鬼畜小姐姐+野狼disco,十分钟教你如何用Python剪辑一个牛逼的抖音小视频?...

    鬼畜小姐姐+野狼disco,十分钟教你如何用Python剪辑一个牛逼的抖音小视频? 前言 半个月前,后台有个小伙伴问我,如何将视频中的音频提取出来,并且将声音转成文字写入到 word 中,正好接下来的 ...

  7. abaqus切削为什么没有切屑,教你如何用Abaqus模拟金属切削(二)

    原标题:教你如何用Abaqus模拟金属切削(二) 通过前一次的介绍,相信大家已经熟悉了利用Abaqus软件结合自适应网格技术模拟金属切削的分析过程,下面将借助简单案例介绍另一种切削模拟方法,即在切屑附 ...

  8. 重型鼓音源混音教程|没有鼓手没关系,教你如何用Guitar Pro 5的midi鼓变成真鼓声!(鼠标党必备)| MZD studios

    大家好,我是Jerome..这里是MZD studios.来我们先看视频,不说话. <MZD Studios各风格部分作品集> MZD Studios作品集 2013-2019 - 歌单 ...

  9. 教你如何用U盘装系统 WINPE + GHOST + 虚拟光驱

    教你如何用U盘装系统 WINPE + GHOST + 虚拟光驱 教你如何用U盘装系统 ● 装系统前的准备 一个能启动电脑的U盘和一个系统的光盘镜像 在安装系统前,需要准备好一些东西.一个是操作系统的镜 ...

  10. 教你利用CoolEdit录歌软件提取游戏背景音乐

    大家在玩游戏的时候都在游戏里听到过非常好听的音乐却又下载不到而想把他给搞下来放在自已的mp3里或电脑里吧.我曾玩剑侠情缘2听到过好听的音乐,然后我突然想把她搞下来在没玩游戏的时候听一下那是多么爽快的一 ...

最新文章

  1. 使用Python进行端口扫描
  2. 蓝底换白底边缘不干净_雨刮器刮不干净别急着换,老司机教你一招,让雨刮器恢复如新!...
  3. 自由是有代价的:聊聊这几年尝试的道路
  4. python3 dict 转 json 不ascii转码 去除空格
  5. [YTU]_2922(Shape系列-8)
  6. 【深度学习】收藏|神经网络调试Checklist
  7. java中同步_在Java中的方法同步和语句同步(块同步) - Break易站
  8. python面向对象代码_两百行代码搞定!使用Python面向对象做个小游戏
  9. javascript正则表达式一
  10. NLP预训练家族 | 自成一派的GPT!
  11. @开发者 区块链技术如此火爆 你却只能望而却步?京东云为你配齐装备!
  12. Access链接表的使用
  13. MaxScript批量修改材质、贴图名称
  14. drop index mysql_MySQL修改和删除索引(DROP INDEX)
  15. 【麒麟操作系统软件商店老是闪退?--麒麟系统软件商店卸载与重装(小白教程)】
  16. 最安全的飞行器——飞行汽车
  17. 双云台AI智能分析跟踪会议云台摄像机技术应用
  18. 基于视觉导航的自主机器人简介(一)
  19. python实现匈牙利算法
  20. 建立自己的封装库(一)

热门文章

  1. 安装SQLServer2008后Windows防火墙上的端口开放
  2. 第1章 Spring Cloud 构建微服务架构(一)服务注册与发现
  3. js进阶 14-9 ajax事件有哪些
  4. [WPF]c#调用默认浏览器打开网址
  5. Java Web 获取客户端真实IP
  6. select 居右对齐
  7. 队列的实现(二) 链式队列的实现
  8. (数据挖掘-入门-9)聚类
  9. Effective java 第二章 对象 (2)
  10. .net dropdownlist 動態顯示,指定字段