近几年来,直播电商到处开花,但绝大多数都是国内的中文直播。如果想买外国电商主播推荐的商品,语言不通怎么办?
这一难题已被阿里巴巴(下称 “阿里”)攻克,阿里速卖通是面向全球海外消费者设立的电商平台,它和淘宝一样,也面向所有终端消费者,但区别是速卖通是面向全球 200 多个国家和地区的电商平台。
直播电商动辄 “几亿元带货” 的高歌猛进,也让跨境电商卖家对这一模式心动不已。然而,由于不同国家和地区的语言不同、文化不同、消费习惯也不同,所以要想在速卖通做直播,语言、物流、支付和技术都是非常复杂的系统,其中语言是最急需攻克的难题。
而在近日,阿里达摩院联合速卖通推出 AI 实时翻译直播,可同时进行中文到英、俄、西三种语向的翻译。据悉,这是全球首个启用 AI 实时翻译的电商直播,中国商家只需用中文一键开播,就能同时覆盖全球英语、西班牙语、俄语区的逾十亿人口。

“被迫” 研发的翻译引擎
两年前,速卖通开始探索直播,然而不同于淘宝直播的是,高峰期涌到直播间的用户来自 19 个国家,且说着不同的语言。当时,没有多元实时翻译,要么全部用英文直播,要么面向某一语言地区的用户专门用某种语言直播,比如法语或西班牙语。
据速卖通官方直播负责人陆嬿介绍,大部分实力雄厚的商家会请外国主播,而中小商家要么放弃,要么无声直播或用中式英语(Chinglish)尬播。数据显示,速卖通上近九成商家来自中国,而 82% 的中国商家因为语言困难而放弃跨境直播。
相比淘宝直播,速卖通直播更像一个婴儿,她需要强大的 “营养” 才能快速成长。这个营养就是能实现多译多功能的实时翻译工具。

在研发多译多之前,速卖通曾试用过现成的翻译引擎,但对直播间的翻译输出脚本来说,即便是质量最好的翻译引擎,其翻译结果也不合格。当时,还有俄罗斯和西班牙用户受邀参与评测,他们的评价也是完全听不懂。
速卖通研究后发现,这些翻译引擎之所以无法使用海外直播,其一是常规同传有专业的收音设备来保障翻译准确度。但是电商直播的环境很嘈杂,很多商家直接在档口就开始播,这样就难以保证较好的收音。
其二常规的同传词库是固定的,翻译工具得到有效训练后就能保证准确度。但是电商直播商品数量过亿,且每天都在变,根本没有办法让翻译工具快速学习。而且主播每个人都来自不同地方,有的说话还带有方言。并且有些主播语速很快,这都会极大地增加翻译难度。以上原因使得速卖通不得不自研引擎。
没有训练集,商家自己 “造”
随后,速卖通耗时 7 个月开发出中译英引擎,并于 2020 年 5 月份上线。上线后商家开播率已有 65%,今年 “828 大促” 期间线上 90% 的直播间都使用了该功能。
但仍存在不足,即使中译英能力做到极限,直播间里只有 30% 的用户能听得懂主播说的话,因为 AE 是一个跨全球平台,直播间里各种用户都有,英语用户最高比例是 30%,因此亟需推出中译多的功能。
两个月后,中译多功能完成,上线之后用户体验得到较高提升,部分店铺销量随之增加 3 倍。当时,很多商家直播间的购买转化,比达人直播的转化率还高。一些直播达人和海外商家发现后,也要求使用中译多功能,可是很多商家不说中文,为此速卖通增加了多译多功能,并于今年 7 月上线。
研发过程中也有很多困难。第一是跨团队协作,研发团队分布在美国、中国、新加坡三个国家。另外,60 多位研发人员几乎从未见过面,如何让他们快速建立信任、并快速推下去是一大难题。
第二是训练集的收集。跨境直播业务在全球都很少见,市面上没有现存训练集可以直接复用。好在阿里本身拥有较强的商家生态,很多商家都积极帮忙收集训练集。
第三是并发承载点。如果只做一场翻译,根本不会有压力。但是直播每天有上千场,翻译几国语言,这就需要几千个翻译,因此服务器的并发压力非常大。后来,阿里云对此做了改造,使得服务器得以承载得住。
第四个难题是自动化展示。多译多功能可自动识别用户种类,并展示出相应的语言,比如它能识别你是中国人,从而用中文展示主播说的话。之前大家看到同传效果都是在 PC 端上面,但是移动端很复杂,为此研发人员在其中做了不少自适应的工作。

自研更高效算法模型,可 “听懂” 主播口音
达摩院研发的统一多语言多领域融合模型,可把上百个语言,以及每个语言的多个领域压缩到一个神经网络模型中进行翻译,且翻译质量不变。据达摩院骆卫华介绍,达摩院 AI 翻译技术已创下多项业界第一,日均调用量超过 13 亿次,累计 3000 亿单词,可提供 214 种语言的高质量翻译。
据速卖通直播实时翻译产品负责人赵文倩介绍,速卖通上有上亿件商品、数百亿个商品相关的专业名词,对直播实时翻译技术的要求极高,需要克服口音不标准、直播环境复杂、商品专业名词多、新品新词更迭快等问题。
主要负责该难题的是阿里达摩院自然语言处理实验室的研究员樊楷,他表示为解决 AI 听不清、听不懂的问题,达摩院研发出更高效的语音算法模型,它不仅能在嘈杂环境中 “听清” 直播内容,还能 “听懂” 主播的口音。通过将多领域的知识融入翻译模型,该算法模型还能举一反三,无需重新训练便能快速学习不同场景里不断更迭的专业名词。
现在,速卖通平台支持 18 种语言,可以保证设计出来的频道和商品定位,能够符合当地文化,这种 “入乡随俗” 主要体现在以下三方面。
心有灵犀。速卖通上有大量多元的商品,除了给它们做分类,还得容易被搜到。因此平台得根据用户输入的词,马上就能获悉他的搜索目的。在多语言混合下,这种挑战会更大。以 “Case” 为例,它具有箱子和案子的双重意思,用户输入该词语时,到底想买什么,就需要结合具体情景。此外,同样的词在不同语言里的意思也不同,例如 “Basket” 在英语里有 “篮子” 的意思,在法语里还有 “球鞋” 的意思。
可面对数以亿计的商品搜索,全程由人工解决会很慢。为此,速卖通采用人工智能来解决,当然人工智能的初步训练是由算法工程师来解决。训练结束后,速卖通最终可做到无论用户输入什么,都能根据他前后搜索的词语,来知晓其购买意图。
了如指掌。速卖通希望用户能对商品了如指掌,因此商品标题需要承载很多内容。比如,这个商品是什么?怎么找到?为什么买?但是一些商家的标题,有的没有标点符号,标题手法上也没有特别规则。这一问题也可被人工智能解决,它会给标题加上标点符号,并可整理成当地用户熟悉的表达方式。
深信不疑。速卖通是跨境平台,很多商家位于海外,商品需要飘洋过海才能到用户手中。所以,用户对平台信用、商家信用和商品质量都有很高要求。而购买前想知道商品到底好不好?就只能通过用户评价去了解。但是用户评价非常多,涉及的语言种类也非常多。另外,用户会用各种不规范的语言来评价,比如 “Very gooooood” 这样的短语,有的评价还会用到表情符号。而采用 “多到多” 翻译引擎,上述问题也可得到解决。
由于疫情原因,2020 年很多此前从未涉足直播的商家,如中国山区的果农也开始直播卖货。有了速卖通,无论是江西赣南的脐橙、还是河北枣强的貂皮都可以走向全球各地。同样,中国用户也可以买到此前只有靠代购才能买到的产品。科技惠及的从来不只是某一个国家的用户,而是全世界。

道翰天琼CiGril机器人API

道翰天琼CiGril认知智能机器人API用户需要按步骤获取基本信息:

  1. 在平台注册账号
  2. 登录平台,进入后台管理页面,创建应用,然后查看应用,查看应用相关信息。
  3. 在应用信息页面,找到appid,appkey秘钥等信息,然后写接口代码接入机器人应用。

开始接入

请求地址:http://www.weilaitec.com/cigirlrobot.cgr

请求方式:post

请求参数:

参数

类型

默认值

描述

userid

String

平台注册账号

appid

String

平台创建的应用id

key

String

平台应用生成的秘钥

msg

String

""

用户端消息内容

接口连接示例:http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552

注意事项:参数名称都要小写,五个参数不能遗漏,参数名称都要写对,且各个参数的值不能为空字符串。否则无法请求成功。userid,appid,key三个参数要到平台注册登录创建应用之后,然后查看应用详情就可以看到。userid就是平台注册账号。

示例代码JAVA:

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

public class apitest {

/**
     * Get请求,获得返回数据
     * @param urlStr
     * @return
     */
    private static String opUrl(String urlStr)
    {        
        URL url = null;
        HttpURLConnection conn = null;
        InputStream is = null;
        ByteArrayOutputStream baos = null;
        try
        {
            url = new URL(urlStr);
            conn = (HttpURLConnection) url.openConnection();
            conn.setReadTimeout(5 * 10000);
            conn.setConnectTimeout(5 * 10000);
            conn.setRequestMethod("POST");
            if (conn.getResponseCode() == 200)
            {
                is = conn.getInputStream();
                baos = new ByteArrayOutputStream();
                int len = -1;
                byte[] buf = new byte[128];

while ((len = is.read(buf)) != -1)
                {
                    baos.write(buf, 0, len);
                }
                baos.flush();
                String result = baos.toString();
                return result;
            } else
            {
                throw new Exception("服务器连接错误!");
            }

} catch (Exception e)
        {
            e.printStackTrace();
        } finally
        {
            try
            {
                if (is != null)
                    is.close();
            } catch (IOException e)
            {
                e.printStackTrace();
            }

try
            {
                if (baos != null)
                    baos.close();
            } catch (IOException e)
            {
                e.printStackTrace();
            }
            conn.disconnect();
        }
        return "";
    }
    
    
    public static void main(String args []){        
            //msg参数就是传输过去的对话内容。            
            System.out.println(opUrl("http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552"));
            
    }
}

日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播-1相关推荐

  1. 日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播

    近几年来,直播电商到处开花,但绝大多数都是国内的中文直播.如果想买外国电商主播推荐的商品,语言不通怎么办? 这一难题已被阿里巴巴(下称 "阿里")攻克,阿里速卖通是面向全球海外消费 ...

  2. “抗击”新型肺炎!阿里达摩院研发AI算法,半小时完成疑似病例基因分析

    利用技术辅助抗击疫情,阿里巴巴.百度等科技巨头各显身手. 此前,AI科技大本营采访报道了阿里达摩院<数十名工程师作战5天,阿里达摩院连夜研发智能疫情机器人>一文,后者为了解决客服人力不足的 ...

  3. 日调用量超600亿次,HMS Core HiAI Foundation助力AI应用高效开发

    随着新技术的不断演进,人工智能已经广泛地应用到教育.金融.物流.零售.交通.医疗等各个领域.而在AI高速发展的当下,高效开发变得更为重要,如何将创意想法与AI技术深度融合,迅速转化为可落地的AI应用, ...

  4. API 日调用量超 100 亿次!腾讯云首次披露云原生产品数据

    头图 | 视觉中国 当下,云原生成为云计算下一个重点方向,国际上如亚马逊.微软.谷歌等顶级云厂商,国内 BAT 等也均已展开布局,字节跳动近期全资收购容器平台才云科技,也展示出对云原生的兴趣. 在国内 ...

  5. 马云出 1000 亿做阿里达摩院:产品卖到全球了,他说科学研究也要跟上

    来源:拓扑社.IT桔子    拓扑社 概要:阿里巴巴成立全球研究院--阿里巴巴达摩院.该院由全球实验室,高校联合研究所,全球前沿创新研究计划三大部分组成,研究包括:量子计算.机器学习.基础算法.网络安 ...

  6. 3年研发投入将超千亿 阿里巴巴成立“达摩院”引入顶尖科学家

    昨天,全球多位顶级科学家集体到访阿里巴巴的事件刷爆了朋友圈,今天,这些科学家集体到访阿里巴巴的悬念揭晓:10月11日上午,在2017杭州•云栖大会上,阿里巴巴集团正式宣布成立承载"NASA计 ...

  7. 得力人脸识别考勤机密码设置_百度大脑人脸识别公有云日均调用量过亿 成为业内第一...

    "刷脸"时代的背后,是技术"一日千里"的快速发展和演进.9月26日,百度来到深圳并召开了百度大脑人脸识别新产品及伙伴计划发布会.会上,百度首次公开人脸识别公有云 ...

  8. 阿里达摩院做 AI 这两年

    整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 2017 年 10 月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过 1000 亿人民币用于基础科学和颠覆 ...

  9. 阿里达摩院再造AI抗疫技术:20秒判读CT影像,识别准确率达96%

    2020-02-16 13:22:25 允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又是达摩院. 阿里方面最新消息,达摩院联合阿里云针对新冠肺炎临床诊断研发了一套全新AI诊断技术: ...

最新文章

  1. R语言广义线性模型函数GLM、广义线性模型(Generalized linear models)、GLM函数的语法形式、glm模型常用函数、常用连接函数、逻辑回归、泊松回归、系数解读、过散度分析
  2. 实时音视频聊天中超低延迟架构的思考与技术实践
  3. eclipse安装JAVA反编译插件
  4. sharepoint 2010 内容类型
  5. 分布式大数据sql查询引擎Presto初识
  6. AntDB上使用表空间
  7. Android特效 五种Toast具体解释
  8. mysql 多个库一起导出_MYSQL 导出多个库
  9. Android开发笔记(一百一十)使用http框架上传文件
  10. netcore redis 存储集合_Redis的简单入门
  11. dts无法识别excel中的数字值?
  12. windows 控制台cmd乱码的解决办法
  13. 思岚S2激光雷达5-雷达数据实时保存
  14. 基于Android手机酒店客房预订系统
  15. 需要一张可视化三维地图?这样炫酷的3D全景地图,你也可以拥有
  16. WUST-CTF2020 writeup
  17. 股票交易sdk接口是什么意思?
  18. 云安全|云原生安全概述
  19. 什么是深度学习?kears简介,深度学习常用的三大模型,MLP(多层感知机),CNN(卷积神经网络),RNN(循环神经网络)
  20. 默纳克系统服务器怎么查看历史故障,默纳克3000主板怎么看历史故障

热门文章

  1. 整理:收集增强WiFi信号的10种方法
  2. document.documentElement.clientHeight 与 document.body.clientHeight(杜绝千篇一律的抄袭!!)
  3. 三星手机sim显示无服务器,三星手机不能拨打电话的现象的解决办法详细介绍
  4. Tushare介绍、安装及使用教程
  5. IntelliJ IDEA)中弹出“IntelliJ IDEA License Activation”时怎么办
  6. 四款最热门的云计算产品
  7. DEAP:使用生理信号进行情绪分析的数据库(三、实验分析与结论)
  8. 读《任正非在2012实验室的讲话》总结
  9. git 强行拉取覆盖本地
  10. set、env、export的区别