盼望着,盼望着,春天的脚步近了,雪容融也终于正式上岗,迎来了自己的主场——2022北京冬残奥会。

本届冬奥会不仅是运动员们的竞技舞台,更是科技公司“秀肌肉”的绝佳舞台。诸多科技亮点之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手语数字人。

2月4日晚开幕的冬奥会上,央视新闻AI手语主播正式上岗,陪伴听障人士见证了一场场精彩绝伦的比赛。即将开幕的冬残奥会,这位手语数字人也义不容辞,将披挂上阵,让听障人士实时感受冰雪运动的魅力。

创造丰厚的冬奥遗产,为国家、主办城市、人民群众带来长期的、积极的收益,也是成功办奥的重要标志之一。在日常生活中,手语数字人能不能继续发光发热,为听障人士提供服务呢?

我们关注到,3月3日,央视新闻AI手语主播的制作者——百度智能云曦,又推出“AI手语平台”,通过分钟级生成手语合成视频、手语主播实时直播等能力,为手语服务的普及难题,提出了科技平台化的新解法。

同时,百度智能云曦灵还发布了“AI手语平台一体机”,让一些需要硬件交互的场景,比如医院、银行、车站等公共场合,插电即可提供手语服务,快速部署无障碍窗口。

平台化和软硬协作的革新,正在让手语数字人走上一条与社会价值长期对接、一同成长的进化之路。

科技巨头们都在积极打造手语数字人,反映出哪些潮水的方向?数字生命与智能技术的温情加速照进现实,这究竟意味着什么?

数字生命觉醒时:手语数字人的能力体系

百度智能云曦灵平台赋予手语数字人哪些特殊能力?我们不妨以人类手语老师的标准来审视一下。

有一种“难”,叫朱广权的手语老师,想要实时且准确地翻译出朱广权的妙语连珠,千挑万选的央视手语老师有时也难免手忙脚乱。而在此前与朱广权的在线pk中,这位由“百度智能云曦灵”打造的首个AI手语主播,面对朱广权不断抛出的超高速顺口溜,立马就能做出反应,表现出流畅、精准的业务能力。

综合来看,手语主播的华丽炫技,以及冬奥会上的扎实服务,来自百度智能云曦灵平台提供的三个方面的基础能力:

1.理解能力。

真实世界中,很容易受到噪音干扰,人类手语老师必须听清、听懂新闻内容,不然翻译出来也可能是错误的,一通比划猛如虎,但无法真正投入使用。

想要听清,需要领先的语音识别能力。百度智能云曦灵平台融合了百度自然语言处理技术,成熟领先的全双工ASR(Automatic Speech Recognition)语音识别模型,近场中文普通话的识别准确率,能够达到98%以上。

轻松搞定各种语音内容,即使段子手朱广权的神级语速也不在话下,这为后续数字人的手语翻译打下了坚实的基础,使得AI手语平台一体机更好地应用于不同场景中。

2.翻译能力。

感知之外,手语老师要分析、归纳重要信息,根据语句整体意思进行精炼和语序调整,将其转换成手语语言。

一些厂商研发的手语数字人直接采用“手势汉语语料”,好处是无需重新标注,节省时间,问题是生硬地按照说话顺序将手语手势连接起来,并不能算是“人类高质量手语”。

举个例子,“我想回家”并不是将这四个汉字依次比划出来,而是按照“家”、“回”、“我想”的顺序来表达。

因此,想要翻得准,手语数字人必须学会自然手语语序。百度智能云曦灵平台就基于“国家手语语法规则”,联合手语语言学专家,特殊教育专家、天津理工大学等,邀请上百位听障学生做数据标注,形成了近千万的高质量训练数据。

有了数据,接下来就是模型设定与训练。基于百度多年积累的神经网络翻译技术,设计了从中文文本到手语符号的翻译方法,打造出了业内首个基于神经网络的精炼度可控手语翻译模型,让手语数字人的翻译可懂度达到85%以上,媲美主流的中英,中日等方向的机器翻译结果。

3.表达能力。

手语中,手势必不可少,还需要表情、口型、动作等肢体语言的配合,帮助听障人士更好地理解。比如疑问句“吃饭了吗“,不仅要做出吃饭的手势,还要配上疑惑的表情,眉头皱起、眼睛睁大。

要让手语数字人声情并茂、手舞足蹈地表达,尤其是3D人像,有着不小的技术难度。一些手语数字人动作过快,有时又存在卡顿不连贯的情况。为了训练手语数字人的“声台形表“,百度智能云曦灵平台也是煞费苦心:

表情上,百度智能云用4D扫描数据,积累了超1万个脸部面4D数据,借助高精数字人“文字到形状的跨模态面部表情生成技术”,能够准确生成微笑、开心笑、wink、吹泡泡、白眼、思考等表情。口型合成准确性达98.5%,a和e这样发音时表情接近的字母,都可以细致的区分。

驱动时,通过个性化TTS,根据输入的文本/语音信息来进行自适应,结合多种预置动作,驱动数字人的唇形、肢体、表情、手势等自动生成。多模态的手语表达,能够传递出更丰富、准确、易于理解的信息。

同时,百度智能云曦灵平台搭载的开放域对话平台PLATO-XL,是百度基于百亿级训练参数、多年搜索及知识图谱积累而训练出来的,被认为是当前最大规模的中英文对话模型。通过它可以快速驱动数字人实现直播、动画等内容,达到多场景下的实时沟通。

纵观手语数字人的能力体系,不难发现,头部科技公司相继推出了自己的手语机器人,除了体现科技的人文关怀之外,还隐藏着技术发展的必然。

必须在算力、数据、算法三方面都有强大的能力,在语音、视觉、NLP、知识图谱等领域都有领先优势,才能让手语数字人真正觉醒在屏幕前、生活中。

百度作为国内AI 技术布局更完整的公司,能最快地实现手语数字人的大规模应用,原因正在于此。

数字生命的平台化复制:手语数字人插上产业之翼

在冬奥会和即将到来的冬残奥会上的大规模应用,几乎代表了现阶段数字虚拟人的最高水平,是典型的数字生命:具备完成复杂目标的能力(通过手语翻译传递赛事信息),以及实时学习进化的能力(收集信息、实时互动、做出回应,而非提前录制)。

正如未来生命研究所的创始人:迈克斯·泰格马克所说,数字生命是一种能够自我复制的信息处理系统,物理结构是其硬件,行为和“算法”是其软件。这决定了,手语数字人必须向软硬协作、规模复制的方向发展。

3月3日,百度智能云曦灵发布AI手语平台和“AI手语平台一体机”,或许正在为手语数字人插上产业腾飞的翅膀。

为什么这么说?手语数字人虽好,却不能低估技术产业化的难度,至少有几座大山横亘在前面:

第一座大山,是效率之谜。

对于新兴的手语数字人领域,制作难度大、周期长、技术门槛高,服务的群体相对较小,很多行业和企业在引入之前都会顾虑,会不会需要大量的人力财力成本,会不会效果不好没人用,思前想后就是等等再说。要让全社会听障人士都享受到技术红利,还是要尊重产业规律,降低新技术的应用门槛,真正让手语数字人的制作“降本增效”。

百度智能云曦灵的手语数字人平台,出现得恰逢其时。“AI手语平台”具备“视频手语合成”“直播手语合成”“文本转手语”“语音转手语”四大功能,可实现普通视频合成为手语视频、实时直播中增加手语画面、文字翻译为手语、语音实时翻译为手语等多种效果。AI手语平台可搭载在各类APP、网站、小程序中,让听障人士也能轻松实现线上社交、娱乐休闲、课程学习等各类需求。

同时,百度智能云曦灵还设置了三大平台,让手语数字人可以被快速、标准化、高效地生产和交付。比如在人设管理平台上,根据不同的场景搭配设置不同的人设,比如银行中引入的手语数字人可以专业、严谨,景区中使用的手语数字人则亲和、活泼等,适应千行百业的需求。

平台化、标准化、体系化的能力,使得AI驱动的2D数字人,生产周期只需要几个小时,3D虚拟偶像一两个星期就能开发出来,轻松飞越效率这座大山。

第二座大山,是体验之困。

大家可能注意到了,在百度智能云曦灵发布 “AI手语平台一体机”之前,几乎所有的手语数字人都是以软件形式存在的。专门打造一款手语数字人硬件,真的有必要吗?

从根本上来说,我们所知的所有生命形式都有着生物“硬件”的载体,有技术人员认为,“生命3.0”阶段的数字生命,不仅要具备设计自身软件的进化能力,还能设计自身硬件。

很多银行、医院等都在引入人形智能机器人,来增加用户的体验感。具体到手语数字人,作为未来在社交、电商、直播、客服、导游等领域的服务载体,企业与听障用户交互的关键入口,如果只能通过软件来互动,显然是不够方便。

但是,开发一个人形手语机器人又涉及到一个相当漫长且复杂的产业链,很容易让企业望而却步。

百度智能云曦灵此次发布的全离线一体机V3以及端云结合一体机P3,搭载了“AI手语平台”的核心功能, AI手语数字人可以像手机、电脑一样被快速、批量生产,到线下生活的各个角落中服务听障人群。

其中本地全离线一体机,在一些网络情况不佳的区域,比如偏远的山村、景区等地,依然能够进行手语翻译、人像渲染等操作,提供文本转手语、语音转手语等服务。

端云结合一体机,则通过云端计算+本地渲染的形式,也能灵活地实现手语服务。

第三座大山,则是进化之难。

衡量一个数字生命的标准之一,就是具备自主学习、自主适应、自我进化的能力,这需要全面的AI能力支撑。目前,整个手语机器人的产业链还没有被完全打通,尽管一些企业打出了“手语数字人“的概念,但只能在部分场合、部分视频中露脸。

推动手语数字人在真实的产业场景之中不断升级,是AI产业化中必不可少的一种能力。在中国的AI科技企业当中,像百度这样具备从底层算力、开发框架到产业解决方案的全栈AI能力的公司,并不多见。

目前看来,百度的全栈AI能力融入到百度智能云曦灵当中,给数字人升级能力带来了无限潜力,也将加速手语数字人这一“新物种“的全场景覆盖。

通过与产业的深度融合,手语数字人也将变得越来越复杂和聪明,进化成为真正的数字生命。

目前,我国有近2780万听障人士,而手语翻译老师只有1万人左右,许多场景中无法快速跟上手语服务,在飞速发展变化的社会中,很容易造成新的不公平。

而百度智能云曦灵的AI手语平台,让手语数字人的规模化复制变得更加可行;“AI手语平台一体机”,让数字人技术带来的体验更加丰富和多元。

数字生命的平台化复制,是社会责任不会变成空谈的前提,意味着商业价值与技术普惠的一次和解,也预示着手语数字人市场的快速打开。

AI产业的无形之变:手语数字人带来的连锁反应

平台化和软硬一体,规模复制的产业落地效率与直观的体验价值,让百度智能云曦灵在手语数字人的竞争中,已经获得了先发优势。

技术无障碍除了让残障群体受益,还将给企业自身和整个产业带来意想不到的收获。手语数字人的普及,换来的是AI受众的扩大和手语服务的延展,会让许多我们习以为常的场景出现明显的扩容与创新,并引发一系列连锁反应。

首先,AI手语解决方案不断复制到各行各业,让听障人士乐于去用,企业和机构乐于引入手语服务,让手语数字人的落地场景会愈加丰富,在公益属性、社交、传播营销等领域的价值将一一显现。

其次,数字人作为公认的虚拟世界入口,带来巨大的商业空间,已经成为互联网科技企业的下一幕竞争焦点。抢占数字人规模化生产的机遇,培养B端市场的信任感与忠诚度,有助于在接下来的市场竞争中占据优势。

更进一步,百度智能云曦灵在技术的领先性和全面性,决定了其有资格参与甚至主导数字人行业标准的建立,将吸引大量开发者和产业链上下游加速汇聚到生态体系内,推动技术不断迭代和应用持续创新,预先探索数字人的商业模式,带动云计算、AIoT等领域的增长,对于中国数字经济的发展有着重要作用。

以前提到智能科技,大家可能更多地关注独角兽、投融资、数字经济等宏大概念,而现在,手语数字人这样的智能新物种,正在给残障群体日常生活中的“小事”带来便利。

从冬奥主播到AI手语平台,百度智能云曦灵向世界证明,只需要打开一个通道、接通一座桥梁,技术红利就可以源源不断地汇聚到那些需要它的人群当中。

许人类一个更美好的未来,这或许是AI故事里,最温暖人心的章节。

当听障人士实现手语自由:手语AI平台的产业狂想相关推荐

  1. 听障人士亲述:我们在VRChat用手语交流,成员规模5000人

    如果你在B站上搜索VRChat,排在前面的热门视频几乎都是与老外聊天的内容.除了练习语言.交文化流外,你还能在VRChat上遇到不少哇哇乱叫的小孩.作为一款VR社交应用,除了有趣的小游戏外,说话聊天也 ...

  2. 跨物种脑-脑连接!听障人士通过豚鼠大脑听到了声音 | Nature

    明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 想知道你的宠物每天都在想什么吗? 现在,这事真的有可能实现了. 最近<Nature>发表的一篇研究中,科学家们成功把人类和豚鼠的 ...

  3. 为5000听障儿童发声,3小时公益平台助力“爱的分贝”更加响亮

    成立于2012年的公益机构「爱的分贝」,隶属于中华思源工程扶贫基金会,是由李修平.郎永淳.张泉灵.季小军.姚雪松.马洪涛.王娟等众多播音员主持人共同发起的一项针对贫困听障儿童进行救助的公益项目. 多年 ...

  4. 在手语世界里,健听人、数字人与听障人的交织

    如果没有声音,我们的世界会变成怎样的呢?没有雨落地,风吹草,鸟鸣啼:各种娱乐节目和直播也会远去:更麻烦的还在于,常规教育接受也会成为问题,读书识字可能会变成一种奢侈,网课.视频课都可能远去.这些问题对 ...

  5. 关爱2700多万听障者,手语服务助力无声交流

    如果有一天,周遭的世界突然变得很安静,动听美妙的音乐,在你看来只是沉寂:振奋人心的演讲,对你而言只是默剧:大自然的千里莺啼,于你来说也只是画卷.你会不会感到害怕? 而有这么一群人,每天都在与这世界无声 ...

  6. 听障人士的“有声桥梁”:百度智能云曦灵-AI手语平台发布

    在刚刚落幕的冰雪赛事中,百度智能云曦灵为央视新闻打造的AI手语主播正式上岗,她以流畅.专业的手语服务实时传递冰雪运动的激情.然而在日常生活中,听障人士想要方便地获取信息仍面临着众多困难,无障碍窗口稀缺 ...

  7. 搜狗发布全球首个手语AI合成主播,用技术造福听障人群

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看央视新闻,你一定对"段子手"朱广权逼疯手语老师的画面印象深刻吧. 手语新闻帮助听障人群更好地了解这个世界. 可是你有没 ...

  8. 一群工程师,让听障群体“看见”了声音

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看到这样一张图,你是否会露出"暴露年龄"的会心一笑? 电脑还只有dos系统的年代仿佛还没过去多久,智能手机却已俨然成为在 ...

  9. spotify下载_Spotify聋哑听障辅助案例研究

    spotify下载 Spotify for the deaf and hard-of-hearing may sound like an oxymoron, but it's quite the op ...

最新文章

  1. int[]到string[]的转换方法 Array.ConvertAll
  2. 传真故障排除示例--编码不一致导致传真失败
  3. 政策表达式截取json_json格式数据如何提取指定中文字符串。
  4. 逆水寒最新的服务器7月12日,《逆水寒》7月12日更新内容一览
  5. 音频服务器未运行怎么办,音频服务未运行怎么办 音频服务未运行解决方法【详细介绍】...
  6. Jeecg-Boot 快速生成前后端代码
  7. CTFshow web15
  8. redis数据类型之List入门练习
  9. 《Python核心编程》18.多线程编程(二)
  10. HTML_旅行志界面
  11. 暴雪和黑客的战争二:暴雪的第一击
  12. 解决 “8080“ 端口号被占用问题!
  13. oracle里面的long,long raw,raw,clob,blob区别
  14. 模型训练技巧:warmup学习率策略
  15. MySql存储IP地址(兼容ipv4和ipv6)
  16. 14.JDK底层Unsafe类是个啥东西?
  17. php 生成excel透视表,利用Javascript仿Excel的数据透视分析功能
  18. 电脑里u盘的内容删除了怎么还原?简单实用方法分享
  19. css背景图片重复相关知识
  20. 联发科MT76x8使用1-芯片对比

热门文章

  1. 网站空间和域名的关系和区别
  2. 两种动态灰狼优化算法
  3. 狂言50年要拿30个诺奖的日本,如今怎么样了?
  4. 常见步进电机的特点、选型方法以及型号参数说明基本知识
  5. 51fe 漫画下载助手 release091008
  6. element ui tree结构双击单机右键事件
  7. 「中高级前端进阶」从零开始手写一个 vue-cli 脚手架
  8. 1071 小赌怡情 (15分)
  9. 给感染新冠的老年人一点建议
  10. Allegro 16.6尺寸标注以及删除操作记录