如果没有声音,我们的世界会变成怎样的呢?没有雨落地,风吹草,鸟鸣啼;各种娱乐节目和直播也会远去;更麻烦的还在于,常规教育接受也会成为问题,读书识字可能会变成一种奢侈,网课、视频课都可能远去。这些问题对于健听人而言可能很远,但在中国2700万、全球4.66亿听力障碍人士面前,这些都是关乎生活重要话题。

在今年的2021搜狐科技5G&AI峰会上,搜狗 CEO 王小川正式发布全球首个手语AI合成主播“小聪”,其便是基于搜狗人工智能和AI分身技术,为听障人士更好融入社会提供帮助。AI技术的发展,使得语言转化为文字早已不是什么难题,强大的NLP技术甚至能够实现多国语言的实时翻译,但对于手语这一独立于各大语系之外却用户诸多的语言,能够真正去接触、了解、研究的机构却很少。

为了探索“小聪”背后的故事,揭秘手语3D数字人的技术布局,CSDN应邀采访了搜狗AI交互技术部总经理陈伟及其研发团队,来进一步了解手语的世界。

3D数字人对视觉空间语言的表达

2018年,搜狗与新华社联手,推出了全球第一款AI合成主播数字人“新小浩”。但第一代数字人无论表情还是手势,都显得非常拘束。而通过短短几年的技术迭代,搜狗AI团队在超写实3D数字人领域持续研发并取得了新的突破,本次发布的手语数字人结合原力科技的行业最领先3D重光照扫描还原完成的手语数字人高精度模型及采集的动画数据,辅助自研的表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。

或许很多人会迷惑,手语的价值是什么呢?我们不是有字幕的吗?陈伟举了一个简单的例子,就像电影电视一样,即便我们能听到听懂,也一样需要字幕才能更好的理解其中信息。而国内2700万听障人士中,受教育程度参差不齐,尤其是中老年群体中,他们对手语的接受程度会更高一些。更何况,字幕和手语绝非二选一,二者语言体系并不相同,使用手语表达会更符合听障人士的习惯,而手语3D数字人的出现也可以让听障人士多一个维度获取信息。

可问题在于,手语是一种与汉语、英语、法语、俄语等全然不同的视觉空间语言。手语以表形表意为主,其独立性相比普通的语言要高很多,不过因为其特殊性存在,导致词性结构不发达、语序语法结构相对独立。这些因素的存在,使得健听人想要学习手语困难重重,想要打造这样的一个项目,就先要从头学习这门独特的语言。可是,手语的材料相比其他语系也十分稀缺,团队最可靠的资料便是我国2019年基于最新发布的国家通用手语语言体系而出版的《国家通用手语词典》。

为了打造听障人士可懂的手语3D数字人,陈伟的团队不仅仅要学习手语,还要和工程师、研发人员、专家等共同把手语的手势、表情、唇动、姿态等图像信息转化为计算机可懂的编程语言。而为了让听障人士和健听人正常沟通,手语翻译成其他语言的工作也十分繁杂,这里除了建模和算法问题之外,还会涉及大量语言相关工作,难度可想而知。

当然,前期所有的工作最终都是为了让数字人能够更加逼真的表现出来,这其中不仅仅是手语动作,还包括了面部表情、唇语等诸多表征。为了保障数字人的实用表现,陈伟的团队与中国聋人协会、残联共同制定手语研究体系,与手语学校的老师及手语使用者进行紧密沟通,获得真实用户反馈。

搜狗团队还为CSDN提供了这一流程的实现路径。如上图所示,当健听人输入了口语文本之后,模型通过文本预处理提供给手语翻译体系;这部分会通过机器翻译生成手语表征信息,其内容覆盖了手部动作、面部表情、口动等维度;然后基于多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列,实现手控信息和非手控信息的表达,最终能够达到更加自然、也更容易被听障人士接受的手语表达效果。在组织的聋人可懂度测评中,搜狗手语数字人的播报内容可懂度达到85%以上的实用水平。这对于聋人克服语言障碍,沟通社会信息将会非常有利。

3D数字人手语表达,三大难点与技术突破

如果说以往做语言实时翻译,是把其他语言的大师请到身边;那么手语表达的工作就相当于背上行囊出发去异国他乡——周围的一切都已经脱离熟悉的领域,需要从0开始建设。而支撑他们一路前行的理由,只因这是一条有价值、有意义、未来光明的道路。陈伟的团队在研发过程中遇到了诸多的难点,而数据、算法和写实度堪称为三大难题。

数据是最初遇上的难点,仅靠一人一本8000多个词的《国家通用手语辞典》是远远不够的。但是,国内并没有规模化思考如何构建一个让AI学习的手语大数据库,这都需要团队从0开始构建。为此,陈伟团队首先从语序、选词、表情等不同维度将手语词汇转化成用文字的方式或者用技术的方式标注出来;然后构建健听人语言与手语之间的平行语料对,积累资源作为机器翻译系统的数据;然后,基于现有语言,团队以真人面部动作捕捉为基础积累单元数据,将手语动作数字化,并通过模型方式预测生成参数,然后将参数映射于3D模型上,进行实时渠道和渲染,最终打造为超写实模型。手语数据的缺乏使得从标注、生产、验收到应用的完整体系工作量都有所增加,而这些也都跟技术的结合变得更加紧密。

算法是第二个问题。无论是机器翻译还是3D数字人的生成,都需要结合机器语言特点进行定制。以往的几代数字人AI合成主播,大家能够看到最多的就是唇形和表情的管理。但这次的手语主播,其要求全然不同。新加入的评估维度包括了嘴形、表情、姿态、手部动作等一系列元素,全部要求在同一时间内完全对齐。一旦遇到嘴形变化、动作是提前或滞后、表情表达失误,那么给用户的将不止是别扭,而是表达上错误。为了保障数字人表达的一致性,在技术上就要做到充分对齐,所以在模型生成时要做到端到端或者联合建模,其对于精力的消耗自然要更高。

在参与采访之前,笔者便一直对数字人的形象有所担心,3D建模虽然避免了2D建模的距离感,但却很可能因为技术的限制而陷入恐怖谷效应之中。由森政弘提出的恐怖谷效应是指当机器人与人类的相似程度达到一个特定程度的时候,人类对他们的反应便会突然变得极其负面和反感,当突破恐怖谷之后,人们就能够与机器人形成共情,使得其更具温度。

而陈伟也表示,在3D这件事情,构建一套超写实的数字人,突破恐怖谷问题就是他们所面临的第三大难题。陈伟曾经问过很多手语专家:“你们希望手语主播是2D卡通形象还是3D真人形象?”而他得到的答案无一例外,都选择了真人。因此即便有恐怖谷可能,搜狗依然希望最终的数字人与用户自然交互是有温度的,所以最终团队依然坚持打造了3D超写实数字人。

面对恐怖谷问题,当前技术依然有一定的限制。比如之前的部分数字人就不可避免会产生穿模或者缺陷,导致用户恐惧。而此次推出的“小聪”便针对这些问题进行了优化,使用了行业最领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。数字人写实度的大幅突破显著提升了手语播报的真实感与亲切感,能够有效提升播报的用户体验。同时,陈伟也认为恐怖谷问题在一两年里将有望完全突破,届时在3D建模渲染的写实度将会继续提升,使得用户和数字人之间更容易建立质朴且有效的情感链接。

手语数字人的价值,让世界多一寸温暖

在采访中,陈伟最多谈到的三个字可能就是“有意义”。在他看来,手语3D数字人的推出是一件非常有意义而且功德无量的事情,但限于研究时间和技术迭代,手语数字人的建设依然有很长的路要走。

目前,国内的手语识别发展成熟度并不高。如今市面上的手语识别大多数仅限于手势汉语,而这里面还有很多无法让听障人士所理解。其原因在于,大量的手语表达会夹杂诸多的语序切割和加工,其表达时会按照健听人语序来手语,但这反而会让听障人士形成理解障碍;再加上很多手语表达时表情缺失,从而使得真正可靠的手语产品少之又少,其带来的结果便是手语识别和手语合成的研究偏少,形成恶性循环。这也是推动搜狗技术团队打造手语数字人的原因之一。

手语数字人可以在大多数交互场景中,让手语快速转化为健听人的语言信息,让健听人听懂数字人的播报;其也可以把健听人的语言快速转化为手语信息,与听障人士无障碍交流。搜狗在进行数据构建过程中结合了手语识别和生成。在以往,搜狗语音识别已经积累了比较多的技术能力,其可以快速移植进入到手语识别,但在手语生成方面难度就会提升很多,其牵涉的环节太多,而这也是陈伟团队所需要核心突破的点。

搜狗的手语数字人推出后,其能够在实时场景和非实时场景中为听障人士提供帮助。以往,一些重要的活动和实时性较强的新闻信息中,并不会配以字幕,因此很少有渠道能够让听障人士同健听人一样实时获取相关信息。比如在去年的疫情发布会上,很多听障人士难以获得实时消息,因此会长时间无法与社会信息同步。再者,一些公共信息广播类的场景中,如机场、车站等地,缺乏视觉能够看到的地方直观的获得相关信息,从而影响到听障人士正常生活。手语数字人能够在这些场景为用户解决燃眉之急。

而在未来,手语的人机交互还会有很多应用空间。当前,现有的人机交互主要是以语音为主,手语识别只能针对相对孤立的手语词做识别,长段的开放性识别依然有难度。但是在未来,多模态交互会更加符合发展趋势,与动作结合起来,将手语放到人机交互的环境中,使其能够与机器形成更多自主的交流,这便会催生更多的应用场景落地。

在非实时场景中,围绕文化、娱乐、生活相关的场景会衍生出一系列的手语数字人应用需求。比如在诸多电视和娱乐栏目中,不仅没有配备手语介绍,甚至连字幕都没有。这对于听障人士获取信息将会有很大问题,但通过手语数字人,他们能够将这些文本信息转化为手语传递给听障人士。而数字人能做到还不止这些,比如一些主题曲、国家级影片或者现场活动,这些无法以文字或声音传递给听障人士的活动,可以借助数字人来增加他们的参与感和体验,而这些也都是未来数字人重要的应用场景所在。

以打造聋人真正可懂的通用手语播报为目标,此次发布的搜狗手语数字人以搜狗数字人技术体系和搜狗分身为基础,集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项领先AI技术,实现了基于超写实3D数字人的自然可懂的手语主播能力,使机器可以基于输入口语文本生成逼真度高、手语表达准确的3D数字人视频内容。

手语数字人或许并不会像以往的技术一样迅速风靡,但就像陈伟所说,其本身是一件非常有意义的事情。在听障人士他们的世界里,或许没有声音,但这并不意味着他们不能像健听人一样获取互联网发展红利。尤其是在AI技术普惠大众之时,任何人群都不应该被忽视。相反,花开百样红,他们别样的人生也能活出一样的精彩。

在手语世界里,健听人、数字人与听障人的交织相关推荐

  1. 3.9亿听障人士的福音,这款APP帮他们 “听见”世界

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 电影<我不是药神>最近大热.影片反映了高价进口药让许多患者无力购买的现状.观影后,小探不禁在朋友圈发出了"在现实社会,别穷 ...

  2. 听障人士的“有声桥梁”:百度智能云曦灵-AI手语平台发布

    在刚刚落幕的冰雪赛事中,百度智能云曦灵为央视新闻打造的AI手语主播正式上岗,她以流畅.专业的手语服务实时传递冰雪运动的激情.然而在日常生活中,听障人士想要方便地获取信息仍面临着众多困难,无障碍窗口稀缺 ...

  3. 在混乱的数字货币世界里,如何掌握你的思维避免掉进陷阱?

    加密货币处在一个理性的世界:计算机冷静地交换信息,程序员自动写出无尽的软件代码.感受和情绪似乎毫无用武之地,对吧? 错! 加密货币绝对具有破坏性,它不仅会动摇我们生活和娱乐等外部世界的基础,还会扰乱我 ...

  4. 加密货币世界里的「数字乞丐」

    「在中国,如果每个人给我一块钱,我就有 13 亿了.」 在中文互联网世界里,一直以来不断有人发出这个灵魂之问,估计不少人小时候也有过这种幻想.但就像这个下面这个回答一样,现实总是给以残酷的答案--「凭 ...

  5. 数字世界里的足球——数研院探索多智能体足球AI并取得新突破

    世界杯终于回来了,经历了疫情的三年时光,全世界的球迷都尤其期盼着这个也许是人类历史上意义仅次于1948年伦敦奥运会的盛大赛事--2022卡塔尔世界杯. 1863年,英国足球协会在伦敦正式成立,标志着真 ...

  6. java前锋,编程语言世界里的最佳“11人”

    6月份的尾巴,让我们感受到了烈日炎炎的夏季:7月份的前奏,除了酷热,南非世界杯也落下帷幕.在足球世界里,能够入选赛事的最佳阵容,对于球员来说是一种莫大的荣誉.在本文中,主角将是我们开发应用程序所用到的 ...

  7. 一个四维的人在三维世界里到底长什么模样?

    " 我们曾经仰望浩瀚的星空,思考自身的存在." --< 星际穿越 > 今天我们来聊聊维度... 大家有没想过,我们所处的宇宙,其实是一个多维宇宙. 但可惜的是人类仅仅只 ...

  8. 搜狗发布全球首个手语AI合成主播,用技术造福听障人群

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看央视新闻,你一定对"段子手"朱广权逼疯手语老师的画面印象深刻吧. 手语新闻帮助听障人群更好地了解这个世界. 可是你有没 ...

  9. 互联网人在硅谷:听 Google 资深产品经理 bigjoe 聊聊职业与热爱

    [导语]硅谷也有 996 吗?硅谷的互联网人境遇究竟如何?初出校门的职场小白该如何合理安排职业规划?热爱与风口之间应当如何抉择?欲将前路托产品,蠢蠢欲动心何寄?而面对晋升焦虑,产品人又当何去何从? 北 ...

最新文章

  1. 计算机比赛的评分办法,汉字录入比赛评分规则方案
  2. 使用pm2启动Node和Vue项目教程
  3. 牛客小白月赛6 J 洋灰三角
  4. 那些被.NET大厂拒绝的大佬们,究竟弱在哪里?
  5. sap tcode 功能对照表_Python for Ev3练习amp;Minstorms对照表02
  6. python 输入数字变成密码_如何在python中检查数字的“密码”
  7. 二级c语言评分标准一样吗,计算机二级评分严格吗 步骤错了有分吗
  8. 中科大在50年代的教学理念
  9. OpenCV3学习(7.4)——图像分割之四(Meanshift算法,PyrMeanShiftFiltering函数)
  10. PNP问题-位姿估计方法梳理(pose estimation)
  11. 【编译打包】drbd 8.4.2
  12. 使用jTopo给Html5 Canva中绘制的元素添加鼠标事件_html5教程技巧
  13. 内存卡提示要格式化怎么办?
  14. python3绘制超立方体
  15. 百度经验-怎么进入系统故障恢复控制台
  16. StarRocks 社区一周年:极速统一,感谢遇见!
  17. uni-app 快速发送短信
  18. html知识点总结1
  19. 如何有效的制定团队能力提升计划?
  20. laravel laravel-admin 语言包的问题 trans('demo.user_not_exists'); trans(admin::passwords.password);

热门文章

  1. merge合并两个有序数组
  2. JAVA之outofmemory
  3. ASP.NET MVC 3 Beta: Built-in support for charts(MVC3 Razor中使用图表的最佳方案)
  4. [bzoj 3110] [ZJOI2013] K大数查询
  5. 接口参数,get和post
  6. ServletContext作用功能详解
  7. MySQL配置文件简单解析
  8. 29.奖金(拓扑排序)
  9. javascript参数arguments对象
  10. js+css 使div背景图在ie6中透明