鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

看到这样一张图,你是否会露出“暴露年龄”的会心一笑?

电脑还只有dos系统的年代仿佛还没过去多久,智能手机却已俨然成为在现代社会中生活的标配。

科技的进步,无疑给大多数人的生活带来了便利。但其高速的发展,却也不免带来了这样一个问题:

如果有人跟不上技术发展的节奏,怎么办?

这其实就是技术人员要做的事,让弱势群体也能够感受到科技的温度

有人给出了这样的答案,并且就在最近,身体力行实践了这句话——

把AI实时字幕,带进了中国聋人协会的手语课堂。

不一样的课堂

疫情期间,上网课成为了一种常态。对于经常为听障人群组织培训、会议的中国聋人协会而言,这种线上远程开会、上课的需求也越来越多。

问题是,对于听障人士而言,这样的工作、学习方式天然存在着种种障碍。

视频没有字幕,就是其中一种。

虽然很大一部分聋人群体,能在助听器和人工耳蜗的帮助下听见外界的声音,但“听到”不代表“听清”,他们的声音世界仍像是被打上了马赛克,日常的沟通交流往往还是需要辅以文字。

如何能让这个特殊群体更简单地获取学习资源,参与培训、会议?

中国聋协想到了AI——现在在很多会议活动里,都能见到AI实时字幕的身影,那么能不能把这样的AI能力带到聋协的培训课堂里呢?

说来也巧,当中国聋协主席杨洋在同钉钉的一次工作会议上提出这一想法,立即便得到了对方的响应。

彼时,钉钉的工程师们正好在为钉钉的视频会议、直播产品开发类似的功能。得知聋协的诉求,钉钉技术团队当即决定,联合阿里达摩院团队,为听障群体搭建一套基于钉钉的无障碍工作平台。

初战未捷

实战的机会很快就到来。

深圳聋协组织了一场手语翻译培训,需要钉钉进行AI实时字幕的技术支援。

据钉钉直播智能翻译技术负责人卜瑞回忆,当时,留给技术团队的准备时间并不多:周一周二功能刚在钉钉上线内测,周六就要第一次公开使用。

不过一开始,卜瑞和他的同事们都颇有信心——虽然功能刚刚上线,但背后的技术方案其实已经相对成熟。

钉钉这次提供给聋协的AI实时字幕解决方案,核心采用的是达摩院语音实验室的E2E-ASR(端到端语音识别)技术。早在2020年9月的云栖大会上,达摩院就对外公布过相关技术进展:

基于达摩院提出的SAN-M网络结构,及基于SCAMA的流式端到端语音识别框架,在提升计算效率的同时,还能将高难度场景中的语音识别错误率降低近三成。并且,该技术解决了高精度语音交互任务长期依赖云端算力、语音指令出现延时等问题,使得基于该框架的整套语音识别系统可以部署在手机端。

相关论文,均已发表在了语音技术顶会INTERSPEECH上。

谁曾想,在聋协的第一次实战,培训现场还是出现了不少在工程师们意料之外的情况。

一方面,听障人群之间,会用到“聋人”、“听人”这一类平时不常见的专用词汇。钉钉的语音识别AI初来乍到,没有经过特训,一时间在这样的词汇识别上出了不少错。

更为严重的是,在第一场培训中,还出现了字幕显示着显示着就没了的情况。甚至在卜瑞和同事们拉来了阿里云视频云、达摩院的技术人员紧急“会诊”之后,情况也未能得到彻底的解决。

很尴尬,觉得有点辜负了参与培训的老师、同学们的期待。

“终于松了口气”

初战未捷,成为了悬在卜瑞和同事们头上的一朵阴云,回到大本营之后,便迅速开始了问题的排查。

事实上,像深圳聋协此次组织的手语培训课程,在形式上与正常的视频直播还是有不小的区别。

因为很多听障人士其实是看不懂手语的,所以在手语老师之外,这样的课程中还会有一位负责翻译手语的口语老师。也就是说,在这样一场直播中,口语老师和手语老师要保持全程连麦。

并且跟我们常见的新闻播报场景相反,口语老师接入的窗口并非主窗口,而是左下角的次窗口。因此语音流也是从次窗口输入的。

从系统流程上讲,要在这个场景中部署AI实时语音,是这样一个过程:

主播通过钉钉直播开启语音识别的功能,在主播的直播推流到阿里云CDN后,会分别被云导播跟ASR服务拉取,云导播服务负责字幕样式,实时展示,音、画、字的同步校准,以及链路的高可用等。

ASR服务则只负责解析音频数据,对音频重采样后输出给达摩院语音识别模块,生成字幕流并将其传给云导播。

云导播收到字幕流后,会计算显示时间戳(pts)时间,根据pts做音、画、字同步对齐,最终混流回推CDN,分发给用户播放。

回溯整个流程,技术人员们很快发现,在内部测试时,由于网络条件良好,次窗口的音频流和主窗口的视频流之间偏差不大,在可以容忍的范围之内。

但真正到了培训现场,网络情况较差,经常会出现抖动。这种持续的网络不稳定慢慢积累,就使得偏差超出了技术方案的容忍度范围,导致出现掉字幕的情况。

找到了原因,技术团队便立即着手对方案进行优化。一方面,是针对听障人群的特殊语料库,对语音模型进行特训。

另一方面,更换推拉流协议,打通与CDN传输状态的深度感知,增强网络波动兼容性。并改进时间戳对齐算法,采用滑动对齐的方式,确保在弱网抖动的情况下,当主播或连麦者客户端掉线发生闪断重推时,不会影响云导播对音、画、字的处理,对于观众来说看到的只是画面出现了轻微的卡顿。

方案调整之后,在第二周的培训课程中,AI实时字幕全程表现稳定,参与培训的老师学员纷纷表示“很有帮助,体验不错”。

卜瑞和同事们悬着的心也终于放了下来:

总算是松了口气,一周前丢的脸给挣回来了。

不一样的成就感

就在几天前,中国聋人协会正式宣布,基于钉钉搭建的无障碍工作平台会广泛投入使用,中国聋协系统全国31个省份、80多个城市的听障人士,均可利用语音转文字、AI实时字幕,无障碍开展视频会议、直播、网课学习等。

像AI实时字幕这样的功能实现,在一些to B的场景中其实并不鲜见,但也往往费用不菲。

此次协助中国聋协上线无障碍平台,钉钉又投入了多少人力、资源成本?

谈及这个问题,钉钉音视频资深技术专家胡洪卫回答说,在这个项目上,他们秉持公益心态,因此并没有太多地考虑成本问题。

从人力的角度来说,因为参与项目的还包括达摩院、钉钉生态伙伴等各方力量,后续还会保障无障碍平台功能的长期迭代,因此也不太好衡量。

不过,有一个答案是肯定的,做这个项目,“很值”。

在帮助聋协上线AI实时字幕的过程中,有来自听障朋友的反馈是这样的:

听障带来的影响,其实不只是日常沟通、交流方面存在障碍,还会延伸到很多方面。

比如职业天花板很明显,接受再教育的难度很大。

客观的现实就是,社会上大部分和职业提升有关的公开课程,比如医疗、法律、管理课程等,并不会专门为听障群体准备字幕。

AI实时字幕这样的功能,给特殊人群带来了新的可能性。

听到这样的反馈,胡洪卫、卜瑞等工程师真正感觉到自己作为技术人员,正在用技术创造社会价值。“那种自豪的感觉和精神上的鼓舞,是以前窝在实验室里做算法Demo时体会不到的”。

科技向善,不外如是。

科技的发展无疑会给人们的生活带来改变,但这种变化之中,人和技术本身不应该是对立的。

这一次,AI就给出了一张高分答卷,你觉得呢?

一群工程师,让听障群体“看见”了声音相关推荐

  1. 爱耳日腾讯天籁行动再升级 助力100位青年听障人才打破“屏障”

    公益是解决社会问题的重要切入口,科技是提升效率的强有力工具.当产业技术走入公益场景,科技也在发挥更大的社会价值. <中国听力健康报告(2021)>显示,过度的噪音曝露,正让全球11亿年轻人 ...

  2. 努力构建15分钟听力圈,腾讯天籁行动助力听障老人更快融入数字社会

    3月3日,腾讯与北京听力协会联合举办线上技术研讨会,以"AI助听技术发展与应用创新"为主题,汇聚国内从事AI助听.辅听相关理论研究及前沿技术落地的专家学者,共同探讨当前人工智能在听 ...

  3. 在手语世界里,健听人、数字人与听障人的交织

    如果没有声音,我们的世界会变成怎样的呢?没有雨落地,风吹草,鸟鸣啼:各种娱乐节目和直播也会远去:更麻烦的还在于,常规教育接受也会成为问题,读书识字可能会变成一种奢侈,网课.视频课都可能远去.这些问题对 ...

  4. 听障人士亲述:我们在VRChat用手语交流,成员规模5000人

    如果你在B站上搜索VRChat,排在前面的热门视频几乎都是与老外聊天的内容.除了练习语言.交文化流外,你还能在VRChat上遇到不少哇哇乱叫的小孩.作为一款VR社交应用,除了有趣的小游戏外,说话聊天也 ...

  5. 为5000听障儿童发声,3小时公益平台助力“爱的分贝”更加响亮

    成立于2012年的公益机构「爱的分贝」,隶属于中华思源工程扶贫基金会,是由李修平.郎永淳.张泉灵.季小军.姚雪松.马洪涛.王娟等众多播音员主持人共同发起的一项针对贫困听障儿童进行救助的公益项目. 多年 ...

  6. 搜狗发布全球首个手语AI合成主播,用技术造福听障人群

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看央视新闻,你一定对"段子手"朱广权逼疯手语老师的画面印象深刻吧. 手语新闻帮助听障人群更好地了解这个世界. 可是你有没 ...

  7. 当听障人士实现手语自由:手语AI平台的产业狂想

    盼望着,盼望着,春天的脚步近了,雪容融也终于正式上岗,迎来了自己的主场--2022北京冬残奥会. 本届冬奥会不仅是运动员们的竞技舞台,更是科技公司"秀肌肉"的绝佳舞台.诸多科技亮点 ...

  8. 3.9亿听障人士的福音,这款APP帮他们 “听见”世界

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 电影<我不是药神>最近大热.影片反映了高价进口药让许多患者无力购买的现状.观影后,小探不禁在朋友圈发出了"在现实社会,别穷 ...

  9. 关爱2700多万听障者,手语服务助力无声交流

    如果有一天,周遭的世界突然变得很安静,动听美妙的音乐,在你看来只是沉寂:振奋人心的演讲,对你而言只是默剧:大自然的千里莺啼,于你来说也只是画卷.你会不会感到害怕? 而有这么一群人,每天都在与这世界无声 ...

最新文章

  1. 美多商城之用户注册(用户注册业务实现)
  2. 10013: An attempt was made to access a socket in a way forbidden by its access permissions
  3. 字符串对象的各种方法
  4. 手把手教你用java读写excel表格文件(POI,EasyExcel)
  5. 这七种回归分析技术,学了不后悔~
  6. java 线程 spring_java中spring里实现多线程
  7. Nginx实现HTTP反向代理配置
  8. 你所坚信的,就是你的生活
  9. 手写tomcat监控工具---宕机重启
  10. 《WF编程》系列之23 - 基本活动:IfElseActivity WhileActivity SequenceActivity
  11. MySQL硬件软件中断_mysql 服务突然中断
  12. HSV空间改进的多尺度Retinex算法
  13. HTML实现网页内部的跳转
  14. Java 获取屏幕尺寸
  15. Gradual warmup lr schedule--pytorch
  16. NotebookApp] 302 GET /?token=be0e8107dd84eab831a957b640602e5157b5336b15e7fa61 (127.0.0.1) 1.000000ms
  17. 4K Stogram Mac版(Instagram照片下载工具)中文版
  18. 四川计算机二级时间安排,2020年3月四川计算机二级考试时间
  19. Java根据word 模板,生成自定义内容的word 文件
  20. Android 开发飞机大战

热门文章

  1. 如何导入给定名称的模块为字符串?
  2. Outlook 2003命令行参数开关详解
  3. 人像摄影哪家强?同为双摄的OPPO R11不敌金立S10
  4. PYDay6- 内置函数、验证码、文件操作、发送邮件函数
  5. [Share]Web Directions Conferences
  6. Android中Preference的使用以及监听事件分析
  7. 关于CLSCompliant
  8. linux定时关机命令_电脑设置定时关机你会吗?Windows自带的这行命令真好用
  9. 解决Kali LinuxVI编辑器无法复制问题
  10. iOS 11开发教程(十九)iOS11应用视图美化按钮之设置按钮的外观