原标题:谷歌语音识别功能Live Transcribe,让AI帮助语言障碍者“说话”

目前,全球有4.66亿人患有残疾性听力损失。而据世界卫生组织估计,到2050年,这一数字将超过9亿(即每10人中就有1人)。听力受损使得人们很难与周围的世界沟通交流,这是人类社会中一项严峻的挑战。近年来,人工智能领域越来越多地关注残疾人,企业和技术专家致力于通过人工智能实现信息无障碍。

帮助语言障碍者交流

近日,在“Google Solve with AI”活动上,Google AI产品经理Julie Cattiau介绍了在针对听障和言语障碍患者人群推出的应用新进展和覆盖情况。其中语音识别 (speech recognition) 功能——Live Transcribe应用情况备受瞩目。据介绍,该功能可以实时自动转录对话,让人们参与到原本无法参与的对话中。目前,Live Transcribe应用程序支持超过70种语言,通过在手机屏幕上把现实生活中的语音转录为文本,帮助耳聋和听障人士与他人沟通。

据悉,该功能通过为言语障碍患者建立语音识别模型,和能够识别其他沟通方式( 如手势,眨眼等)的基于计算机视觉的模型,让机器去理解他们说话的方式,用AI语音技术帮这些患者“说话沟通”。

不过,要让AI读懂言语障碍患者的表达,也存在一定的挑战。Julie Cattiau表示,现在一般的语言识别已经有大量的数据,但是在今年启动的Euphonia项目中,其实很少有语言障碍的人愿意参与。由于没有人收集到足够大的数据集,语音识别技术可能不适用于有语言障碍的人士,而这将是Euphonia着手研究的部分。Julie Cattiau透露,目前,Euphonia项目正在通过招募志愿者,积累更大的残障人士语言数据库,优化语音识别模型,希望最终帮助所有的言语障碍患者进行交流。

其实,在今年5月的2019年谷歌I/O开发者大会上,谷歌发布的live Relay,这个功能可帮助聋哑人打电话,可以将对方的语音生成实时文字。再比如对渐冻症患者,他们一般用目光来控制打字。但利用机器学习技术,甚至可实时识别他们的表情,可以让不能使用语言表达的人,也可以表达自己,并被人理解。

利用AI将大脑信号转换成语言

不单单是谷歌利用AI技术对于语言障碍群体的帮助,早在今年4月,加利福尼亚的科学家们利用电极和人工智能制造了一种可以将大脑信号转换成语言的装置。据了解,他们实验用的解码器最终可能会发展为一种大脑植入物,届时将能够为因中风、创伤性脑损伤、多发性硬化症和帕金森氏症等神经系统疾病而失声的人恢复说话的能力。

在他们的研究中,记录了5名癫痫患者(他们已经在治疗过程中植入了大脑植入物)大声朗读句子时的大脑活动,然后,一对神经网络——专门为识别模式而设计的人工智能算法——就会开始解码过程。它们首先使用大脑信号来预测发送到嘴唇、舌头、下巴和喉咙的指令来产生单词,第二步是把预测的动作转换成计算机合成的语音。

为了测试计算机生成语音的可理解性,科学家们让以英语为母语的人听这些句子,然后让他们从一堆单词中选择他们认为听到的单词。而转录正确率取决于这些听写员参照的单词数量,但平均而言,听写员能够正确识别70%的单词。当每个单词给定25个候选选项时,他们答对了69%的单词;当每个单词有50个候选选项时,人们答对了47%的单词。

AI语音技术应用于情感交互

在AI技术的深度融合与应用的当下,语音技术的发展不仅可以帮助语言障碍患者,在情感交互领域也能给予人安慰与陪伴。 语音技术的下一个阶段是人类与AI伴侣的深度融合。这项技术经过迭代之后几乎就会变得像家庭护理人员一样,利用情感识别和生物识别监测,根据声音的细微差别来标记潜在的健康问题。例如,亚马逊申请的一项专利,这项专利是根据语音技术交互检测身体健康,情感和幸福感相关的技术。

不仅如此,根据埃森哲的研究表明,39% 的消费者信任智能设备来监控婴儿和儿童,并根据舒适性或安全性对周围环境进行调整。照顾年长的老人也同样能够适用。到2050年,全球将有20亿人超过60岁。随着老年人人口结构的大规模增加,人类护理人员数量的增加可能无法满足老年人护理需求的不断增加。语音技术在照顾全球老龄化人口方面可能会发挥更大的作用。

对于一些人来说,语音 AI 伴侣将是他们人际关系的补充产品。而对另一些人来说,语音 AI 可能会成为他们的主要和最基础的关系。这一趋势在年轻一代中最为明显,其中包括千禧一代与90后人群。随着全球孤独感的日益流行,声音AI越来越有机会填补这一空白,并为这种缺乏陪伴、空虚的人提供陪伴与慰藉。

语音技术应用领域已经涉及到生活各个方面,它具有触及消费者日常生活多个维度的潜力,因为它能够非常人性化的体验轻松满足持久和潜在的消费者需求。虽然我们可以看到这项技术在提高消费者福祉方面有极大积极作用,但政府、研究机构、技术开发商和行业参与者也会对消费者隐私产生直接且严重的影响,这些都需要共同努力解决。

责任编辑:

谷歌语音识别功能Live Transcribe,让AI帮助语言障碍者“说话”相关推荐

  1. google套件_Google 推出 3 款语音识别应用,想用 AI 帮语言障碍者说话

    如何让听障人群接听电话,如何让语言障碍人群与外界对话?在脑机接口技术并不成熟的现阶段,要想完成这种不可能之事,就要指望人工智能和机器学习了.▲Live Transcribe今年 2 月,Google ...

  2. 安卓调用系统语音识别功能全解(谷歌语音服务):获取识别结果,使用语音识别进行搜索。

    全栈工程师开发手册 (作者:栾鹏) 安卓教程全解 安卓调用系统语音识别功能全解(谷歌语音服务):获取识别结果,使用语音识别进行搜索. 首先要添加权限 <uses-permission andro ...

  3. 谷歌AIY项目深度揭秘:语音识别与视觉识别及神经网络AI工具!

    去年,谷歌启动了 AIY 项目,推出两款 DIY 套件,目的是让创客们能够在自己的项目中融入 AI. 谷歌注意到对这些套件的需求持续增长,特别是 STEM 受众的需求强劲,家长和教师们都认为这些产品是 ...

  4. 谷歌语音识别_谷歌 语音识别 语种 - 云+社区 - 腾讯云

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 提升语音识别的端到端模型在谷歌各式各样的语音搜索应用中,都是基于传统的自动语音识别 ...

  5. 百度免费开放长语音识别功能

    近日,百度AI开放平台向开发者免费开放长语音识别功能,通过SDK调用服务,可将长语音转换为文字.据了解,新版本SDK解除了对时间的限制,开发者无需再将长语音切割成60秒以内的分段,进行调用,提升了转写 ...

  6. 百度api语音识别一直“无内容”_PHP开发语音识别功能

    语音识别的功能的应用场景 将语音实时识别为文字,适用于语音聊天.语音输入.语音搜索.语音下单.语音指令.语音问答等多种场景. 我们还是利用百度API,语音识别功能,给大家讲解如何使用.API主要就是要 ...

  7. php 复制文件夹并压缩到最小_php与语音识别功能如何对接

    语音识别的功能的应用场景 将语音实时识别为文字,适用于语音聊天.语音输入.语音搜索.语音下单.语音指令.语音问答等多种场景. 我们还是利用百度API,语音识别功能,给大家讲解如何使用.API主要就是要 ...

  8. 使用谷歌语音识别打造语音管家HiVoice

    写在前面的话: 博客园是分享原创精品博文的地方,感觉自己的这篇博客至少是原创,也花了一些心思,自我感觉良好,呵呵,所以还是发布上来了,期望和大家一起交流.这个HiVoice是个人根据时下流行的语音识别 ...

  9. 宛如白昼,谷歌发布最强夜景拍照AI算法,单摄秒杀一众苹果华为三星

    晓查 郭一璞 发自 亚龙湾  量子位 报道 | 公众号 QbitAI 今天,谷歌发布了最新夜视(Night Sight)功能AI算法. △ 图片来自The Verge 你觉得这张照片是在一天之内的什么 ...

最新文章

  1. 虹软java接摄像头_虹软人脸识别SDK(java+linux/window) 初试
  2. js php 数据类型判断,【js基础】变量类型判断
  3. (二)C语言数据类型(2)
  4. Docker挂了,数据如何找回
  5. ng-notadd 0.10.1,基于 Angular7 和 material2 的中后台解决方案
  6. easyui弹出层在最顶层显示跳出iframe框架通用javascript代码
  7. sql server 优化_SQL Server中很少有外行优化
  8. 语音识别_qq语音识别_js语音识别 - 云+社区 - 腾讯云
  9. 《pro Spring》学习笔记之Spring HTTP 远程方法调用
  10. 国内互联网文章转摘习惯与现状一瞥
  11. 高等数学(第七版)同济大学 习题2-4 个人解答
  12. 如何提高自己的分析能力
  13. Linux基操 笔记
  14. HP笔记本电源灯亮不能开机 - 静电问题
  15. 女朋友过生日送什么礼物好?
  16. 笔记本电脑拆机并更换固态硬盘的方法
  17. 计算机网络的发展经历了几个阶段?每个阶段各有什么特点?
  18. python名片管理器实验报告_名片管理系统——实验报告.doc
  19. 剧情/惊悚基因危机:天才科学家的五日
  20. 引用数据类型的类型转换

热门文章

  1. 001 spring介绍
  2. 基于Senparc的二次封装
  3. jquery.form.js ajax提交上传文件
  4. [转]浅谈php web安全
  5. HDU 1712 ACboy needs your help(简单分组DP)
  6. silverlight下多线程处理
  7. HDU2023 求平均成绩【入门】
  8. CCF NOI1019 分段函数
  9. UVA490 Rotating Sentences【输入输出+水题】
  10. 博弈论与逻辑思维(传教士与妻子忠贞的问题)