如何让听障人群接听电话,如何让语言障碍人群与外界对话?在脑机接口技术并不成熟的现阶段,要想完成这种不可能之事,就要指望人工智能和机器学习了。▲Live Transcribe今年 2 月,Google 在 Android 手机上推出的 Live Transcribe 应用程序,再到 5 月的 Google I/O,发布了能够实时转录语音 / 文字支持通话的 Live Relay,以及能够为语言障碍者实现语音转写的 Project Euphonia 项目。在「帮助人们更好地沟通」这件事情上,这些应该是人工智能目前最前沿,并且能广泛应用的进展了。应该是目前世界上最先进的语音识别应用产品Live TranscribeLive Transcribe 是 Google 针对耳聋及听力障碍人群开发的一款免费 Android 无障碍服务。基于此前在自动语音识别技术(ASR)的研究,Live Transcribe 将自动生成字幕的功能引入了手机设备。▲较亮的内部同心圆代表噪声层,外部同心圆表示手机麦克风对说话人声音的接收状况。使用 Live Transcribe 的场景是这样的:打开 Live Transcribe 这个软件后,它会实时读取外界的语音,并实时讲语音转录成为文字,在手机屏幕上显示出来。即使是说话者大笑、吹口哨等细节,也会有相应的文字提示。也就是说只需一部联网的手机,便可实现实时的语音转文字功能。目前该软件已经支持超过 70 种语言。但 Live Transcribe 的实时转录,不仅需要手机设备上的神经网络做声音分类,还需要依赖云端的三个神经网络模型,去完成语音转录成为文字的过程。▲Sagar Savla 在展示 Live Transcribe在我们向 Google AI Research Group 产品经理 Sagar Savla 问及,何时 Live Transcribe 才能实现完全在本地运行、不依赖云端网络时,他告诉我们:我们正在做这样的工作,但目前没有准确的时间表。比如像中文这个语种,需要很大的模型,要想把很大的模型融入到终端设备并且保证其准确性,是很有挑战的。Live RelayGoogle 在今年的开发者大会上展示了 Live Relay 的能力:如何在听不到或者没法开口说话的情况下,轻松地打电话。如果你因为语言障碍、社恐、拔牙等各种情况没法开口说话,在 Live Relay 的页面输入单词,这个文本会被迅速转换为音频,发到另一个人的手机上。

如果你因为听力障碍、身处噪音等情况没法听到声音, Live Relay 也可以把通话对方的语音转录成为文本。目前 Live Relay 依然处于研究阶段,只能在特定的 Pixel 手机上使用,并且暂时只支持英文。Live Relay 将完全在设备上运营,通过使用设备上的语音识别和文本到语音识别功能。借助即时响应和预测性输入建议(smart relay 和 smart compose),打字速度提高后是可以与电话呼叫保持同步的。在我看来,虽然 Live Relay 被归类到 Google 的无障碍项目,尤其为听障用户提供帮助,但其实很多人也可能用得上。比如在开会时突然接到重要电话,没法跑出去接听,那么 Live Relay 就能派上用场了。

Project Euphonia据统计,渐冻症、多发性硬化症、脑外伤、中风等神经系统疾病的患者,通常也会出现语言障碍,外界通常没法理解这类人群说的话,以及表达方式。Euphonia 项目在为语言障碍人群建立语音识别模型,以及能够识别手势、眨眼、面部表情等基于计算机视觉的模型,帮助他们更好地与外界沟通表达。他们通过与渐冻症组织合作,训练 AI 去学习和识别渐冻症患者的声音,从而实现对他们发音的转录。与此同时,他们还在正对特定的患者,训练个性化的 AI。比如被诊断患渐冻症十多年的 Steve Saling,受特殊训练的模型可以识别出他看体育赛事时的脸部表情,从而确定他想要对外表达的情绪。在他想喝彩时,电脑会发出吹喇叭(airhorn)的声音;喝倒彩时,则发出嘘声(boo)。Euphonia 项目的产品经理 Julie Cattiau 表示,他们所面临最大的困难是收集语音样本。因为有语言障碍的人在人群中占比不高,并且经常是有特定需求的,所以他们依然在招募寻找适合做这种语言识别研究的人。无障碍的新定义:确保每个用户意图都被理解尚有余力的科技公司,在产品设计、开发的时候都会或多或少地考虑信息无障碍(Accessibility)。某种程度而言,信息无障碍是智能产品交互设计中针对特殊人群的一个功能,它可以让人们更加平等地享用产品在硬件和软件上的各项功能。科技产品中的「无障碍」,相当于互联网世界中的盲道、扶手、助听器、义肢。无论是 Android、iOS 系统中的无障碍功能菜单、读屏功能、放大镜功能、反差颜色设置,还是一些 app 接入了无障碍套件、为功能按钮添加「标签」,这些都是很基础的无障碍用户体验。基础的无障碍用户体验,是为了让用户能够更准确接收到手机、电脑、app 等产品所发出的信息。而 Google 借助人工智能和机器学习,让无障碍从「用户准确接收机器信息」,向「确保用户意图被机器理解」进化迭代。这也意味着,「无障碍」在未来将是一种新的人机交互方式。它可以为特定人群展示提供更多的信息,也在让用户更便捷迅速地操作,更重要的是向「让我来帮助你完成」演化。技术的发展在重新定义「无障碍」,也对产品、科技公司提出了新的要求。一个能将无障碍体验做好的产品,通常也能为普通用户提供更好的体验。

点一下,让更多人知道  

google套件_Google 推出 3 款语音识别应用,想用 AI 帮语言障碍者说话相关推荐

  1. 谷歌语音识别功能Live Transcribe,让AI帮助语言障碍者“说话”

    原标题:谷歌语音识别功能Live Transcribe,让AI帮助语言障碍者"说话" 目前,全球有4.66亿人患有残疾性听力损失.而据世界卫生组织估计,到2050年,这一数字将超过 ...

  2. google 插件_google这4款插件我每天都用,省时无数

    Chrome可以说是很受欢迎的浏览器了,简洁的设计以及快速.稳定的性能,真是让人拍手叫好,当然很多人成为他的忠粉还是因为它强大的拓展性,大家都说Chrome插件是Chrome的灵魂,无插件不Chrom ...

  3. Google推出一款用户隐私保护工具箱

    国际互联网巨头Google日前宣布推出一款用户隐私保护工具箱,用户有望通过该工具箱保护自己的隐私. Google此前在保护用户隐私方面饱受争议.公司曾因卷入非法获取未加密Wi-Fi无线网络信息丑闻而遭 ...

  4. basler相机参数简要中文说明_Basler嵌入式视觉解决方案- 现推出首款适用于NXP(恩智浦)i.MX 8应用处理器系列的产品...

    借助两款全新的dart相机模块和相机附加工具包所提供的理想技术起点,为NXP i.MX 8应用处理器增加图像处理功能.阿伦斯堡,2019年8月6日– 相机制造商Basler正在扩展其嵌入式视觉解决方案 ...

  5. VMware、Pivotal和Google Cloud协力推出全新基于Kubernetes的容器服务——Pivotal Container Service(PKS)...

    本文讲的是VMware.Pivotal和Google Cloud协力推出全新基于Kubernetes的容器服务--Pivotal Container Service(PKS)[编者的话]定制化应用不再 ...

  6. 阿里云与MongoDB达成战略合作,成“唯一”;苹果将推出三款5G版iPhone;谷歌正式推出 TensorFlow 企业版……...

      戳蓝字"CSDN云计算"关注我们哦! 嗨,大家好,重磅君带来的[云重磅]特别栏目,如期而至,每周五第一时间为大家带来重磅新闻.把握技术风向标,了解行业应用与实践,就交给我重磅君 ...

  7. 罗技 连点 脚本_罗技推出多款《英雄联盟》联名外设 看了就忍不住想要

    原标题:罗技推出多款<英雄联盟>联名外设 看了就忍不住想要 [宅秘新闻]据外媒TECHPOWERUP消息,罗技(Logitech)近日与拳头公司(Riot Games)合作推出了<英 ...

  8. 马云获福布斯终身成就奖;华为推出首款 4G 芯片 Balong 711;PyPy 7.2 发布 | 极客头条...

    快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有 ...

  9. 三星14纳米EUV DDR5 DRAM量产;Amazfit推出三款智能手表;Whale帷幄获5000万美元融资 | 全球TMT...

    新品 三星宣布已开始量产基于极紫外光(EUV)技术的14纳米(nm)DRAM.继去年3月三星推出首款EUV DRAM后,又将EUV层数增加至5层,为其DDR5解决方案提供当下更为优质.先进的DRAM工 ...

最新文章

  1. 一句话生成数字人形象、昆仑芯2量产…百度大脑升级7.0,王海峰:技术更强了门槛却更低...
  2. 企业深入使用微服务后会面临哪些问题?云原生全链路灰度给了新思路
  3. fortran subroutine_Fortran:派生数组与数组传递进子程序耗费时间比较
  4. 由浅入深剖析go channel
  5. mysql java驱动 ibm_JDBC驱动汇总
  6. spring mvc学习(1):spring jar包
  7. 微信用户量破6.5亿 首超移动QQ
  8. java 多项式拟合最多的项数_MATLAB绘制带置信区间的拟合曲线
  9. mangodb和php比较,php-mongodb从不同的数据库中选择
  10. Linux定时执行php
  11. python计算矩阵的散度_数据集相似度度量之KLJS散度
  12. java基础之线程参考尚硅谷视频
  13. 名编辑电子杂志大师教程 | 菜单设置
  14. 利用python的pyqt5和vtk库实现对gcode模型的全彩预览
  15. 协鑫:把绿色能源带进千家万户
  16. vue前端(element-ui),express后端实现上传图片到七牛云
  17. 医学应用计算机答案,医学计算机应用试题及答案大全02.doc
  18. Android仿qq邮箱账号邮件账号输入框交互
  19. 一个mybatis动态 SQL查询的完整小案例。包含多表联合查询。
  20. ZYNQ开发系列——PS开发之HelloWorld

热门文章

  1. Linux环境进程间通信---信号(下)
  2. Selenium + WebDriver 各浏览器驱动下载地址
  3. JS实现各种复制到剪贴板
  4. 解决idea 控制台中文乱码
  5. .NET 缓存的设计
  6. 二十个你必须知道的SEO概念
  7. ElasticJob corn定时表达式语法(亲测)
  8. ELK+Kafka 企业日志收集平台(二)
  9. PHP的var_dump(‘1‘==‘1e0‘)的结果为true
  10. PHP-FPM对比Swoole:Swoole多了Reactor线程监听Socket 句柄的变化 代码初始化一次不结束进程 ws tcp mqtt服务