文 / Sagar Savla,机器感知产品经理

据世界卫生组织 (WHO) 估计,全球有 4.66 亿耳聋及听障人士。为了让这类人群获取全球资讯并与他人沟通,自动语音识别 (ASR) 这项关键技术应运而生,它使计算机能够检测有声语言,并将其转录成文本以供阅读。Google ASR 为 Youtube 的自动生成字幕功能、幻灯片演示以及电话通话提供了支持。然而,尽管 ASR 在过去几年进行过多次改进,但耳聋及听障人士仍主要依赖手动转录服务,如美国的 CART、英国的 Palantypist 或其他国家 / 地区的 STTR。由于此类服务颇为昂贵,而且通常需要提前很久预订,因而耳聋及听障人士很难有机会参与即兴对话和社交场合。但我们相信,技术能填补这个缺口,让此类人群能够轻松沟通。

今天,我们宣布推出 Live Transcribe,这项免费的 Android 服务将自动生成字幕的功能引入日常对话,使此类人群离现实对话更近一步。Live Transcribe 由 Google Cloud 助力,可实时提供对话字幕,支持 70 多种语言并覆盖全球 80% 以上的人群。只需轻点一下系统任务栏上的 “无障碍功能” 图标,即可在任意应用中启用此服务。

构建 Live Transcribe

过去,基于 ASR 的转录系统一般都需要计算密集型模型、详尽的用户研究以及昂贵的连接服务费用,所有这些因素都妨碍用户使用自动连续转录服务。为解决这些问题并确保实时转录足够准确,Live Transcribe 结合了广泛用户体验 (UX) 研究的成果,以及与语音处理服务器流畅和可持续的连接。此外,我们需要确保与这些服务器的连接不会给用户造成过多的流量消耗。

依靠云的 ASR 为我们提供了更高的准确度,但我们想减少 Live Transcribe 所需的网络流量消耗。为做到这一点,我们以利用 AudioSet 完成的先前工作为基础,实现了基于神经网络的设备上语音检测器。该网络是一种图像式模型,与我们已发布的 VGGish 模型类似,可检测语音并自动管理与云 ASR 引擎的网络连接,从而最大程度地减少长期使用过程中的流量消耗。

用户体验

为了使 Live Transcribe 尽可能直观,我们与加拉德特大学共同发起了用户体验研究,以确保满足核心用户需求,同时最大程度地发挥技术潜力。我们考虑了几种不同的模式:计算机、平板电脑、智能手机,乃至小型投影仪,以迭代方式显示听觉信息与字幕。最终,我们决定将重心放在智能手机模式,因为这类设备无处不在,其功能亦在与日俱增。

构建此模式后,我们需要解决另一个重要问题:显示转录置信度。从传统上看,此举对用户很有帮助,而我们的研究探索了是否真的需要显示单词级别或短语级别的置信度。

显示转录的置信水平。黄色代表高置信度,绿色代表中等置信度,而蓝色代表低置信度。白色单词为新文本,在最终确定置信度前等待语境处理。左图按每个短语进行着色,右图则按每个单词进行着色。1 研究表明,置信度着色分散了用户的注意力,却不会提供对话价值。

我们研究的表明,转录文字在不使用这些标志覆盖的情况下最便于阅读,同时这也巩固了之前在该领域的用户体验研究。而 Live Transcribe 侧重于更好地呈现文本,并使用语音以外的其他听觉信号加以补充。

另一种有用的用户体验信号则是用户当前所处环境的噪声级别。对计算机而言,在嘈杂房间内理解说话人所说的内容是一项重大挑战,这称为鸡尾酒会问题。为解决此问题,我们构建了一个指示器,用于显示相对于背景噪声的用户说话音量。当说话人讲话时,用户也可借此收到即时反馈,了解麦克风的接收状况,以便其调整手机位置。

响度与噪声指示器由两个同心圆构成。较亮的内部同心圆代表噪声层,它会让耳聋用户了解当前环境所处的噪声级别。外部同心圆表示麦克风对说话人声音的接收状况。将二者相结合后,相对差异便会一目了然

未来工作

针对基于移动设备的自动语音转录功能,未来可能作出的改进包括设备上识别、说话人分离和语音增强。仅仅依靠转录功能的话,可能会有些隐患,导致信息传达错误。我们与加拉德特大学的研究表明,如果将此功能与其他听觉信号(如语音检测和响度指示器)相结合,便会给用户的交流方式带来意义重大的改变。

Live Transcribe 现已在 Play 商店中分阶段推出,且所有 Pixel 3 设备均预装此功能的最新版本。您可以通过 “无障碍设置” 启用 Live Transcribe。如需更多相关信息,您也可以阅读 The Keyword。

致谢

Live Transcribe 由研究员 Chet Gnegy、Dimitri Kanevsky 及 Justin S. Paul 与 Android 无障碍团队成员 Brian Kemler、Thomas Lin、Alex Huang、Jacqueline Huang、Ben Chung、Richard Chang、I-ting Huang、Jessie Lin、Ausmus Chang、Weiwei Wei、Melissa Barnhart 及 Bingying Xia 共同打造。我们也要感谢来自加拉德特大学的亲密合作伙伴 Christian Vogler、Norman Williams 和 Paula Tucker。


1 眼尖的读者会发现,在以上视频中,Obeidat 博士使用的是短语级别的置信度模式。

更多 AI 相关阅读:

  • Soft Actor-Critic:适用于机器人的深度强化学习

  • 将深度学习的应用扩展至电子健康记录

  • 自然问题:针对问答研究的新型语料库和挑战赛

使用 Live Transcribe 进行实时连续转录相关推荐

  1. 利用全球定位改进导航

    文 / Tilman Reinhardt‎,Google 地图软件工程师 在使用 Google 地图导航时,您始终会遇到这样一项挑战,即找到正确的前行方向.当然,导航应用会告诉您往北走,但很多时候您都 ...

  2. 微软推出“ Group Transcribe”应用,多人多语言会议实时高准确度文字转录并翻译

    近期,微软针对面对面对话和会议推出了免费实时语音到文字转录和翻译应用程序--Group Transcribe.一方面,Group Transcribe可以通过手机把会议的语音内容实时转录为文本,供与会 ...

  3. 亚马逊云科技语音识别服务Amazon Transcribe在中国区域上线实时流式转录

    日前,亚马逊云科技宣布通过与光环新网和西云数据的紧密合作,在北京区域和宁夏区域正式上线Amazon Transcribe Streaming实时流式语音转录功能.Amazon Transcribe是一 ...

  4. 谷歌语音识别功能Live Transcribe,让AI帮助语言障碍者“说话”

    原标题:谷歌语音识别功能Live Transcribe,让AI帮助语言障碍者"说话" 目前,全球有4.66亿人患有残疾性听力损失.而据世界卫生组织估计,到2050年,这一数字将超过 ...

  5. 谷歌宣布开源 Live Transcribe 语音识别转文字工具

    昨日,谷歌在其开源博客中宣布开源 Android语音识别转录工具--Live Transcribe的语音引擎(Live Transcribe Speech Engine),它旨在将语音或对话实时转录为 ...

  6. Google 翻译中更稳定的实时语音翻译

    文 / Naveen Arivazhagan,Google Research 高级软件工程师:Colin Cherry,Google Research 高级研究员 利用 Google 翻译应用中的转录 ...

  7. 非侵入脑机接口新突破!用意念控制光标,连续追踪效果提升5倍

    来源:智东西 看点:CMU研究人员在使用非侵入式脑机接口开发了第一个成功用意念控制的机械臂,展现了连续追踪和跟踪计算机光标的能力. 智东西6月23日消息,卡内基梅隆大学与明尼苏达大学的研究人员在非侵入 ...

  8. Maestro Z实时无标记细胞分析仪,评估免疫细胞治疗效价

    推荐阅读: <评估免疫细胞治疗效价,Maestro Z实时无标记细胞分析仪> 美国Mastro Z实时无标记细胞分析仪,是基于阻抗技术研发的第三代无标记.实时.非侵入式细胞分析设备,于20 ...

  9. 通过AI实现实时数据分析和态势监测,进而让机器能够处理日常决策

    通过AI实现实时数据分析和态势监测,进而让机器能够处理日常决策.这家以"解锁下一代人工智能"为纲的创新先锋还将AI与云计算融合,开发了基于云计算的决策智能系统,共同助力下游内容产业 ...

最新文章

  1. Qt 在Label上面绘制罗盘
  2. codeforces 721E Road to Home
  3. android进程自动启动时间,如何统计Android App启动时间
  4. tornado异步客户端(Future)
  5. android开发图片格式,Android程序开发如何处理图像格式类及图像转换
  6. ubuntu16.04+opencv3.1配置
  7. Centos7.X自带的防火墙和服务的相关的配置
  8. 计算机考研雷区,考研的五大雷区是什么 如何避免
  9. 苹果ipadmini1 主板 电路图 超清
  10. 计算机无法正常更新,电脑时间不能自动更新怎么回事?电脑时间校准同步方法介绍...
  11. 米家插件平台的技术实践之路
  12. 六类网线钳能压五类水晶头吗_六类网线可以用五类水晶头不?
  13. ping-pong buffer
  14. Android钢琴滑动代码,如何使用Kotlin构建Android旋转旋钮以帮助儿子练习钢琴
  15. 一个更加强大的查壳工具, 更新版本
  16. CENTOS上的网络安全工具(二)ARKIME部署安装
  17. 直播视频转换为文稿,分分钟就可以实现的方法来了
  18. 学生管理系统详细架构
  19. Carsim2019_官方Help学习笔记_Running a VS FMU in Simulink (Carsim与Matlab联合仿真方法之一)
  20. 【JokerのZYNQ7020】TIMER。

热门文章

  1. 【Android】AppCompat V21:将 Materia Design 兼容到5.0之前的设备
  2. 南宁计算机专业学校排名,学校排名
  3. 终于搞懂了,用大白话给你解释Zookeeper的选举机制,包教会
  4. 用爬虫收集网站公开数据丨Python爬虫实战系列(5)
  5. 说好的9月底谈薪,这都10月底了,今天又是没等到HR?大家来说说原因?
  6. Python.随机输入两个数和运算符进行四则运算
  7. CSDN程序员俱乐部里活动热闹,成都、杭州、济南活动盛花绽放~
  8. J-K触发器的工作原理
  9. 【OpenCV入门到精通之五】视频固定位置叠加图片或者另一个视频
  10. 聊聊A股市场反映情况