By 超神经

场景描述:近日 Google Brain 团队对外发布了 Parrotron 项目,帮助人和设备更准确地理解具有语音障碍的人。Parrotron  从音频分析入手,从语音信号的角度来解决问题。它通过单个端到端深度神经网络训练,将来自语音障碍人士的语音,直接转换为流利的合成语音,从而帮助他们解决交流上的问题。

关键词:构音障碍  深度神经网络   机器翻译

Dimitri Kanevsky,出生于 50 年代的俄罗斯,他的成长阶段经历了中苏冷战,但他仍然完成学业,并获得了数学博士学位。

他的求学、工作足迹从俄罗斯开始,辗转于以色列、德国,最终选择留在了美国,并成为了谷歌的研究科学家,专注于语音识别算法领域。

似乎是一个学霸精英的人生路径:受到良好的教育,获得美国绿卡、光鲜的工作、152 项美国科学技术专利,最后在硅谷登顶人生巅峰。

故事却远远没这么简单,Dimitri Kanevsky 并不是一个普通人。大多数人都难以想到,他还是听障人群中的一员。

Dimitri Kanevsky 在一岁时,因为药物导致了耳聋,但他的家庭依旧为他选择了正常的教育,他从小就开始学习读唇、发声,一直就读于普通学校。并在十几岁的时候,通过俄语发音的辅助,开始学习英语。

但在学习英语时,因为听力障碍、俄语发音差别等原因,他在语言交流上存在很大的障碍。他说出的语句比较模糊,常常是对方听不懂的表达。甚至连对自己的家人的口头关怀,都有可能无法递达。

简单来说,他说的英语大多数人很难直接听懂,为了解决自己的问题,也帮助更多和自己面临类似问题的人群,Dimitri Kanevsky 一直在攻克语音识别方向的课题。

有时只为完成一些普通的交流

Dimitri Kanevsky 需要借助语音转文字的工具

在医学上,这种说话不清楚的情况称为「构音障碍 dysarthria」。据统计,因为身体疾病而导致构音障碍的情形,在全世界多达一百万人。


构音障碍是由于神经病变,与言语有关的肌肉麻痹、收缩力减弱或运动不协调所致的言语障碍,通俗的说法是「口齿不清」。

比如中风,大脑麻痹,帕金森病,唐氏综合症, ALS(渐冻症)等诸多疾病,都会造成这一状况。

对方说了叽里咕噜的一堆

你听到的却是呜呜哇哇的一串杂音...

同样在谷歌,一位叫 Aubrie Lee 的品牌市场经理,被诊断出罕见的肌肉萎缩症(渐冻症),导致她长时间要在轮椅上度过。

全身肌肉的不断流失,也造成了她在交流上的困难。Aubrie 在听力和发音上都异常吃力,还因为无法微笑而常常被人误解。此外她还拥有多种口音,发音并不清晰,在对话时对方往往无法明白她的意思。

为了帮助 Dimitri Kanevsky 和 Aubrie Lee 这样的同伴,解决他们在语言上的难题,构音困难逐渐成了谷歌 AI 研究团队的一个科研方向。

关怀语言障碍者,谷歌推出突破性工具

几年前,Kanevsky 带着 30 年的语音识别经验,加入谷歌的 AI 研究组,那时还没有能让他和其他人正常沟通的便捷工具。每次开会, Kanevsky 都需要提前预定 CART 服务,依赖字幕员进入到会议中,将语音信息敲到屏幕上进行对话。

同样的,Aubrie 和自己同事们,也都需要花费很大的力气,才能完成常人轻松胜任的工作交流。但这种窘境,正在慢慢地成为历史。

2019 年 2 月,谷歌推出了一款 App——Live Transcribe ,为便携式的语言转化带来了曙光。它是一款即时转录真实世界语音的应用程序,使用手机自带的麦克风,即可将语音转换为实时显示的文字。

随后,在 5 月份的谷歌 I/O 大会上, Project Euphoria  被提出,这个计划为 ALS 导致的语言受损人群,提供一套语音到文字的解决方案。

Project Euphoria 中

谷歌训练 AI 模型以适应语言障碍

在这个月,谷歌推出了一款新的 AI 工具 Parrotron,能够直接将模糊的声音,转化成标准的合成音。这将解决语言障碍的技术又往前推进了一步。

Parrotron 由端到端的深度神经网络组成,从音频分析的角度入手,在使用时,测试者对着手机等设备说话,就能快速的得到转述后的标准发音。

在论文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中,Parrotrn 表现优异,语音识别和转化的正确率都有了新的突破。

论文地址:https://arxiv.org/abs/1904.04169

Parrotron:将模糊话语,翻译成清晰的语音

那这项看起来黑科技满满的技术,究竟是怎么做到的呢?

Parrotron 是一个端到端的序列到序列模型,使用输入/输出语音对的并行语料库训练,建立了模糊音与正常语句之间的映

Parrotron 的结构流程示意图

网络模型由注意力机制的编码器和解码器组成,最后由声码器合成时域波形,提供预测出的音频信号。

编码器将声学帧序列转换为隐藏的特征表示,解码器将解析出表示以预测出频谱图。

操作上分为两个步骤:首先,为标准流畅的音频构建语音到语音转换模型,然后调整模型参数将模糊语音作为输入,让模型学会分辨和识别

Kanevsky 和另一员工使用 Parrotron

为了模拟 ALS 患者的语音特征,他们使用来自 Project Euphonia 的 ALS 语音语料库,通过合成语言的方式制造模糊的语句,作为训练数据。

而对特定的个人,就由本人提供录制的素材。

在经过训练后,转换模型能够排除语言中的干扰因素,比如重音、韵律和背景噪音等影响;同时忽略掉所有非语言信息的干扰,包括说话者特征,环境因素,说话方式,仅分析和处理谈话的内容。

Parrontron 前两位测试者:毫无悬念

要验证 Parrotron 的实际效果,自然还要看它在实践中的表现。而测试的最佳人选,毫无疑问落到了 Dimitri Kanevsky 和 Aubrie Lee 身上。

在实验中,Dimitri 录制了一个 15 小时长的语料库,让模型学习他讲话时的细微之处。通过学习,模型在最后的翻译中,在测试集里的翻译错误率,从开始的 89% 降低到了 32%

换句话说,使用 Parrotron 转录的语音,对方或者 ASR (语音识别)系统能够轻松的听懂他了。

Kanevsky 使用 Parrotron 的详情

随后, Aubrie Lee 也进行了测试,通过她贡献的 1.5 小时讲话内容,模型翻译出的准确的语音,也让她实现了清楚表达的愿望

 AI for Social Good:人工智能的使命

人工智能打造的无障碍项目,在最近几年被频繁地提出。许多极具关怀的技术纷纷出现,在努力帮助残障人士打开新奇的大门。

当然,技术在服务这些人的同时,也被这些特别的群体所推动。比如 Dimitri Kanevsky,因为深知构音障碍带来的困境,他一直致力于语音辨识和通讯研究的研究工作。而 Aubrie Lee 则用热烈而蓬勃的生活态度,鼓舞和督促着更多对残障人群的研究投入。

Aubrie 还是跨学科艺术家、设计师

活跃在多个为残疾人权益斗争的平台上

虽然目前的数据显示,情况还并不乐观:在全球所有的残障人士中,只有十分之一的人,获得了相应的技术工具。但所幸的是,随着一些喜人的进步,很多情况都在发生改变。

作为科技大厂的谷歌,还在实施他们「AI for social good」的计划,而诸如 Parrotron 之类的工具,大概就是朝着美好愿景踏进的脚印。

在人工智能技术风靡世界的当下,我们看到了 AI 对艺术的改造和创造力,对社会生活的积极推动,但也看到了有人利用 AI 恶意换脸、拼接、无中生有。

希望 AI 能回归科学的初心,帮助更多需要帮助的人,Make the world a better place!

—— 完 ——


扫描二维码,加入讨论群

获得优质数据集

回复「进群」自动入群

更多精彩内容(点击图片阅读)

谷歌的语音识别利器,最先造福了自己的员工相关推荐

  1. 谷歌云端语音识别软件

    谷歌云端语音识别软件是是一款非常厉害专业的语音识别神器,粤语也可以直接专为文字,而且准确度极高,它内置强大的语音识别功能,含有全球常用的八十多种语言,高超的智能识别引擎,几乎零误差,多格式支持,速度惊 ...

  2. 谷歌云端语音识别服务软件

    谷歌云端语音识别工具正式上线,该服务采用与Google Now.Google搜寻及Google Assistant相同的语音辨识技术.够识别全球超过80种语言,并将语音转换为文字,包括普通话.繁体中文 ...

  3. 【语音之家】AI产业沙龙—自动语音识别利器 - NVIDIA NeMo

    由CCF语音对话与听觉专委会 .中国人工智能产业发展联盟(AIIA)评估组.NVIDIA.语音之家.希尔贝壳共同主办的[语音之家]AI产业沙龙-自动语音识别利器 - NVIDIA NeMo,将于202 ...

  4. 谷歌(Google)是怎样对待离世的Google员工的?

    日期:2012-8-10  来源:GBin1.com 如果提起谷歌的福利来说,大家肯定首先想到免费的食品和理发,及其独立的医疗服务,或者超棒的食堂和大厨等等.但是你是否知道谷歌是怎么对待死亡的Goog ...

  5. 谷歌云端语音识别助手手机版-Google云端语音识别app1.0.0 官方安卓版-东坡下载...

    Google云端语音识别app是由谷歌最新研发的手机语音识别软件,该软件支持全球80多中语音识别系统,十分的强大,支持中文.粤语.普通话等,不通国家的语言,可以通过该软件进行交流,十分的方便哦,欢迎有 ...

  6. 谷歌开源语音识别AI技术,可以从人群中区分每个人的发言

    虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战.Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同 ...

  7. 谷歌开放语音识别 API,发力人工智能

    谷歌Next云计算大会今日在美国旧金山召开.谷歌在会上发布了面向开发者的新机器学习平台,并开放语音识别的API(应用程序编程接口).机器学习平台初期将免费提供给开发者.谷歌母公司Alphabet董事长 ...

  8. 谷歌称语音识别是下一个机会,尤其在发展中国家

    9月24日是谷歌成立二十周年之际,而戈麦斯在接受<卫报>采访时发表了上述言论.而在七年前,谷歌面向公众推出了其第一个语音服务,也就是一个简单的将语音转换成文字的搜索工具. 如今,语音识别已 ...

  9. Android 调用谷歌原生语音识别

    前提: 1.安装谷歌语音搜索APP 2.需要越狱连接外网 废话不多说,直接上代码 public void onClick(View v) {                 //开启语音识别功能   ...

最新文章

  1. 自定义apt升级脚本
  2. AI 医疗公司“战疫”在前线
  3. Gantt Chart in JavaScript (HTML5) | FusionCharts
  4. 音视频技术开发周刊 70期
  5. 2021公益数字化研究报告
  6. android 时间戳 转日期格式,在Android中转换为简单日期格式或Unix时间戳日期?
  7. Java 集合系列16之 HashSet详细介绍(源码解析)和使用示例
  8. 编程通用知识 字符编码(ascii,unicode,utf-8)
  9. 仪表盘故障图像识别_一目了然:汽车仪表盘上指示、警示、故障图标全解
  10. 背景图片自适应屏幕大小CSS写法
  11. mini2440裸机之Touchpanel
  12. Ectouch修改虚拟销售数量的方法
  13. 《电路》邱关源 思维导图 第四章-电路定理
  14. 光环python培训
  15. 达梦数据库关闭 消息校验的警告 Failure occurs in data_recv_inet_once
  16. 阿里工程师的自我修养之:如何在工作中快速成长? 致工程师的 10 个简单技巧
  17. 终极自由之路:第二章 问题以及解决之道
  18. CentOS下Qt安装
  19. 跌倒检测_使用姿势估计的跌倒检测
  20. 怎么就那么多SlectObject和DeleteObject···········

热门文章

  1. 创客教育在空间设计中的服务研究
  2. python CH340单片机通迅
  3. HiMobileCam SDK安装使用说明(Hi3559V200)(海思)
  4. 2014 WOT全球软件技术峰会第一天(上午)
  5. DXC Technology任命Ken Corless为产品与战略合作伙伴执行副总裁
  6. 微型计算机主机的主要包括,微型计算机的主机主要包括
  7. 知识付费的七种变现方式
  8. 【csdn涨粉秘籍】亲身体验从一年才涨80粉到20天涨粉800多,规则内设置,一个步骤助你快速涨粉
  9. 美国食品药物管理局证实:心脏医疗设备可被黑客入侵
  10. 微积分的本质(七):导数和极限的定义、洛必达法则