雷锋网(公众号:雷锋网) AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候,小米的这篇论文证明了自己真的是把人工智能作为一件严肃的公司业务来做。请允许我们代表人工智能研究大家庭对小米公司表示欢迎,对小米的研究员们致以敬意!

这篇论文是西北工业大学、陕西省语音与图像信息处理重点实验室与小米科技公司的研究员联合研究的成果。该项工作主要针对普通话识别任务,提出了一种基于注意力机制的端到端学习模型。

以下是雷锋网 AI 科技评论根据论文摘要进行的编译简介。

论文摘要

在最近,语言识别领域的研究越来越多地采用了端到端(End-to-End)学习模式。这种学习模式可以直接将输入的语音转录成相应的文本,而不需要使用到任何预定义的校准规则。据雷锋网 AI 科技评论了解,该论文中的研究员们在端到端学习模式基础上,探讨了一种基于注意力机制的编解码模型(Attention-based encoder-decoder model),而该模型主要针对普通话语音识别(Mandarin speech recognition)任务,并且取得了很不错的效果。

图一,上图展示了编码模型。该编码模型是一个BLSTM,它从输入x中提取出h。

在训练期间还使用了帧子采样(Frame sub-sampling)技术。在该项工作中,研究员通过跳帧(Skipping frames)的方式来缩小原序列的长度,并且正则化了权重以取得更好的泛化能力和收敛效果。除此之外,本项工作还探究了卷积注意力(Convoluional attention)和注意力平滑(Attention smoothing)这两种不同的注意力机制所产生的不同影响,以及模型的性能和波束搜索(Beam search)的宽度之间的关联性。

图二,上图展示了AttendAndSpell模型。该模型由MLP(注意力机制)和LSTM(解码模型)组成。在每一次时间步骤(time step)t,MLP将结合隐含状态st-1和输入h计算出上下文向量(context vector)ct。从而生成新的隐含状态st和新的标签yt

最终,该论文所提出的算法,在MiTV数据集上,在没有使用任何词汇(Lexicon)或语言模型(Language model)的情况下,实现了仅为 3.58%的字符错误率(Character error rate, CER)以及7.43%的句子错误率(Sentence error rate, SER)。另外值得一提的,该模型在结合了三元语言模型(Trigram language model)之后,进一步取得了2.81%的字符错误率以及5.77%的句子错误率。相比另两种基于内容的注意力算法和卷积注意力算法,论文中提出的注意力平滑算法都取得了更好的表现。

论文中还表示,他们的下一步研究目标是把现有的技术和非常深的卷积网络结合,以期获得更好的表现。他们的后续成果我们拭目以待,我们期待小米进一步深化人工智能在自家产品中的应用,也希望更多国内企业都参与到人工智能相关技术的研究和应用中来。

Via Attention-Based End-to-End Speech Recognition in Mandarin

雷锋网 AI 科技评论编译。

本文作者:隔壁王大喵

本文转自雷锋网禁止二次转载,原文链接

小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法...相关推荐

  1. 苹果公开了其AI研究的第一个大图像数据集

    来啦来啦,苹果近日公开了其AI研究的第一个大图像数据集,带有1.9TB标签的74K高分辨率HDR计算机生成的逼真的室内场景图像:Hypersim Hypersim:用于整体室内场景理解的真实感合成数据 ...

  2. Talk预告 | 腾讯AI Lab研究员童湛南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测

    本期为TechBeat人工智能社区第465期线上Talk! 北京时间12月22日(周四)20:00,腾讯AI Lab研究员--童湛&南京大学计算机科学与技术系硕士研究生--谈婧的Talk将准时 ...

  3. spoon无法初始化至少一个步骤_通俗易懂:8大步骤图解注意力机制

    BERT.RoBERTa.ALBERT.SpanBERT.DistilBERT.SesameBERT.SemBERT.MobileBERT.TinyBERT和CamemBERT的共同点是什么? 答案并 ...

  4. 鸿蒙生态菁英难,重磅!华为联合西工大开设“鸿蒙生态菁英班”!

    近日,西工大官方低调发布了一则重磅消息. 为深入推进校企联合培养,激发同学们在终端软件领域的技术热忱,华为联合西北工业大学开设"鸿蒙生态菁英班",旨在培养具有终端专业知识,热爱终端 ...

  5. 通俗易懂:8大步骤图解注意力机制

    作者 | Raimi Karim 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]这是一份用图片和代码详解自注意力机制的指南,请收好. BERT.RoBERTa.ALBE ...

  6. 芯唐语音识别_大联大品佳推出基于新唐科技ISD9160+Cyberon算法的语音识别方案

    致力于亚太地区市场的领先半导体元器件分销商---大联大控股宣布,其旗下品佳推出基于新唐科技(Nuvoton)ISD9160+Cyberon算法的语音识别方案,此方案可支持20条本地的语音命令,还可外挂 ...

  7. 小米和西工大联手,三篇论文被Interspeech接收

    翻译 | 林椿眄 编辑 | 阿司匹林 出品 | 人工智能头条(公众号ID:AI_Thinker) 小米和西北工业大学的"交情"不浅. 去年 7 月,小米和西工大计算机学院的谢磊教授 ...

  8. 乔丹LeCun李开复隔空对话:我们对智能一无所知;AI研究的12大趋势

    夏乙 允中 假装发自 国会 量子位 出品 | 公众号 QbitAI "我们还没造出智能,也不知道智能是什么." "机器要想像人类.动物一样智能,需要先获得大量知识.&qu ...

  9. 智能家居中语音识别算法研究_语音识别研究获进展

    中国科学院自动化研究所智能交互团队在环境鲁棒性.轻量级建模.自适应能力以及端到端处理等几个方面进行持续攻关,在语音识别方面获新进展,相关成果将在全球语音学术会议INTERSPEECH2019发表. 现 ...

最新文章

  1. Linux命令之uname
  2. 数据挖掘流程(六):写报告
  3. C++类的静态成员详解
  4. Extjs 4.2 MVC+ThreeJs学习笔记(二)一个简单的ThreeJS场景
  5. 移动端类似IOS的滚动年月控件(需要jQuery和iScroll)
  6. 基于JAVA+Servlet+JSP+MYSQL的宿舍管理系统
  7. kettle mysql 乱码
  8. 缓存问题引发的一系列优化
  9. python16-前端之课堂笔记
  10. 别把量化交易变成拼人力、拼硬件、拼资源的烧钱游戏
  11. 归并排序 Java实现 简单易懂
  12. 实现原理 扫描枪_激光条码扫描枪原理及五大组成部分!
  13. gateface php,XAMPP下载-Xampp(PHP环境套件)V8.01 官方win版-ucbug软件站
  14. HTML 标题居中 小小积累
  15. 406个银英稀有精英名称
  16. Paul Graham:如何做好天使投资
  17. 微信开放平台创建应用时应用官网的问题
  18. nvme装系统不能自引导_怎么让老电脑实现UEFI启动NVME SSD固态硬盘进系统方法
  19. 别让这些遗憾 变成你的遗憾
  20. wireshark使用抓包详细图文教程

热门文章

  1. 织梦列表页生成的html在哪里,织梦系统给手机版生成静态页HTML的方法
  2. hive中实现行转列_Hive之行转列lateral view用法
  3. 【转载】Docker镜像打包示例
  4. zookeeper启动失败的排错 no route to host 防火墙未关闭导致的
  5. 工具-Sublime Text:便捷设置 小三角
  6. java 拆分文本文件
  7. select 下拉框的选中项的change事件
  8. java拷贝构造函数
  9. Ubuntu下安装Git以及Git帮助手册【转】
  10. ScrollView 收录