昨晚的朋友圈被雷军年度演讲刷屏,雷军讲述了他人生中多次经历的挫折与迷茫,并分享了穿越人生低谷的感悟,让每一位在创业路上的人都感同身受。

就在演讲快结束时,雷军顺手扔出了一个王炸——全尺寸仿生人形机器人CyberOne。小编发现,功能介绍里,提到CyberOne的听觉传感器配合音频算法,可识别6类45种人类情绪语音,外加85种环境音识别。

而这其中就包括夹杂着语种混杂的识别,例如:"我的iPad不能下载APP了,可以陪我去Apple Store修理一下吗"、"明天就是Dealine了,我的paper还没有Ready"、"老板的Schedule需要调整,麻烦你Check一下你的Email"...

这种夹杂了英文的汉语频频出现在我们的日常沟通中,除了英文,其他小语种出现在中文语句中,在学术上称之为语种混杂(Code-switch),是目前语音识别技术面临的重要挑战之一。对于人机交互语音识别系统,Code-switch带来的挑战主要体现在下面三个方面。

挑战Challenge

1、非母语口音严重

中文中夹杂的其他语种非我们的母语,我们的发音会带有各种方言口音。例如,闽南普通话和天津普通话的口音都不同,更何况大家说的非母语的语言。汉语中共有八大方言,即:官话、吴语、湘语、赣语、客家语、闽南语、闽北语以及粤语。其中,官话是与标准普通话最为接近的一种方言,其他各种方言在声学发音以及语言学表现上都与标准普通话有着显著的差异。由于多数普通话使用者把普通话作为第二语言来掌握,他们的普通话发音不可避免地受到其方言母语发音的强烈影响。有资料显示,80%左右的普通话使用者带有不同程度的方言口音。当说话人带有某种方言口音时,针对标准普通话构造的语音识别器的性能往往会大幅下降。

2、不同语言音素构成不同

Hay and Bauer 在《Linguistics Student's Handbook》(2007) 中研究过一些语言的使用人数以及类型学信息,当然也包括了音素的数量,其实验结果如下。横坐标表示人口(对数人口、Log Population),纵坐标表示元音的数量,每个小圆圈代表一个语言。左图是基本单元音的情况,右图是额外单元音的情况。

上述研究认为,音素的多少跟人口有关系,这就导致了多语种之间音素的不同。语音识别中,声学模型通常处理人类语言的原始音频波形,预测每个波形对应的音素,通常在字符或子词水平。语言模型指导声学模型,抛弃了在适当的语法和讨论主题的约束下不可能实现的预测。由于Code-switch包含多个语种,之间音素构成的不同,会增加混合声学模型建模的困难。

3、带标注的混杂语种语料库稀缺

上面两个问题都是技术问题, Code-switch语音识别所面临的本质挑战,还是带标注的混杂语种语料库稀缺。由于录制这类数据要求双语种甚至多语种人群,录制费用更高、耗费时间更长,因此混杂语中的语音语料库非常稀少。有些论文如Qinyanmin的《Data Augmentation for end-to-end Code-Switching Speech Recognition》用TTS数据扩充的方案来提高Code-switch语音识别系统性能。

解决方案 Solution

针对Code-switch语音识别所面临的挑战,解决问题的本质还是在于数据。假设有足够多的Code-switch语音识别数据,可以通过让神经网络从大量数据中学习相关的口音、多样化音素信息等Code-switch带来的问题,Code-switch语音识别系统自然会更鲁棒。对于录制多语种混杂数据,可以通过专业的数据公司帮助算法工程师节省大量的人力、物力、财力。目前Maigc Data(北京爱数智慧科技有限公司)拥有用于多个场景、多个语种的相关语料数据。

行业洞察 | 小米发布人形机器人的AI技术相关推荐

  1. 微信内测“群直播”;小米发布第三代屏下相机技术;马斯克宣布脑机接口重大突破 | 极客头条...

    整理 | 阿司匹林 图片来源:小米官方 出品 | CSDN(ID:CSDNnews) 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们 ...

  2. 全球最快!小米发布超级无线闪充技术,小米9 Pro 5G将首发搭载

    9月9日,小米发布全球首个30W超级无线闪充,包含全球最快大功率反向无线充电在内的四大技术创新,即将推出的小米9 Pro 5G版将搭载这一技术,同时更高效的40W无线快充也已处于测试阶段. 此外,一同 ...

  3. 小米人形机器人“铁大”学会敲架子鼓;​大疆 Mini 3 将上市;4990万美元,巴菲特旗下公司将开发军用自动驾驶车辆……...

    本周,有哪些AI新鲜事? 产业界 小米机器人铁大学会敲架子鼓,未来软硬件还需加强 今年8月,小米的人形机器人CyberOne正式亮相,小名叫铁大.它是一个比较轻量级的机器人,1.77米的身高,只有54 ...

  4. “人形机器人第一股”:优必选科技赴中国智造之约

    在电影<人工智能>中,导演讲述了一个仿人机器人的童话,而现实中却有更多人怀着让童话进入生活的梦想. 来源:<人工智能> 从1946年世界上第一台通用电子计算机诞生,到1972年 ...

  5. 马斯克看好的赛道被中国企业率先交卷:研发投入超六成、不到3年营收超20亿,将成「人形机器人第一股」...

    杨净 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 人形机器人,来到交卷时刻. 特斯拉三星等科技巨头跨界入局伊始.波士顿动力还忙着跑酷--一家中国企业已经率先跑通商业化道路. 1月31日晚间, ...

  6. 一文详尽2019全年AI技术突破

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 2019年,整个AI行业的发展如何? NLP模型不断刷新成绩,谷歌和 ...

  7. 《 百度大脑AI技术成果白皮书》,介绍百度大脑5.0,附48页PDF下载

    来源:专知 [导读]百度大脑是百度AI集大成者,自2010年起开始积累基础能力,2019年升级为5.0,成为软硬件一体的AI大生产平台.百度发布< 百度大脑AI技术成果白皮书>,详细介绍了 ...

  8. AI技术的“践行者” — 云测试成为企业降本增效利器

    云栖号资讯:[点击查看更多行业资讯] 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 目前,人工智能技术对于加速企业数字化转型.提高信息利用效率等方面都起着重大作用. 尤其在提升社会劳 ...

  9. 一文看尽2019全年AI技术突破

    2020-01-29 11:45:29 边策 十三 鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI 2019年,整个AI行业的发展如何? NLP模型不断刷新成绩,谷歌和Facebook你方唱 ...

最新文章

  1. 用单片机测量流体流速的_流量计是测量液体、气体流量仪表原理安装
  2. Ganglia:分布式监控系统
  3. iis7 运行 php5.5 的方法
  4. java中无符号右移怎么移_Java | java中>>(右移)和>>>(无符号右移)的区别...
  5. 防止用户重复提交表单数据,session方式,js方式
  6. 磁盘IO:缓存IO与直接IO
  7. 五种I/O 模式——阻塞(默认IO模式),非阻塞(常用语管道),I/O多路复用(IO多路复用的应用场景),信号I/O,异步I/O
  8. 多台电脑共享一套鼠标键盘的免费方法
  9. 可以方便的将SQL语句的执行结果显示成表格结果的JAVA类,可以用于不同的数据显示
  10. 【DBA之路】关于连接不上数据库
  11. linux nginx反向代理配置
  12. 第15届创新英语大赛初赛第二阶段题目
  13. AI学习——感知机和BPNN算法
  14. html表格制作实战
  15. 小米刷机指南 |使用MiFlash刷机一直flashing|小米手机忘记密码|小米手机清理数据
  16. MySQL——数据库
  17. 全网最全MySQL表的增删改查
  18. matlab中希腊符号在哪,在MATLAB中 希腊字母是怎么输入的
  19. ubuntu更改更新源
  20. 使用特网云云主机的最显着原因之一

热门文章

  1. FTP服务器和客户端
  2. 根据输入的qq号获取昵称、邮箱和头像等基础信息
  3. 将mysql数据库拷贝到另一台机器_mysql数据库迁移到另一台电脑上
  4. 工信部网站备案的备案流程
  5. C语言:编程计算π的近似值(直到最后一项的绝对值小于10-5为止),要求保留小数点后10位。
  6. K线买入信号有哪些?
  7. 尤雨溪最近发布了5kb的vue,新作 petite-vue
  8. php中的echo单引号_PHP echo用法详解
  9. 在线教育平台架构设计
  10. Go 语言入门三部曲(二):能用 Go 语言写管理系统