萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么?

又或者,想与听障人士交流,然而对方听不见你的声音?

现在,检测面部肌肉变化的AI来了,只要你动了嘴,哪怕没出声,它也能知道你在说什么。

这是EMNLP 2020的最佳论文,来自UC伯克利的两位作者,用AI和电极做了个“沉默语音”的检测模型,可以检测到你想说、但没说出声的话。

其中的原理究竟是什么,我们来一探究竟。

用电极收集你小声哔哔的证据

“无声语音”的本质,是人在说话时面部、颈部肌肉的变化。

说白了,你在对口型时虽然没有出声,但你的脸和脖子“出卖”了你。

而能够检测“无声语音”的AI,也正是这么被做出来的。

在收集数据时,研究者会先在实验者的脸上等部位贴8个贴片,每个贴片都是一个“监视肌肉变化”的传感器,像这样:

在这之后,需要录制一段实验者的有声语音,并与肌电图进行对应,如下图(会录制两种语音数据,一种每句话4个词左右,另一种每句话16个词左右):

这种方法能够将肌肉的变化情况、和语音的类型对应起来。

在记录数据的过程中,还要再录制一段“对口型”的肌电图,但不需要发声,也就是“沉默语音”。

之所以要收集两份肌电图,是因为人在无声说话时,肌肉的变化与发声说话时的变化有些区别,例如部分发音部位的肌肉震颤幅度会变小,语速也有所变化。

但如果要在无声环境下,根据肌肉变化识别出想说的语音,就只能用对口型时的无声肌电图

显然,这些原因使得AI的训练变得非常困难。

为了尽可能将识别准确率放大,研究人员额外采用了一种结构来降低模型损失。

不到20小时的语音集,效果还不错

那么,经由这种方法训练出来的模型,效果怎么样?

研究人员分别在封闭词集 (Closed Vocabulary Condition)和开放词集 (Open Vocabulary Condition)上,对这种模型进行了测试。

其中,封闭词集主要指介词、限定词、连词等词汇(如of、and),这种词汇集合少,容易训练,AI也容易形成“肌肉记忆”。

而开放词集的范围,就要广泛得多了,包含名词、形容词等等词汇,目前的词语可以说是不计其数,想要让AI会认这些词汇,难度就要高得多。

判定的方式,是WER,具体的计算方式是这样的(原理类似于计算原句的出错率):

目前,这个AI在封闭词集上的训练水平已经达到了3.6%的WER(越小越好):

至于开放词集的检测,AI经过训练后,WER也从高达88%的水平下降到了68%

虽然在开放词集上的检测,看起来效果并不完美,但别忘了,这个模型所用的数据集并不大。

封闭检测数据集,一共只有不到1小时的语音数据;开放检测数据集,也只有18.6个小时的语音集。

而且,这些语音集还是无声、有声数据的合集。

不到20个小时的语音数据,训练效果就已经达到了这种水平。

如果能获得更大的数据样本,模型的效果还会进一步提升。

作者介绍

一作David Gaddy,来自UC伯克利的NLP组。平时的研究方向是无监督学习、语法分析和无声演讲。

Daniel Klein,一作的导师,研究方向主要是无监督学习、语法分析、信息提取和机器翻译。

One More Thing

这届EMNLP的各种NLP研究,简直不留活路:

来自北京中科院、北京信息工程学院的研究者,还发明了一种讽刺检测模型。

这种AI模型会通过同时检测文本和图像,进行多模态语义理解,从而检测出一个人在社交媒体上发出的动态,是否有讽刺的意思。

就像这句话:“这可真是场座无虚席的比赛,而且我们居然还抢到了位置。”

表面上,这是句再正常不过的话,然而在配上图片后,画风顿时变得诡异了起来:

又例如这句话:“看起来就好吃极了。”

然而当看到散落在盒子边缘的芝士和馅料时,显然这又是一句充满讽刺意味的语句。

现在,这些语义信息都已经被拿来喂给了AI,并训练出了一个“懂得听讽刺话”的模型。

目前这个模型,已经在推特这样的社交媒体上进行了验证,取得了84.33%的好效果。

看了这个AI模型,你还敢偷偷说老板坏话吗?

论文地址:
https://arxiv.org/abs/2010.02960

参考链接:
https://venturebeat.com/2020/11/24/uc-berkeley-researchers-detect-silent-speech-with-electrodes-and-ai/
https://www.aclweb.org/anthology/2020.findings-emnlp.124/
https://dgaddy.github.io/
https://www2.eecs.berkeley.edu/Faculty/Homepages/klein.html

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

「MEET 2021智能未来大会」启幕,

早鸟票限时抢购中,扫码预定席位!

李开复博士、尹浩院士、清华唐杰教授,以及来自小米美团爱奇艺小冰亚信浪潮、容联、澎思地平线G7等知名AI大厂的大咖嘉宾齐聚,期待关注AI的朋友报名参会、共探新形势下智能产业发展之路。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

就算是戴上口罩,AI也知道你在说什么丨EMNLP 2020最佳论文相关推荐

  1. 就算是戴上口罩,AI也知道你在说什么

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么? 又或者,想与听障人士交流,然而对方听不见你的声音? 现在,检 ...

  2. 戴上口罩AI变“脸盲”?口罩人脸识别黑科技来袭

    疫情期间,口罩在全国抗疫中起到了关键作用.但在口罩成为每一位公民"标配"的同时,对诸如"刷脸"支付.高铁闸机身份认证等需要人脸识别的场景提出了挑战. 口罩.帽子 ...

  3. 一行命令自动给图片戴上口罩,硬核操作!

    作者 | Prodesire 来源 | Prodesire(ID:Prodesire) 2019 年底开始蔓延的新型肺炎疫情牵动人心,作为个体,我们力所能及的就是尽量待在家中少出门. 看到一些朋友叫设 ...

  4. 纯前端实现人脸检测,并给你的头像戴上口罩!

    本文来自社区投稿与征集,作者 Howard Zhang,东华大学研究生在读,中科院计算所客座学生. 本文转自:https://zhuanlan.zhihu.com/p/104070435 根据春节的起 ...

  5. python可以写什么视觉特效_Python实现视觉特效:一行命令给头像自动戴上口罩的案例...

    Python实现视觉特效:一行命令给头像自动戴上口罩的案例 发布时间:2020-07-23 16:22:40 来源:亿速云 阅读:90 作者:清晨 小编给大家分享一下Python实现视觉特效:一行命令 ...

  6. 自然语言处理顶会COLING 2020最佳论文等三项大奖出炉 | AI日报

    自然语言处理顶会COLING 2020最佳论文等三项大奖出炉 12月8日至13日,第28届国际计算语言学会议(COLING 2020)在线上正式举行. 计算语言学国际会议COLING 2020(是计算 ...

  7. 给人脸戴上口罩,Python实战项目来了

    大家好,人生苦短,我用Python.今天给大家分享一个Python 实战案例:为人脸照片添加口罩,喜欢本文记得收藏.点赞.关注. 废话不多说,我们先展示最终的效果. [注]完整版代码.资料,技术沟通, ...

  8. 这个口罩小朋友戴上就不肯脱!真相原来是这样!

    我是个前言 吴工之前写文章,上百度查字典好不容易搜刮了些名人名言,但是不料看者寥寥,吴工心有不甘,这次老脸也不要了,用了"今日头条"体做为本文标题,心想这下总有上钩的了吧... 我 ...

  9. 用Python给你的女神带上口罩~

    前言 2019 年底开始蔓延的新型肺炎疫情牵动人心,作为个体,我们力所能及的就是尽量待在家中少出门. 看到一些朋友叫设计同学帮忙给自己的头像戴上口罩,作为技术人,心想一定还有更多人有这样的诉求,不如开 ...

最新文章

  1. CVPR 2019 | NAS-FPN:基于自动架构搜索的特征金字塔网络
  2. mapper里面select id 后面一直红名_YTG晨晨改ID“进厂找班上了”,如此自嘲,心态还挺好...
  3. 华为鸿蒙系统好在哪,华为鸿蒙2.0可以替代安卓吗,华为鸿蒙2.0优势在哪
  4. PostgreSQL删除数据
  5. 安卓q bubbles_Android Q Bubbles
  6. 使用RecyclerView替代ListView(一)
  7. Linux 常用函数
  8. 修改Wordpress插件---advanced-access-manager.1.7.3---
  9. HTML5+CSS3从入门到精通
  10. SystemVerilog之interface
  11. 高等数学:求“分段函数在分段点”的导数,可以直接用导数公式吗?
  12. 1-100之间的随机数小游戏
  13. NightWatchJS
  14. keystone的详细功能
  15. codeforces B.Maximum Absurdity 解题报告
  16. 绿联扩展坞拆解_拆解报告:绿联USB-C多功能拓展坞2A1C
  17. HDU 1002 A+BII大数
  18. iOS 第三方框架-Masonry介绍与使用实践
  19. 圈地运动-组成面积大于0多边形
  20. 做自媒体视频剪辑10大技巧分享

热门文章

  1. 如何检测链表中的循环?
  2. 可可:框架和边界之间有什么区别?
  3. git config --global写到哪里?
  4. 聊聊flink的OperatorStateBackend
  5. 【优秀博文】知乎服务化的实践与思考
  6. mongoDB的监控工具
  7. 分析Windows和Linux动态库
  8. 计算机管理损坏的图像,损坏的图像(打开软件出现)解决方法
  9. Metasploit search命令使用技巧
  10. 环形动画加载视图AnimatedCircleLoadingView