对于人类读唇者来说,在剥离音频线索的情况下,语境是破译文字的关键。但是英国东英吉利大学(UEA)开发的一种技术模型可以比人类读唇者以更高的准确性来解释嘴里说出的词语,这要归功于使用了机器学习技术将声音从视觉方面进行分类。而且算法并不需要知道对话的语境就能够识别出你使用的词语。

然而此模型仍然处于研究阶段,对于自动将视觉线索转换成准确话语技术方面还有许多潜在应用——无论是在帮助有听觉障碍的人方面,还是在使用额外语音数据来增加无声视频片段方面——甚至是在比赛高潮找到足球运动员说的最多的词……

这种技术也可以在移动或视频通话语音质量不佳的情况下,作为后备使用。或是自动化字幕。或者是在带有摄像头的手机上启动”语音”助手,你不需要真正发声,只需用唇语命令(这会有多么酷?)。肯定地说,机器驱动的读唇应用数量浩如烟海。因此,只要研究人员可以发掘它的优势,那么它未来的潜力将不可限量。

开发这套读唇机器学习模型的UEA团队正在使用纯视觉输入——那么就可以在没有任何音频输入的情况下,通过嘴唇发声时的形状来训练模型。

Helen Bear博士表示,“我们正在寻找视觉线索,判断它们是如何变化的?我们知道它们因人的不同而不同。人们是如何使用它们的?又有什么区别?以及我们是否能够在我们的模型中使用这种特殊训练方法中的知识?我们可以这么做”。她在UEA计算机科学学院教授Richard Harvey的指导下,在她的博士论文中对视觉语音识别技术模型进行了论述。

她补充说,“读唇机器背后的理念是,机器本身没有情感,它不介意理解是否正确或错误——它只是努力学习。所以在论文中……我已经展示了如何使用这些视觉困惑做出更好的音素分类器。所以这是种新的训练方法”。

Bear博士注意到,目前许多读唇方面的研究使用音频和视觉线索来提高机器读唇的准确性。因此UEA模型脱颖而出,它只关注视觉讲话,想尽一切办法提高机器驱动的嘴唇阅读。

“我们假装根本没有音频信号”,她说,“我们的想法是,这个系统可以只能读唇,或者它可以用在视听系统中,希望在某天视听系统能使用到,当重新获得音频信号之前,只处理视觉信号,比如,如果你在Skype上与人视频,突然音频信号丢失了,而你仍然可以看到对方。”

对于一般读唇技术的核心挑战是——至少对于人类肉眼来说——比起人类发出的声音来说,视觉线索要少。容易混淆的具有相似嘴型的发音有‘/p/’,‘/b/’,和‘/m/’,它们都会对人类读唇者造成困难。然而UEA的视觉语音模型可以更好的区分这些视觉上相似的唇形。

Bear博士表示,“‘/p/’,‘/b/’,和‘/m/’之间的唇形是有些区别的,但是人类很难发现,不过如果使用机器的话,我们可以发现的确有不同之处,我们的识别器在这方面效果更佳。”

在讨论训练技巧时,她说,“如果我试图建立一个只识别/p/声音的分类器,我会做的是,首先在所有看上去相同的声音上训练。然后我们通过针对/p/声音做更多的迭代训练来改善训练”。

她补充道,“我们实际上是在学习、理解这些视觉单元的意义,以及它们如何根据不同的人而改变,我们已经使用这种知识来改变传统的读唇系统,并使之更好。这是很显著的进步”。

Bear博士表示,“更好”仍然是相对而言——读唇的准确率一直很低。模型识别一个词语的准确率为10%到20%(即正确识别一个词),尽管她强调比猜还是要高许多。她补充道,在一句话中,它显然更容易从全部文字里区分感官。

她对TechCrunch说,“说实话,我们不能100%肯定(这为什么起作用),我们只知道使用特殊的分类器,如果我们用正确的方式、正确的数据来训练它们,它们不会有任何偏差”。

“这里复杂的是理解为什么视觉语音复杂,这一问题比回答为什么我们可以使用机器学习得到更好结果要困难的多。我们知道机器学习一直在演变,我们会得到不同类型的分类器……但询问它们在学习什么,视觉语音如何,它差异多大,以及我们如何控制这些变量,这些都是难以回答的问题。”

当被问及距这项研究在应用程序中商业化还有多远时,她打趣道:“如果我在谷歌工作可能会很快!”,把这项研究商业化可能需要几年时间。

他说,“我们仍然还有东西需要学习和理解”,这项研究就像是连锁的语言模型,机器需要具备这些来熟练准确地从推特中抓取数据,这就会是读唇的转折点。

另外值得一提的是,UEA模型只处理英语。因此,在应用程序中使用读唇技术所面临的挑战还是不容低估的。

UEA可以与其他语言预测技术结合使用吗?——比如基于下个词语预测技术的机器学习——以此进一步增强读唇能力。“这正是我愿意做的”,她说,“往我们的模型中加入一些健壮的东西是非常棒的,但这也需要更多的时间。它不会马上推出”。

Bear博士将在本周五于上海举行的国际声学、语音和信号处理会议上展示她的研究成果,她的论文——Decoding visemes: Improving machine lip-reading ——也将公布。这项研究来自于一个为期三年的项目,由工程和物理科学研究理事会资助。

原文链接:Machine learning technique boosts lip-reading accuracy
译者:刘翔宇 审校:赵屹华
责编:周建丁(投稿请联系zhoujd@csdn.net)

使用机器学习技术提高读唇准确性相关推荐

  1. 独家|一文解读合成数据在机器学习技术下的表现

    作者:Eric Le Fort 翻译:蒋雨畅 校对:卢苗苗 本文约3200字,建议阅读12分钟. 本文将通过介绍两个分布模型,并运用它们到合成数据过程中,来分析合成数据在不同机器学习技术下的表现. 想 ...

  2. 人工智能和机器学习技术推动企业发展

    IT主管们已经开始收获人工智能和机器学习技术所带来的回报.最近的一项调查显示,随着经济遭遇重创,有一半的主管正在考虑加大投资能够带来收益的人工智能和机器学习技术. 到目前为止,我们大多数人都知道,在当 ...

  3. 我是如何用机器学习技术帮助 HR 省时间的

    引言 假设简历库中有 10000 份名为 "软件工程师" 的简历. 一位 HR 在搜索 "Android 工程师" 时仅关注名称为 "Android ...

  4. 【问答集锦】人工智能/机器学习技术在电商场景下的应用

    近年来阿里不断运用深度学习.强化学习等人工智能领域的相关知识优化自身电商平台的搜索引擎和推荐系统,让其从冷冰冰的系统不断成长为越来越懂用户的智能购物助手. 日前,<尽在双11>人工智能部分 ...

  5. 清华系创企RealAI:独家“隐私保护机器学习”技术,全球首款编译级产品

    原创:谭婧   以侵犯隐私的方式处理数据,已属非法行为,违法必究,犯罪分子,瑟瑟发抖. 但数据,作为人工智能(AI)的"石油",不能简单粗暴一刀切,如何加高数据安全的"围 ...

  6. 机器学习模型提高准确率的八大方法

    想要提高模型的性能有时会是一件难度不小的事情.如果你也遇到过类似的情况,相信一定会认同我这一看法.在一一尝试毕生所学的对策和算法之后,依然没能够提高模型的准确率,这时,一种陷入困境的无助感就会涌上心头 ...

  7. 【论文解读】用于白内障分级/分类的机器学习技术

    Machine Intelligence Research 全球范围内,白内障是造成视力受损和失明的主要原因.多年来,研究人员在开发最先进的白内障自动分类和分级机器学习技术方面取得了重大进展,旨在早期 ...

  8. 推荐系统中的对抗机器学习技术总结

    近年来,随着硬件基础以及算法能力的显著提高,以深度学习模型为代表的机器学习技术得到了学术界和工业界的广泛关注.由于出色的特征表示能力和数据拟合能力,深度学习模型已经席卷机器学习应用的各个子领域,比如计 ...

  9. 应用大数据和机器学习技术实现车险全流程智能化的方案(上)

    应用大数据和机器学习技术实现车险全流程智能化的方案(上) -承保流程智能化改造 一.简要说明 以技术替代人力的思路对车险全业务流程改造,即应用车险大数据和机器学习技术全部或部分替代承保理赔管理相关业务 ...

最新文章

  1. 网络设置计算机,怎么重置电脑网络设置
  2. keras merge
  3. MongoDB操作(.net)
  4. 带负荷测试要求二次最小电流_检修状态下二次带负荷测试方案的优化研究
  5. 【视频】vue指令v-on绑定事件
  6. Metronic学习之路
  7. 编程小白的第一条博客
  8. android emmc 命令,使用CoreELEC的ceemmc工具将系统写入emmc
  9. PHP中的$_SERVER['PATH_INFO']
  10. WINDOWS下面使用ICE操作记录
  11. ACM_基础知识(二)
  12. web工程 java中获取工程文件路径
  13. 关于WSO2 ESB
  14. 谈心-弱之胜强,柔之胜刚
  15. 使用uniapp时候根据设计图得出标准长宽比
  16. vite的搭建与使用
  17. IDEA如何运行SpringBoot项目(超详细截图)
  18. Java-pdf无限压缩方案-优化内存问题
  19. AWS CLI创建Amazon EKS服务
  20. Google未来半年内的杀手锏预测

热门文章

  1. 像素位移_徕卡首款4700万像素、内置光学防抖L卡口全画幅无反相机实拍体验
  2. 百度地图--根据经纬度定位
  3. 文顶顶iOS开发博客链接整理及部分项目源代码下载
  4. 科达视频会议助力宁波鹰星针纺
  5. 项目管理软件四大作用介绍
  6. 【SSL】关于SSL协议
  7. html怎么添加音乐改大小,给视频添加背景音乐 或者更换音频ppt添加视频文件幻灯片尺寸设置...
  8. 2005 TKDE Tri-Training: Exploiting Unlabeled DataUsing Three Classifiers
  9. 双草酸硼酸锂(LiBOB)-市场现状及未来发展趋势
  10. 如何判断系统 是ios还是 android