厉害了!看嘴型竟然就能识别发音
根据嘴型就能判断出人们在说什么,这就是唇语识别。
唇语识别并非最近才出现的技术,早在2003年,Intel就开发了唇语识别软件AVSR。2016 年,Google DeepMind的唇语识别技术就已经可以支持17500个词,新闻测试集识别准确率达到了50%以上。
唇语识别就是让AI“光看嘴型就知道你在说什么”
唇语识别技术的原理是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征。
随后,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后,根据识别出的发音再计算出可能性最大的自然语言语句。
去年,国内知名AI企业搜狗与清华天工研究院合作,在语音和唇语的多模态识别方面取得了重大成果,相关论文《基于模态注意力的端到端音视觉语音识别》已经发表在去年的学术会议ICASSP上。
论文提到,纯粹依靠语音的识别方式存在一个缺陷,就是无法在嘈杂环境下仍然保持较高的识别准确率。
而视觉的识别方法不受环境声音的影响,在听不清对方讲话时,人们会自然的盯紧讲话者的嘴巴,而听力障碍人士正是通过唇语进行交流的。
搜狗研究人员想到,如果让AI也能把这两种方法结合起来,即所谓的“多模态”识别,就能提高语音识别的准确率。
在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过Google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下,搜狗唇语识别系统甚至已经达到90%的准确率。
搜狗在第四届世界互联网大会上展示的唇语识别系统
作为人机交互的形式之一,未来唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。
搜狗相关负责人在2017年互联网大会上明确提出,希望唇语识别技术能够帮助听障人士“翻译”正常人语言,通过唇读技术把语音转换成文字,帮助他们更好地了解世界。
在车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性。
在安防领域,由于目前多数监控只有摄像头没有麦克风,给案情分析带来很多难题,唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。
可以预想,加入唇语识别技术后,公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录,将极大助力犯罪缉查工作的开展。
在公路、会议室、火车站等噪音嘈杂的场景中,唇语识别可以帮助规避音频噪声对用户说话内容获取的影响,确保视屏或语音交流顺畅进行。
虽然唇语识别应用广泛,但依然面对较大研发难度
由于唇语识别是一项基于机器视觉与自然语言处理于一体的技术,所以在研发难度上比语音识别大得多。
通常情况下,唇语识别系统会使用复杂端到端深度神经网络技术进行语言唇语序列建模,并通过数千小时的真实唇语数据进行训练。
数据堂深耕于AI数据领域近十年,一直致力于为全球人工智能企业提供专业的数据服务,行业内高标准的《156小时唇形同步多模态视频数据》和《1,998人唇语视频数据》广受重视和好评,能够助力唇语识别技术落地更多应用场景。
156小时唇形同步多模态视频数据
这是一套由250人参与录制语音以及相匹配的唇语视频。工作人员使用多设备同步录制,录制内容包括普通话的短指令和口语句子,通过脉冲信号进行精准对齐,句准确率不低于95%。数据可用于唇语识别、语音图像领域的多模态学习算法研究。
1,998人唇语视频数据
数据由1998人参与录制,数据集中包含41,866段视频,总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。
在每段视频中,被采集人读取8位阿拉伯数字。标注人员对视频拍摄时间、读取内容进行标注,准确率不低于95%,该数据可用于唇语识别任务场景。
业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。
但鉴于语言环境的复杂性,唇语识别真正投入实战还尚需时日,仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。
厉害了!看嘴型竟然就能识别发音相关推荐
- 用于2D动画的实时嘴型同步技术
hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品.这是我发在<人工智能Mix&g ...
- 【Unity人物动画】SALSA With RandomEyes (语音生成嘴型/人物说话) 使用
SALSA使用探索 之前做项目时想实现人物说话的效果,因为我们的语音是AI合成的,有很多片段,如果能根据语音生成嘴部的动画,那将极大便利我们的工作.后面是找到了SALSA的这款插件,并摸索出使用方法. ...
- 高鹏清华计算机系,中国最顶尖的学霸到底有多厉害?看完,膝盖已跪碎!
原标题:中国最顶尖的学霸到底有多厉害?看完,膝盖已跪碎! 还记得下面这张曾经轰动网络的成绩单吗? 15门课程100分.4门99分.1门98分! 这是当时清华大学韩衍隽同学的成绩 据了解,该图出自201 ...
- 浙江大学竺可桢学院计算机专业好就业吗,浙大竺可桢学院有多厉害?看了这些数据你就知道了...
原标题:浙大竺可桢学院有多厉害?看了这些数据你就知道了 每所高校都有它自己的最强班级,比如清华的姚班.智班.那么一直排名全国前5的浙江大学,它的最强班级叫什么呢?小编带你一起来了解一下吧. 那么浙大竺 ...
- Python输入音频wav同步嘴型源码方案
这是由ACM MM2020发表了的一篇论文,提出一个AI模型,只需要一段人物视频和一段目标语音,就能够让音频和视频合二为一,人物嘴型与音频完全匹配. [订阅栏目 获取全部的源码方案] 选一张蒙娜丽莎的 ...
- 嘴型融合 wav2lip 升级版
环境 windows 10 64bit wav2lip-hq pytorch 1.12.1+cu113 前言 前面的博文 嘴型同步模型Wav2Lip,介绍了嘴型同步模型,本篇介绍的是 wav2lip ...
- 嘴型同步模型Wav2Lip
软硬件环境是 ubuntu 18.04 64bit nvidia gtx 1070Ti cuda 11 anaconda with python 3.7 简介 2020年,来自印度海德拉巴大学和英国巴 ...
- Mouth Shapes(AE图层切换嘴型动画脚本)v1.0版本更新啦
Mouth Shapes是一款AE图层切换嘴型动画脚本,只需要点击一个按钮,即可让嘴唇同步变得容易. 在创建角色动画时,这是一个非常有效的工具,但它也为您的后期效果工作流程提供了一个强大的资源. 使用 ...
- 【干货】从有道5亿用户看工具型产品的转型之路
送给真正的互联网人一顿干货早餐 [小咖导读]本文摘自公众号:移动互联网,作者 契约.总所周知,网易的产品都是良心产品,比如有道词典,网易公开课,LOFTER等等.本文讨论的是有道,作为工具型产品,有道 ...
最新文章
- [转]ASP.Net缓存总结
- 如何安装mysql5.6.16_centos安装mysql5.6.16
- 查看win10版本方法,及win10升级方法
- autocad型源代码_C# 实现预览dwg文件完整源代码(无需autocad环境)
- java程序设计与问题求解第八版pdf_《Java程序设计与问题求解(第7版)》怎么样_目录_pdf在线阅读 - 课课家教育...
- 前端安全究竟该怎么做?从一个安全漏洞说起......
- android c博客园,android上进行c/C 开发测试(转) - 奋进 - 博客园
- Oracle数据库——触发器的创建与应用
- 名企面试官精讲典型编程题之数据结构数组篇
- Tomcat的Document base ……does not exist or is not a readable directory错误
- gif透明背景动画_Gifox for Mac(Gif动画录制工具)
- 基于VC++的MFC类库实现的简单FTP客户端
- 简谈五线制交流道岔控制电路故障的处理方法【铁路信号技术专栏】——转自微信公众号高速铁路信号技术交流
- 网络通信学习笔记之——计算机网络基础知识
- java happen-before_java 内存模型中的happen-before 是什么?
- 云渲染是什么?云渲染好处以及安装方法。
- mchange-commons-java包下载
- bootstrap响应式布局之阿里百秀
- 奋斗的小孩系列 FPGA学习altera系列: 第十七篇 自动售货机设计
- python爬取智联招聘网