所谓的“唇语识别”,其实并不神秘。

早在古代,就有专门的唇语师存在。通过长期的训练,他们具备了“观察别人的嘴型,解读其表达语句”的能力。随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经在赶超人类了。

从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。

运用机器视觉技术从图像中识别出说话人的人脸,提取此人连续说话时口型变化的特征。将连续变化的特征输入到唇语识别模型中,识别说话人口型对应的发音,运用大数据计算出可能性最大的自然语言语句。

在唇语识别过程中,口型与发音,发音与文字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出可能性最大的结果。

唇语识别是集机器视觉与自然语言处理于一体的技术

早在 2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机。

2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。

国内AI企业搜狗推出了唇语识别人机交互技术。搜狗官方表示,通过复杂端到端深度神经网络技术进行中文唇语序列建模,经过数千小时的真实唇语数据训练,搜狗“唇语识别” 系统在非特定人开放口语测试集上,该系统达到 60% 以上的准确率,在垂直场景命令集如车载、智能家居等场景下甚至已经达到 90% 的准确率。

搜狗的唇语识别技术近年来取得较快发展

未来,唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

比如在车载场景下,周围噪音过大时会对语音指令产生干扰。在安防领域,由于目前多数监控只有摄像头没有麦克风,而唇语识别则可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。另外,唇语识别还有机会帮助先天性听障人群或老年人,帮助他们更好地与人交流。

唇语识别技术诞生之初就是为了解决语音识别的噪音问题而研发的。总结来看,目前唇语识别技术的应用还是集中在辅助语音识别,这也会使得语音交互更加完善。

由于唇语识别是一项基于机器视觉与自然语言处理于一体的技术,所以在研发难度上比语音识别大得多。

通常情况下,唇语识别系统会使用复杂端到端深度神经网络技术进行语言唇语序列建模,并通过数千小时的真实唇语数据进行训练。

数据堂深耕于AI数据领域近十年,一直致力于为全球人工智能企业提供专业的数据服务,行业内高标准的《1,998人唇语视频数据》广受重视和好评,能够助力唇语识别技术落地更多应用场景。

数据由1998人参与录制,数据集中包含41,866段视频,总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。

在每段视频中,被采集人读取8位阿拉伯数字。标注人员对视频拍摄时间、读取内容进行标注,准确率不低于95%,该数据可用于唇语识别任务场景。

目前,唇语识别技术的普及率较低,其中主要存在两个问题。

第一,摄像头录入存在很大的限制,不能完全满足日常交互需求。

在目前的唇语识别系统中,获得的嘴唇视觉特征信息通常是正向的,这就意味着在交互时,人们需要时刻正对机器。为了能够应用更多的场景,应该使人在非正向角度说话时也能被检测识别。

第二,识别的准确度也是一个关键的问题。

口型与拼音序列是一对的多关系,如 zhi、chi、shi对应的口型序列是一样的,单纯利用视觉特征难以区分,会造成信息识别错误。

不过,越来越多AI企业开始发力唇语识别。业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。可以预见,随着大数据与人工智能的发展,未来的识别准确率会达到更高。

AI如何练就读唇术?唇语识别数据功不可没相关推荐

  1. 面向唇语识别的数据采集系统

    本文主要是分享一下自己在探索设计实现一个面向中文唇语识别数据采集系统的经验.主要有两步工作,一是配置系统环境,  二是系统设计与编程实现. 1.对于环境系统配置,主要包括格式工厂.爱剪辑软件的安装,V ...

  2. 教会AI“读唇术”,唇语数据功不可没

    人类对唇语的学习和研究由来已久,然而由于受经验.视线以及主观因素的影响,人类解读唇语的正确率存在不稳定性.因此让AI学会"读唇术",在很多应用场景都有着现实意义. AI" ...

  3. AI展现唇语识别能力,大数据功不可没

    人类对唇语的学习和研究由来已久,然而由于受经验.视线以及主观因素的影响,人类解读唇语的正确率存在不稳定性.因此让AI学会"读唇术",在很多应用场景都有着现实意义. 读唇是一种特别难 ...

  4. 唇语识别!AI 领域的下一个万亿市场?

    英国查尔斯王子迎娶卡米拉时,读唇者成功破解了伊丽莎白二世与儿子的低语,让女王糟糕的婆媳关系浮现在大众眼前 -- 这可能是"唇语识别"第一次大面积走进大众的视野. 什么是唇语识别 所 ...

  5. 从人脸识别到唇语识别,图像识别技术发展现状

           "唇语识别研究的起源有一个故事.2006年世界杯上,马特拉齐好像说了一句话把齐达内惹怒了,然后齐达内就用头撞了马特拉齐.事后,大家都在猜他到底说了什么." 山世光 中 ...

  6. 史上最详细唇语识别数据集综述

    更新:VIPL官网网页格式更改,导致旧的LRW1000链接无法访问,现已更新LRW1000数据集链接,内部包含申请需要的文件 推荐一个大佬的综述,关于实现唇语识别的多种途径. 说明:本文包括经常用语唇 ...

  7. 今日新出 CV 论文汇总(含医学图像、目标检测、唇语识别、SLAM等)

    点击我爱计算机视觉标星,更快获取CVML新技术 最近,52CV分享了多篇CVPR 2019 的论文,有位群友问难道除了CVPR 就没有值得读的论文了吗?当然不是,其实很多优秀的工作并不一定出自CVPR ...

  8. 唇语识别技术的开源教程,听不见声音我也能知道你说什么!

    作者 | Amirsina Torfi.Seyed Mehdi Iranmanesh.Nasser M. Nasrabadi 译者 | 清爹 整理 | Jane 出品 | AI科技大本营 [导读]唇语 ...

  9. 唇语识别真会是语言交互的终极战场?

    文 | 夏汀 来源 | 智能相对论(aixdlun) 在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技--唇语识别,12月14号搜狗在北京又公开演示了这项技术.作为行业领先的唇语识别系统,搜狗在非特 ...

最新文章

  1. 实时的激光雷达点云压缩
  2. var java_var 是 Java 开发的好朋友啊!
  3. MySQL — 索引的慢查询优化与 B+ 树
  4. 计算机毕业论文多久,计算机毕业论文
  5. linux脚本实现复制,Shell脚本实现复制文件到多台服务器的代码分享
  6. Android——浙理体育(飞翔的红蜻蜓)训练记录上传与查询测试DEMO解决方案
  7. Swift之实现表格UITableView数据首字母顺序排列展示并添加“索引”快速定位查找功能
  8. Python 中的作用域
  9. jQuery自定义选择器
  10. Pro*C 中嵌入pl/sql块
  11. 实验一 第1关:从自然数中取3个数进行组合之循环算法
  12. 为什么光合作用要叶绿素?
  13. 学习前端的第三十二天——ES6
  14. 软件测试丨工具在接口测试中发挥什么样的作用?
  15. 【告别小白】什么是标志性语言?
  16. 恢复win10系统默认服务器,解决win10系统“重置电脑时出现问题 未进行任何更改”的方法...
  17. VS工程文件常见后缀名文件含义
  18. 利用Medium的CDN来改善Feed的页面加载时间
  19. python画蛋糕祝福图片大全_蛋糕画画图片大全_简单的简笔画图片大全
  20. 激活函数ReLU、Leaky ReLU、PReLU和RReLU

热门文章

  1. 使用python中you-get库下载你要的视频
  2. 关于虚拟机VMware Workstation Pro繁忙的解决方法
  3. java IO流---字符流
  4. 综合指数:拉氏指数和派氏指数
  5. 【文档】AOA-with-DW1000_V1.1
  6. 电网能量交换的关键设备——630kW储能变流器介绍
  7. 百余名人辞世,刚过去的2016是被诅咒的一年吗?MIT数据分析预测这只是个开始……...
  8. mysql+sql+子查询语句_SQL语句:子查询
  9. wp安装install.php,wordpress安装包怎么安装
  10. arduino如何加载OLED屏幕库