英国查尔斯王子迎娶卡米拉时,读唇者成功破解了伊丽莎白二世与儿子的低语,让女王糟糕的婆媳关系浮现在大众眼前 —— 这可能是“唇语识别”第一次大面积走进大众的视野。

什么是唇语识别

所谓的“唇语识别”,其实并不神秘。

早在古代,就有专门的唇语师存在。通过长期的训练,他们具备了“观察别人的嘴型,解读其表达语句”的能力。在现代社会里,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。

但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做的比人类好了。

从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。

要理解这个“唇语识别”,需要注意这几个关键词:

运用机器视觉技术从图像中识别出说话人的人脸,提取此人连续说话时口型变化的特征。

将连续变化的特征输入到唇语识别模型中,识别说话人口型对应的发音,运用大数据计算出可能性最大的自然语言语句。

图中字幕是由谷歌AI通过唇读实时同步输出,语速之快,难度之大。

在唇语识别过程中,口型与发音,发音与文字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出可能性最大的结果。

唇语识别的研究现状

早在 2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机。

2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。

海云数据,截至2018年他们训练新闻类节目时长是1万小时。为什么是新闻类节目?当然是因为播音员的唇语最标准。目前,海云数据在英文方面可以达到80%的准确度,中文方面是71%

搜狗的通用识别准确率在60%以上,而在车载、智慧家居等垂直场景下,准确率高达90%。

从视频中可以看出将面部放入椭圆形区域内,不发声的说出一段话,几乎说完的瞬间,识别的文字就出现在屏幕上,无论是口语、诗词、歌词还是绕口令,都能很好的识别。

唇语识别的技术原理

AI唇语识别技术原理:

唇语识别技术从镜头输入到理解输出,中间最重要的关键是:视觉前段、视觉特征提取、唇动识别。

➀ 视觉前段——包括人脸检测与唇的检测和定位,先用人脸检测演算法得到人脸然后有针对性的定位唇动;

或者利用最佳闽值二值化演算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。

➁ 视觉特征提取——是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为基于图元的方法和基于模型的方法两大类;

搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征资讯包含在这个模型之中,并对模型中特征资讯的变化用一个小的参数来描述。

这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维资讯,可能会对后面的识别过程造成影响。

➂ 唇动识别——目前采用的技术大多是隐玛尔可夫模型( Hidden Markov Model,简称 HMM ),该模型认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条玛尔可夫链。

玛尔可夫链可以用来描述统计特征资讯的变化,并且这种变化过程与人的唇动过程是相吻合的,所以 HMM 能够识别唇动并与相应语句匹配转化成文字。

随着机器学习方法在语音识别领域里取得的巨大成功,尤其是 HMM 的应用,根据唇语识别研究和语音识别的相似性,出现了大量的 HMM 应用在唇语识别领域的研究成果。

在非特定开放口语测试中,目前的通用识别准确率已经在 70% 以上,而在金融风控、车载、智能家居等垂直场景下,已达到超过 90% 的准确率。

唇语识别的研究意义

人类费尽心力开发研究人工智能、提高唇语识别的准确率,除了偷窥伊丽莎白二世和儿子的秘密外,还有很多更为广泛的用途:

比如应用于金融在线业务的生物识别、噪声环境下辅助语音识别、辅助听障人士交流、体育赛事暴力语言识别等多个领域,这些都是有着实际意义且颇为重要的应用场景。

自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。

但在人工智能大范围落地的今天,国内从业者扎堆涌入的,大多为语音识别,图像识别,人脸识别,机器翻译,无人驾驶,虚拟助手和个性化内容推荐等领域,相较这些聚光灯之下的落地场景,唇语识别相对冷僻。

但业界的常识是:人工智能未来将会出现一个数万亿美元的巨大市场,在面对具体乃至细碎的应用场景时,人工智能的细分程度,势必如百年前的电力那般触角庞杂。

而广袤的嫁接空间也意味着,从真实应用场景出发,人工智能领域会出现不少蓝海市场,被国内巨头忽视的唇语识别就是其中之一。

武汉维识教育科技有限公司依托北京一维弦科技有限公司自主知识产权的核心算法、智能机器人等主要产品、理实结合的人才培养课程方案,在华中地区布局人工智能人才培养战略:校企合作办学,支持校企共建高质量的机器人工程专业、机器人工程系、机器人工程学等机器人工程及相关智能科学专业;开办人工智能训练营,围绕机器人工程、人工智能、智能科学与技术等相关专业,助推高校和企业人才的智能转型;建立人工智能机器人实训基地,围绕人工智能、机器人视觉、机器人运动学、电机控制、智能制造等相关方向,提供实验技术平台,助力高校和高职人才的培养。

唇语识别!AI 领域的下一个万亿市场?相关推荐

  1. 预制菜迎来“黄金时代”,谁能领跑下一个万亿市场

    "本文主要从以下几个角度对预制菜市场进行解析:1.预制菜的本质和核心价值是什么? 2.预制菜的发展趋势和竞争格局如何? 3.什么样的预制菜企业能长期"跑赢"? 4.预制菜 ...

  2. 年成交额超3000亿元 极有家或将成为淘宝的下一个万亿市场

    [TechWeb]3月1日消息,装修是每个家庭都会遇到的事情,而家装的选择烦恼估计大部分人也都感受过.在淘宝极有家负责人无欢看来,当前的家居行业仍需要持续转型,未来的潜力巨大. 根据相关统计数据显示, ...

  3. 在线职教行业或将迎来下一个千亿市场

    从2020年初开始,在线教育行业一路波折,大厂纷纷入局冲击新巨头,老牌领军企业的转型或落幕,资本热钱的不断涌入--乘风破浪的同时还伴随着新动能崛起.新技术赋能.新模式涌现的大江大河,改革.转型.破局. ...

  4. 物联网前景可期 将会是下一个万亿级的通信业务

    近年来,随着芯片.传感器等硬件价格的不断下降,通信网络.云计算和智能处理技术的革新和进步,物联网迎来了快速发展期.据预测,到2020年,世界上物物互联的业务,跟人与人通信的业务相比将达到30比1,物联 ...

  5. 机器学习下一个万亿级的增长从哪来?

    简介:果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司.构建无行业属性机器学习工具的公司以及构建垂直集 ...

  6. 会畅通讯登陆创业板上市,CEO黄元庚说云视频是下一个万亿级市场

    2017年1月25日,随着深圳证券交易所一声钟响,云视频会议服务商--上海会畅通讯股份有限公司在创业板挂牌上市.在2月28日的上市庆典上,会畅通讯首席执行官黄元庚介绍:"跟其他方式相比,视频 ...

  7. 与其骂联想,不如关注下一个万亿级市场

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 联想是不是在某次5G会议中将票投给了高通,导致华为在5G标准中落败给高通? 联想是不是卖国贼? -- 联想"投票门事件"的新 ...

  8. 一个小小的无线电源,即将会是下一个“万亿级市场”

    如果说,会有下一个「万亿级」蓝海市场 那必定少不了技术的颠覆 正如乔布斯重新定义智能手机 无线输电技术 被认为是一种颠覆性技术! 1899年,特斯拉首次尝试 在没有电线的情况下进行输电 100多年以来 ...

  9. 百度AI开发者大会AI+5G论坛热度爆表,用技术撬动下一个百亿市场

    7月4日上午,以"构建AI与5G.边缘计算深度融合发展生态,促进AI边缘计算技术和平台共享"为主题的"Baidu Create 2019"百度AI开发者大会AI ...

最新文章

  1. 机器学习之用Python从零实现贝叶斯分类器
  2. [CodeForces1110C]Meaningless Operations
  3. oracle之 11g RAC R2 体系结构---Grid
  4. 读阿里许令波老师晋升评审有感
  5. Ecplise中怎样进行全局搜索
  6. 不可忽略的apache 的 Keep Alive
  7. byte数组转blob类型_Java类型相互转换byte[]类型,blob类型
  8. Android-JNI开发系列《三》-异常处理
  9. Web服务器用户权限设置,Windows系统下WEB服务器权限的设置详解(四)
  10. 3ds Max 2014破解版安装中遇到的问题及解决
  11. react自定义鼠标右键菜单
  12. Java零基础学习-每日单词(日更)
  13. python虚拟变量回归_虚拟变量提升多元线性回归模型精度(附Python代码与数据)...
  14. 计算机重启遇到你的账户已被停用,win10系统提示administrator您的账户已被停用的解决方法...
  15. GateWay网关访问服务出现503的问题解决
  16. osgEarth示例分析——osgearth_features
  17. 在linux系统上安装飞秋,linux [Fedora] 下的 飞秋/飞鸽传书
  18. matplotlib之pyplot模块——绘制误差棒图 errorbar()
  19. cmp test指令 条件转移 FLAGS寄存器 机理探究
  20. 简述自然语言理解的层次划分及对应的技术

热门文章

  1. 画思维导图的注意事项有哪些?怎样画思维导图?
  2. Fidder介绍、工作原理
  3. php的mysqli步骤,php安装扩展mysqli的实现步骤及报错解决办法
  4. Window管理右键菜单
  5. ESP32TCP-SERVER 通信
  6. 让 Winform 窗口悬浮的简单方式,不可思议的 TopMost 属性
  7. (二)python学习笔记之列表入门
  8. flv格式视频怎么转换成mp4
  9. PG服务进程(Postgres)——BeginReportingGUCOptions向客户端汇报GUC
  10. 网站服务器选择什么操作系统,网站服务器选择哪种操作系统比较好