本文为Multi-Grained Spatio-Temporal Features Perceived Network for Event-Based Lip-Reading的记录,原文见cvf。
来源:CVPR2022
作者单位:中国科学技术大学

摘要

1.本文介绍基于事件相机的唇读。
2.事件相机有更高的时间分辨率,更少的视觉冗余信息,更小的计算量。
3.本文提出MSTP提取微秒级细粒度特征。
4.MSTP包含两个帧率不同的分支。
5.低帧率提取空间信息,高帧率提取时间信息。
6.使用融合模块得到同时包含时空信息的特征。
7.提出的方法和事件相机比视频方法更优。

介绍

1.唇语识别是xxxxxxx可以xxxxxx。
2.本文使用事件相机,记录毫秒级变化,使网络可以提取细粒度时空特征。
3.目前有很多基于事件的动作识别研究。时间可以当做点云和图结构处理,但会损失细粒度时空信息。还可以用脉冲神经网络处理异步信息,但效果不好。目前的基于cnn的方法将事件数据转为定帧格式,但同样会损失细粒度时空信息。综上,唇读需要细粒度时空信息,但目前的方法不能满足。
4.本文提出将事件数据转化为多粒度事件帧如图1所示(tsne为降维工具,将每帧高维特征图降至两个二维点)。

为了更好的利用细粒度事件信息,本文提出MSTP,包含高帧率和低帧率两个分支,使用MFM进行特征融合,学习更好的时空特征。
5.本文收集了一个事件唇读数据集DVS-LIP,包含19871个样本。为了研究网络细粒度特征提取能力,数据集标签包含两部分,第一部分是LRW数据集500个单词中25对视觉近似的单词,共50个。第二部分是随机选取的50个。共100个单词,具体信息如下表所示。

6.实验表明,MSTP精度比其他基于事件的动作识别sota高,且比使用视频的sota唇读高。

相关工作

1.唇读数据集:LRW,LRW-1000,LRS2,LRS3,xxxxxx。
2.唇读模型:MSTCN,BiGRU,xxxxxx。
3.事件相机:davis346。
4.基于事件的动作识别:点云,图,脉冲神经网络,cnn。

方法

事件数据

三维1×t×w×h时空散点数据

框架

事件表示

1.点云,图结点,脉冲神经网络不适合唇语识别,本文使用逐帧表示。
2.使用格栅下采样将原始时间流采样到多个帧率。

网络结构

1.双分支网络,一个帧率高一个帧率低,保留细粒度动作信息和空间外观信息。结构如下图所示。

2.两个分支前端结构相似,使用3D + 2D ResNet18,提取特征过程中时间分辨率不变,高帧率分支通道数较小,为低帧率流的四分之一(更小的通道数可以提升时序建模能力,减弱空间建模能力)。
3.两个流中间层的输出格式为均为t×c×w×h,但t和c不同,高帧率流的t大c小。融合模块首先通过时间维度1d卷积将高帧率流的特征进行时间维度下采样,到帧率和低帧率流一样,并在特征维度拼接。该部分操作如下图,输出表示为FfuseF^{fuse}Ffuse,与低帧率流的输出格式相同,通道数变为2倍。

4.然后计算一个局部空间注意力,结构如下图。

卷积层通道数先减小为原来的1/4后恢复,输出格式与输入相同,为t×c×w×h。
5.再计算一个上下文注意力,结构如下图。

与局部空间注意力区别仅在于先进行GAP,使空间维度变成1,输出格式为t×c×1×1。
6.之后将两个注意力特征图相加,输入sigmoid,结构如下图。

输出格式与局部注意力特征图相同。
7.然后用注意力权重和融合特征相乘并与低帧率特征相加,如下图。

得到输出与输入格式相同,维度扩大2倍。
8.最后和下采样后的高帧率特征进行特征拼接,图下图所示。

最终输出格式与低帧率相同,通道数为低帧率和高帧率相加。

序列模型

3层BiGRU

实验

数据收集

1.数据集由40个志愿者,每人读5个包含顺序不同的100个单词的序列,共产生20000个样本。使用Montreal forced aligner获取序列中每个单词的起止时间。将所有样本裁切刀128×128的大小。
2.去除问题样本,得到19871个样本,30个测试者的14896个样本训练,10个测试者的4975个样本测试。

实现细节

1.原尺寸128×128中心裁切到96×96,随机裁切到88×88,加上概率为0.5得水平翻转。视频数据如果每个单词多于30帧,则线性采样到30帧,若少于则zero padding到30。
2.pytorch实现,adam优化器,余弦学习率,3e-4到5e-6,80epoch,batchsize32.

实验结果


1.主要结果:MSTP取得最高精度。MSTP比事件动作识别模型的精度高。MSTP比传统模型在视频模态精度高

2.融合消融实验:单独的高低帧率流精度相近,直接横向融合得到较小提升,使用融合模块获得较大提升。

3.帧率消融实验:高帧率流不同帧率选择对精度的影响,当30和210组合时精度最高。

4.热力图可视化:奇数行为低帧率流,偶数行为高帧率流。两个流的注意区域不同,表示对时空信息不同的关注度,信息互补可以更好地提升识别精度。

补充材料

several

million

billion

tomorrow

happen

american

america

史上最详细Multi-grained Spatio-Temporal Features Perceived Network for Event-based Lip-Reading文章记录相关推荐

  1. 史上最详细唇语识别数据集综述

    更新:VIPL官网网页格式更改,导致旧的LRW1000链接无法访问,现已更新LRW1000数据集链接,内部包含申请需要的文件 推荐一个大佬的综述,关于实现唇语识别的多种途径. 说明:本文包括经常用语唇 ...

  2. 史上最详细Lipreading using Temporal Convolutional Networks(MS-TCN)代码层面详解

    本文将从代码层面详细介绍在LRW数据集实现SOTA效果的唇语识别模型MS-TCN.GitHub代码请看Lipreading using Temporal Convolutional Networks, ...

  3. 史上最详细 Lipreading using Temporal Convolutional Networks 环境配置

    唇语识别是目前人工智能领域比较热门的应用之一,本文将在之后的内容中介绍2020年英文词汇级唇语识别在LRW(Lir Reading in the Wild)数据集以及LRW-1000两个数据集上实现S ...

  4. GitChat·大数据 | 史上最详细的Hadoop环境搭建

    GitChat 作者:鸣宇淳 原文: 史上最详细的Hadoop环境搭建 关注公众号:GitChat 技术杂谈,一本正经的讲技术 [不要错过文末彩蛋] 前言 Hadoop在大数据技术体系中的地位至关重要 ...

  5. 史上最详细唇语识别最新研究进展记录

    本文是唇语识别近2年来最新的方法的记录,主要集中在中英文词级数据集如LRW,LRW-1000,英文句子级数据集如LRS2,英文短语级数据集如OuluVS2,以及其他一些数据集. 记录方法为1.简要翻译 ...

  6. 史上最详细的微生物扩增子数据库整理

    声明:文件所有链接内容来自"生信控"公众号,已经获作者向屿授权. 本人对每个数据库的使用目的和经验配导读,需要使用的小伙伴读点击链接跳转原文学习. "生信控"相 ...

  7. 史上最详细版Centos6安装详细教程

    镜像CentOS-6.8-x86_64-bin-DVD1.ISO 将下载好的镜像上传到服务器,并选择该镜像(详情请看上篇exsi镜像上传文章) 一.安装开始 开机选择第一项 这里询问我们是否要对光盘进 ...

  8. 史上最详细“截图”搭建Hexo博客——For Windows

    http://angelen.me/2015/01/23/2015-01-23-%E5%8F%B2%E4%B8%8A%E6%9C%80%E8%AF%A6%E7%BB%86%E2%80%9C%E6%88 ...

  9. 不仅有史上最详细Docker 安装Minio Client,还附带解决如何设置永久访问和永久下载链接!!(详图)绝对值得收藏的哈!!!!

    背景: 这两天在整理知识点,然后在学习Minio,一开始遇到更新,整了我不少时间,之前用的太久了,改了不少东西.用了之后发现不知道怎么设置成永久访问,就出了这篇文章. 史上最详细Docker安装最新版 ...

  10. 史上最详细Docker安装最新版Minio 带详解 绝对值得收藏!!! 让我们一起学会使用minio搭建属于自己的文件服务器!!走上白嫖之路!解决启动了但是浏览器访问不了的原因

    让我们一起学会使用minio搭建属于自己的文件服务器!!走上白嫖之路! WARNING: Console endpoint is listening on a dynamic port (34451) ...

最新文章

  1. jenkins-svn配置
  2. 【张其中】中本聪,我们究竟需要怎样的加密货币?
  3. flink报错:Error: Static methods in interface require -target:jvm-1.8 已解决
  4. objc_setAssociatedObject 关联的简单用法
  5. Redis配置文件常用配置消息解说--版本5.0.9
  6. Mr.J--JavaScript-恶搞小代码
  7. perl模块net mysql_Perl模块实例化DBI Forks“Mysql服务器已经消失”
  8. sql server 群集_设计有效SQL Server群集索引
  9. 对话张璐:硅谷VC没有因区块链失眠,AI应用进入产业变现阶段
  10. 怎么在安卓布局里设置滚动字体_手机里堪称神器的 App
  11. 恒强制版系统980_华为mate40将首批升级鸿蒙2.0系统?
  12. 干货分享!手机中不可或缺的5个APP神器
  13. linux 配置软件安装源
  14. python爬房源信息_Python爬虫-爬取300个短租网房源信息
  15. Android App性能流畅度测评分析可以用到工具
  16. java解析图片GPS等信息,springboot项目获得图片GPS
  17. ISO/IEC 5055:软件代码质量的标尺
  18. java为word添加水印,图片水印和文字水印
  19. qgjsfagafgpjqip
  20. 2022年ccpc威海站

热门文章

  1. matlabrobert锐化_Matlab图像处理系列3———空间域锐化滤波器
  2. 用Kodi访问Win10共享文件夹
  3. apk分包思路(一)meta-data
  4. 问卷调查系统环境配置搭建
  5. python输出星号等腰三角形_Python 打印矩形、直角三角形、等腰三角形、菱形
  6. android-c2手机,[视频]最新Android One手机Nokia C2登场:搭载紫光展锐处理器
  7. 虚幻引擎4艺术大师 - 中文版免费分享
  8. oracle 时间天数计算,oracle计算连续登陆/上班天数
  9. c语言camel游戏,将单词从camelCase转换为C中的snake_case
  10. OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields