点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

提出了一种用于连续手语识别的注意网络。该方法利用相互独立的数据流对手语模态进行建模。这些不同的信息渠道可以在彼此之间共享一个复杂的时间结构。出于这个原因,我们将注意力应用于同步,并帮助捕获不同符号语言组件之间的相互依赖关系。尽管手语是多通道的,但手形是手语解释的中心实体。在正确的语境中看到手形可以定义符号的含义。考虑到这一点,我们利用注意机制来有效地聚合具有适当时空背景的手部特征,从而更好地进行符号识别。我们发现,通过这样做,该模型能够识别围绕支配手和面部区域的基本手语成分。我们在rth - phoenix - weather 2014基准数据集上测试了我们的模型,得出了竞争结果。

本文创新点

本文提出了一种基于注意的序列符号语言比对识别方法。与以前的作品不同,我们的方法的独创性在于明确地从非手工手语组件中提取和聚合上下文信息。在没有任何领域注释的情况下,我们的方法能够在预测手势时独家识别与手势形状相关的最相关的特征。本文的主要贡献可以总结如下:

  • 设计一个端到端的序列符号语言识别框架,利用自我注意进行时间建模。

  • 阐述了一种更有效的方法,将手形与它们的时空背景结合起来进行手语识别。

  • 在rth - phoenix - weather 2014基准数据集上,在单词错误率方面取得有竞争力的结果。

框架结构

我们的注意网络的概述,采取一系列的全帧图像,并输出目标词的注释。Ax单元代表了[13]中引入的注意堆栈,它由一个多头自注意机制和一个全连接层组成。我们应用一个层范数[28],然后每个都有一个残差连接,而不是原始的论文中的结构。

全帧和手形的组合通过上下文-手的注意层。

实验结果

在框架嵌入激活的热图定位,突出模型用来预测特定标志的重要区域。上面的序列是我们的SAN网络的输出结果。中间是带有手持式流的SAN,底部是带有手持式流和本地上下文屏蔽的SAN。注意,这个示例是随机选择的,而不是精心挑选的。

在RWTH-PHOENIX-Weather数据集上,我们的SAN变量用于CSLR任务的单词错误率学习曲线。

RWTH-PHOENIX-WEATHER 2014符号注意网络变体的单词错误率%比较(越低越好)

结论和未来计划

在这项工作中,我们提出了一种新的方法,利用注意力来有效地结合手部查询特征和它们各自的时间全身上下文,而不需要任何额外的监督。我们已经证明了这种方法对连续手语识别任务的有效性。在未来的研究中,我们将有兴趣研究在我们的架构上使用强制对齐算法的效果,类似于[7],[16]。如[7]所示,依靠强制对齐可以显著改善识别,它是一种流行的解决方案,通过迭代地改进和训练标签-图像预测来克服薄弱的监督。我们也可以使用HMMs代替CTC进行序列比对,因为他们已经被证明在[10]中更优。另一个重要的探索地点是进一步扩展这项工作,通过将我们的架构应用于类似于[12]和[14]的手语翻译任务(SLT),并通过注意机制来研究将手部特征与其全局非手动上下文结合起来的效果

论文链接:https://arxiv.org/pdf/2101.04632.pdf

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目31讲

在「小白学视觉」公众号后台回复:Python视觉实战项目31讲即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

下载4:leetcode算法开源书

在「小白学视觉」公众号后台回复:leetcode即可下载。每题都 runtime beats 100% 的开源好书,你值得拥有!


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

用于手语识别的自注意力机制相关推荐

  1. 全卷积网络用于手语识别

    Fully Convolutional Networks for Continuous Sign Language Recognition 年份 识别类型 输入数据类型 手动特征 非手动特征 Full ...

  2. Attention注意力机制的前世今身

    ©PaperWeekly 原创 · 作者|马敏博 学校|西南交通大学硕士生 研究方向|命名实体识别 总体介绍 注意力机制(Attention Mechanism)最早应用 CV 任务上 ,但最初的论文 ...

  3. 详解自注意力机制及其在LSTM中的应用

    详解自注意力机制及其在LSTM中的应用 注意力机制(Attention Mechanism)最早出现在上世纪90年代,应用于计算机视觉领域.2014年,谷歌Mnih V等人[1] 在图像分类中将注意力 ...

  4. 万字长文解析CV中的注意力机制(通道/空间/时域/分支注意力)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[transformer综述]获取2022最新ViT综述论文! 注意 ...

  5. 万字长文解读计算机视觉中的注意力机制(附论文和代码链接)

    文中论文和代码已经整理,如果需要,点击下方公号关注,领取,持续传达瓜货 所向披靡的张大刀 注意力机制是机器学习中嵌入的一个网络结构,主要用来学习输入数据对输出数据贡献:注意力机制在NLP和CV中均有使 ...

  6. CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块

    分享一篇来自 CVPR 2021 的文章,ACTION-Net: Multipath Excitation for Action Recognition.作者单位:都柏林圣三一大学,字节跳动 AI L ...

  7. cvpr 注意力机制_视频人员重识别:关系引导空间注意力 + 时间特征提取模型

    作者 | Ass 编辑 | CV君 报道 | 我爱计算机视觉(微信id:aicvml) 2020 年顶会论文中,很多都会将关系加入到注意力机制的获取中. 除了该文,还有 2020 年 CVPR 的基于 ...

  8. (论文加源码)基于DEAP的脑电情绪识别(CNN,RNN和两种不同的注意力机制)

    论文及源码见个人主页:https://download.csdn.net/download/qq_45874683/85063985 (论文加源码)基于DEAP的脑电情绪识别(CNN,RNN和两种不同 ...

  9. (AAAI-2019)STA:用于大规模基于视频的行人重识别的时空注意力

    STA:用于大规模基于视频的行人重识别的时空注意力 paper题目:STA: Spatial-Temporal Attention for Large-Scale Video-Based Person ...

最新文章

  1. 一种不会导致资源泄露的“终止”线程的方法
  2. java 如何让HashMap变成线程安全的
  3. 腾讯云VS AWS :云存储网关性能谁更优?
  4. VB查询数据库之写入数据库——机房收费系统总结(三)
  5. 给谷歌输入法增添自定义词组,提高输入效率
  6. Discuz!NT博客非官方升级!!
  7. 3不能安装库_不锈钢水槽如何安装?3个细节要注意,不能忽视,别被套路了
  8. CSS height高度 和 width宽度
  9. HTML5与Phonegap框架初步
  10. 42 可写成成三个整数的立方和
  11. MFC中CString,int,string,char * ,char[] 之间互转
  12. java的人patch方法_java – Spring MVC PATCH方法:部分更新
  13. Asp.net mvc 网站之速度优化 -- Memcache
  14. 极客大学架构师训练营 框架开发 模式与重构 JUnit、Spring、Hive核心源码解析 第6课 听课总结
  15. win7开机密码_win7忘记开机密码怎样才能打开电脑?别再用那些错误的方法了
  16. win7虚拟机详细搭建过程
  17. Unity TimeLine学习笔记
  18. namesilo域名注册教程
  19. Anaconda3 安装失败 failed to create menus
  20. Vue实现前端3D展示及node环境搭建

热门文章

  1. Facebook AI新架构:全景FPN,同时完成图像实例与语义分割 | 极客头条
  2. AI一分钟 | 娃哈哈要造智能汽车?世界顶级机器学习科学家黄恒加盟京东
  3. 中国首场AI芯片产业峰会成功举办 GTIC 2018热度空前
  4. DeepMind科学家:AI对战《星际争霸》胜算几何?
  5. 不服来战!多伦多大学教授500美元挑战整个机器学习圈子
  6. Redis 缓存击穿(失效)、缓存穿透、缓存雪崩怎么解决?
  7. SpringBoot + Mybatis + Druid + PageHelper 实现多数据源并分页
  8. Apache架构师的30条设计原则!
  9. Docker官方文档翻译2
  10. 线性矩阵不等式LMI的运用与Lipschitz非线性系统观测器的设计