摘要:本文解读了《TransFG: A Transformer Architecture for Fine-grained Recognition》,该论文针对细粒度分类任务,提出了对应的TransFG。

本文分享自华为云社区《论文解读系列二十:用于细粒度分类的Transformer结构—TransFG》,作者: BigDragon 。

论文地址:https://arxiv.org/abs/2103.07976

GitHub地址:https://github.com/TACJu/TransFG

近来,细粒度分类研究工作主要集中在如何定位差异性图片区域,以此提高网络捕捉微小差异的能力,而大部分工作主要通过使用不同的基模型来提取特定区域的特征,但这种方式会使流程复杂化,并从特定区域提取出大量冗余特征。因此,本文将所有原始注意力权重整合至注意力映射中,以此来指导模型高效地选取差异性图片区域,提出用于细粒度分类的Transformer结构TransFG。

图1 TransFG 结构

1 问题定义

细粒度分类任务主要以定位方法及特征编码方法为主,定位方法主要通过定位差异性局部区域来进行分类,而特征编码方法通过高维信息或寻找差异对之间关系来学习更多信息。TransFG通过整合注意力权重,计算区域的对比损失,来定位差异性局部区域,以此进行细粒度分类。

2 TransFG

2.1 图像序列化

原有Vision Transformer将图片分割为相互不重叠的patch,但这会损害局部相邻结构,可能会导致差异性图像区域被分离。因此,为解决这个问题,本文采用滑动窗口产生重叠patch,所产生的patch数量N根据公式(1)进行计算。其中,H、W分别为图像长宽,P为图像patch尺寸,S为滑动窗口步长。

2.2 Patch Embedding 和 Transformer Encoder

TransFG在Patch Embedding 和 Transformer Encoder两个模块遵循了原有ViT的形式,并未进行改动

2.3 局部选取模块(PSM)

图2 TransFG的注意力映射及所选取的token

首先假设模型中具有K个自注意首部,各层注意力权重如公式(2)所示,其中al指第l层K个首部注意力权重。

如公式(3)所示,将所有层的注意力权重进行矩阵相乘,afinal 捕捉了图像信息从输入到更深层的整个过程,相对于原有ViT,包含了更多信息,更加有助于选取具有识别性的区域

选取afinal中K个不同注意力首部的最大值A1、A2、…、AK,并将其与分类token进行拼接,其结果如公式(4)所示。该步骤不仅保留了全局信息,也让模型更加关注与不同类别之间的微小差异。

2.4 对比损失

如公式(5)所示,对比损失的目标是最小化不同类别对应的分类tokens的相似度,并最大化相同类别对应的分类tokens的相似度。其中,为减少loss被简单负样本影响,采用α来控制对loss有贡献的负样本对。

3 实验结果

TranFG在CUB-200-2011、Stanford Cars、Stanford Dogs、NABirds及iNat2017五个数据集进行了验证,并在CUB-200-2011、Standford Dogs、NABirds数据集上取得了SOTA结果。

4. 总结

  • 在图像序列化部分,相对于采用非重叠的patch分割方法,采用重叠方法的精度提高了0.2%
  • PSM整合所有注意力权重,保留全局信息,让模型更加关注于不同类别的微小差别,让模型精度提高了0.7%。
  • 采用对比损失函数,能减少不同类别的相似度,提高相同类别的相似度,让模型精度提高了0.4%-0.5%。

参考文献

[1] He, Ju, et al. "TransFG: A Transformer Architecture for Fine-grained Recognition." arXiv preprint arXiv:2103.07976 (2021).

想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习

点击关注,第一时间了解华为云新鲜技术~

带你读AI论文丨用于细粒度分类的Transformer结构—TransFG相关推荐

  1. 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU

    摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...

  2. 带你读AI论文丨ACGAN-动漫头像生成

    摘要:ACGAN-动漫头像生成是一个十分优秀的开源项目. 本文分享自华为云社区<[云驻共创]AI论文精读会:ACGAN-动漫头像生成>,作者:SpiderMan. 1.论文及算法介绍 1. ...

  3. 带你读AI论文丨SP21 Survivalism: Living-Off-The-Land 经典离地攻击

    摘要:这篇文章属于系统分析类的文章,通过详细的实验分析了离地攻击(Living-Off-The-Land)的威胁性和流行度,包括APT攻击中的利用及示例代码论证. 本文分享自华为云社区<[论文阅 ...

  4. 带你读AI论文丨RAID2020 Cyber Threat Intelligence Modeling GCN

    摘要:本文提出了基于异构信息网络(HIN, Heterogeneous Information Network)的网络威胁情报框架--HINTI,旨在建模异构IOCs之间的相互依赖关系,以量化其相关性 ...

  5. 带你读AI论文丨LaneNet基于实体分割的端到端车道线检测

    摘要:LaneNet是一种端到端的车道线检测方法,包含 LanNet + H-Net 两个网络模型. 本文分享自华为云社区<[论文解读]LaneNet基于实体分割的端到端车道线检测>,作者 ...

  6. 带你读AI论文:基于Transformer的直线段检测

    摘要:本文提出了一种基于Transformer的端到端的线段检测模型.采用多尺度的Encoder/Decoder算法,可以得到比较准确的线端点坐标.作者直接用预测的线段端点和Ground truth的 ...

  7. 带你读AI论文:SDMG-R结构化提取—无限版式小票场景应用

    摘要:在文档图像中提取关键信息在自动化办公应用中至关重要.传统基于模板匹配或者规则的方法,在通用性方面.未见过版式模板数据方面,效果都不好:为此,本文提出了一种端到端的空间多模态图推理模型(SDMG- ...

  8. 带你读AI论文:NDSS2020 UNICORN: Runtime Provenance-Based Detector

    摘要:这篇文章将详细介绍NDSS2020的<UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats& ...

  9. 2016 NIPS众神降临,苹果破天荒要对外发布AI论文丨AI科技评论周刊

    2016 NIPS 如火如荼进行了近一周时间,各位大佬也频繁在会场露面,并时不时搞个"大新闻".雷锋网(公众号:雷锋网)时刻关注着 NIPS 的一切动态,并把大家较为关注的论文以及 ...

最新文章

  1. Mybatis基础知识点:trim标签的使用
  2. 如何在防火墙或路由器中禁止访问一些公司不相关网站
  3. LeetCode 题 - 58. 最后一个单词的长度 python解答
  4. Shell命令-文件及内容处理之grep(egrep)、join
  5. 35岁的测试是测试的天花板吗?
  6. 4a怎么打开sqlserver_百元级别荣耀路由X3和小米路由4A,哪款真的香?
  7. linux分区挂载点在哪个文件,挂载的信息是存放在哪个文件中?
  8. PNP NPN 三线制接近开关接线
  9. 《Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension》--论文分享
  10. 中职高二学生计算机学情分析,高二学生学习数学的学情分析.doc
  11. 第十七届全国大学生智能汽车竞赛讯飞-家庭服务机器人挑战赛全国总决赛规则
  12. 手机耳塞 录音同时外放_如何将Android手机切换为“单声道”(这样就可以戴一副耳塞)
  13. 高等数学笔记:极限的性质总结
  14. excel表格多行空白,让空白行临近上方的数据自动填充到空白行
  15. 数据库重组函数reorg
  16. Java小白的数据库爱情(四)Oracle DDL、DML使用
  17. python 操作 csv 编码问题,繁体字体乱码
  18. 信息技术设备的安全(GB 4943-2001)
  19. Unity 手机摇晃检测
  20. WordPress限制登录次数防破解插件Limit Login Attempts Reloaded

热门文章

  1. 神奇 | 神奇,原来 Linux 终端下还有这两种下载文件方式
  2. CSS 文本方向 direction属性
  3. SLAM Cartographer(14)Global SLAM的主线业务
  4. 在ROS-melodic中安装map_server、gmapping 等功能包
  5. html label标签 ie6,IE6 IE7 IE8三大浏览器的CSS兼容速查表
  6. antd vue关闭模态对话框_如何在Bootstrap项目中用Vue.js替代jQuery
  7. lasso模型交替方向matlab_TCGA系列学习笔记(7)建模及模型评价
  8. PHP中如何判断属性类型,php – 如何获取doctrine实体属性的类型
  9. mysql数据库原理与应用武洪萍第三张答案_mysql数据库武洪萍版第四章习题与答案...
  10. html字体代码大全_HTML基础笔记(一)