文章目录

  • 1. TNT
  • 3. 损失函数
  • 4. beamsearch
  • 5. trick
    • 5.4 trick4
    • 5.5 trick5
    • 5.6 trick6
    • 5.7 trick7
  • 6. 比赛结果

1. TNT

Vit只关注了patch级别的信息,忽略了patch 内部的像素级别的局部信息


patch可以理解为将图像改为一个一个的grid,然后在每个grid中有很多像素点。

第一层的in transformer将像素通过上面的w和b线性融合到patch中,实现第一层的transformer
vit是直接将patch Z加入到transformer,所以上面的将像素融合到patch,然后将patch再加入到transformer中
可以看到TNT模块那里,就是进行不断的叠加,不断的迭代。
对于图像,也需要加入位置的编码信息,在patch级别和pixel级别分别要进行位置的编码


对于一个3X3像素的patch而言,每个patch有个位置编码I ,II。然后每个patch的像素级别的编码一共是有3X3=9个,注意的是,每个patch的像素位置编码是共享的,都是1~9,即patch中像素m^2。

所以总体的框架流程如上图所示:图像分为patch,每一个patch生成的向量放入到TNT block中,嵌套L层,最后输出分类的结果。最前面加了一个class token,同patch生成的向量一块放入到TNT block中,就是用来分类用的。将输出加一个全连接层,达到分类的效果。全连接层就是将向量映射到标签空间上,实现分类的效果

总体的框架就是通过TNT对图像进行编码,然后通过transformer进行解码。

可以看到进行了pixel和patch的位置编码是可以提升准确率的

3. 损失函数

focal loss可以解决样本分布不均衡的问题
anti focal loss是和focal相反的,但是在seq2seq上效果会更好

4. beamsearch


在进行预测的时候实际上就是通过上N个的输入,预测一个输出
本质上是找到一个序列,是这个序列的概率最大,实现的过程就是每次找到下一个的最大的概率,然后将一个一个的串在一起,就相当于最大概率的输出序列
beamsearch本质上是找一个序列,就是这个序列存在的概率是最大的,是在寻找的过程中,一次性走两步 ,而非上面的每次只找一个,走一步的方式。
如图所示,可以一次性走1,5,10,50,100步,随着步数的增加,最有可能找到全局的最优解。

5. trick


data-leak数据泄漏,或者说就是个小的bug,针对这个bug没准训练的效果会更好。
seq长度就是label长度,长度实际上是跟分辨率挂钩的,比较长的序列上,分辨率大一些比较好,因为有很多噪声点,也容易学进去,

5.4 trick4

上面的后处理程序的核心思想就是将你的inchi的转成化学式,然后通过三方接口将化学式再转成标准的inchi格式,然后和你的inchi进行对比校验,如果是一样的说明表达式没有问题

5.5 trick5

测试集是没有标签的,可以通过我们已经预测的结果对测试集进行打伪标签,然后进行喂给模型进行微调fine-tuning
存在的问题就是可能过拟合

5.6 trick6

标签平滑

5.7 trick7

进行norm,提分0.1左右
参考:Normalize your predictions

from tqdm import tqdm
from rdkit import Chem
from rdkit import RDLogger
RDLogger.DisableLog('rdApp.*')
from pathlib import Pathdef normalize_inchi(inchi):try:mol = Chem.MolFromInchi(inchi)return inchi if (mol is None) else Chem.MolToInchi(mol)except: return inchi# Segfault in rdkit taken care of, run it with:
# while [ 1 ]; do python normalize_inchis.py && break; done
if __name__=='__main__':# Input & Outputorig_path = Path('submission.csv')norm_path = orig_path.with_name(orig_path.stem+'_norm.csv')# Do the jobN = norm_path.read_text().count('\n') if norm_path.exists() else 0print(N, 'number of predictions already normalized')r = open(str(orig_path), 'r')w = open(str(norm_path), 'a', buffering=1)for _ in range(N):r.readline()line = r.readline()  # this line is the header or is where it segfaulted last timew.write(line)for line in tqdm(r):splits = line[:-1].split(',')image_id = splits[0]inchi = ','.join(splits[1:]).replace('"','')inchi_norm = normalize_inchi(inchi)w.write(f'{image_id},"{inchi_norm}"\n')r.close()w.close()

How much difference it made (optional)

import pandas as pd
import edlib
from tqdm import tqdmsub_df = pd.read_csv('submission.csv')
sub_norm_df = pd.read_csv('submission_norm.csv')lev = 0
N = len(sub_df)
for i in tqdm(range(N)):inchi, inchi_norm = sub_df.iloc[i,1], sub_norm_df.iloc[i,1]lev += edlib.align(inchi, inchi_norm)['editDistance']print(lev/N)

6. 比赛结果

TNT : transformer in transformer相关推荐

  1. 【Transformer】TNT: Transformer iN Transformer

    文章目录 一.背景 二.动机 三.方法 3.1 Transformer in Transformer 3.2 Network Architecture 四.效果 五.代码 论文链接:https://a ...

  2. TNT:Transformer in transformer论文精读

    论文地址:https://arxiv.org/abs/2103.00112 源码地址:GitHub - huawei-noah/Efficient-AI-Backbones: Efficient AI ...

  3. LIVE 预告 | 华为诺亚韩凯:Transformer in Transformer

    近期,华为诺亚方舟实验室的研究者提出了一种新型视觉Transformer网络架构,Transformer in Transformer,性能表现优于谷歌的 ViT 和 Facebook 的DeiT.该 ...

  4. 【读点论文】Transformer in Transformer 细化图片结构,递归使用transformer。让图片去拟合自然语言处理的操作。

    Transformer in Transformer Abstract Transformer是一种新的神经架构,它通过注意机制将输入数据编码为强大的特征.基本上,视觉transformer首先将输入 ...

  5. 从self-attention到transformer之transformer

    从self-attention到transformer之transformer 在看这篇笔记之前你最好确保自己了解了self-attention的内容,这里附上关于self-attention的笔记连 ...

  6. DL之Transformer:Transformer的简介(优缺点/架构详解,基于Transformer的系列架构对比分析)、使用方法(NLP领域/CV领域)、案例应用之详细攻略

    DL之Transformer:Transformer的简介(优缺点/架构详解,基于Transformer的系列架构对比分析).使用方法(NLP领域/CV领域).案例应用之详细攻略 目录 Transfo ...

  7. 【Transformer】Transformer 中的位置编码 -- ICLR 2021

    引言 Transformer是近年来非常流行的处理序列到序列问题的架构,其self-attention机制允许了长距离的词直接联系,可以使模型更容易学习序列的长距离依赖.由于其优良的可并行性以及可观的 ...

  8. 【Transformer】Transformer理论知识

    Transformer目录 Transformer介绍 Seq2seq结构 Encoder结构 Decoder结构 Autoregressive Decoder(AT): Encoder和Decode ...

  9. arXiv 2021《Transformer in Transformer》论文笔记

    目录 简介 动机 方法 实验 简介 本文出自华为诺亚方舟,作者是韩凯. 文章链接 动机 本文动机是,在ViT基础上,编码patch内的pixel之间的结构信息. 方法 使用两个transformer, ...

最新文章

  1. CSS3 稳固而知新: 居中
  2. python中的多继承
  3. linux下安装DB2的详细步骤
  4. 2018.9.15,Arduino—流水灯实验报告
  5. minetest Window编译运行
  6. ModuleNotFoundError: No module named ‘pip‘
  7. hdu 3746 kmp的next数组理解
  8. linux中编辑pdf文件,Linux下PDF批注编辑软件Xournal
  9. pix4d计算机配置速度,实测大疆智图(DJI Terra)与Pix4D,Smart3D正射三维成果对比...
  10. 为什么要了解和使用拉姆达——走进Java Lambda(〇)
  11. 如何用Python画一只机器猫?
  12. 计算机ms office 基础知识教程,计算机等级考试二级MS-Office基础知识教程.doc
  13. 树莓派连接HC-SR501人体红外感应模块和蜂鸣器模块
  14. URL中文转义和特殊字符处理
  15. 智能家居平台软件测试,智能家居 | 智能家居管理系统测试具体都有哪些流程?...
  16. deepin系统没有声音的解决方法
  17. 黑客社会工程学攻击2 新书来袭
  18. Twemproxy – Twitter 开源的 Redis proxy
  19. 蓝桥杯省赛考试注意事项和省赛资料整理
  20. 翻译图片的软件有哪些?

热门文章

  1. Spring ----AOP
  2. 奇迹私服服务器端npc修改,奇迹教程-奇迹EX802 NPC商店修改教程与NPC编号查询
  3. 桌面图标计算机文字,怎么把电脑界面图标下面的文字给去掉
  4. 【51Nod】1266 蚂蚁
  5. 电子设备辐射EMC整改案例
  6. svg java mxgraph_mxGraph使用经验总结
  7. Go语言:谷歌google的uuid模块的基本用法
  8. Unity3d 鼠标的事件GetMouseButtonDown()、GetMouseButton()、GetMouseButtonUp()
  9. 现代IM系统中的消息系统架构 - 架构篇
  10. c语言枚举enum的使用总结