1 自监督

1.1 MAE

模型简介：

Masked Autoencoders Are Scalable Vision Learners

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单：对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计：我们设计了一种非对称编解码架构，其中编码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度。

论文链接：https://arxiv.org/abs/2111.06377

源码链接：GitHub - pengzhiliang/MAE-pytorch: Unofficial PyTorch implementation of Masked Autoencoders Are Scalable Vision Learners

1.2 iBOT

模型简介：

iBOT: Image BERT Pre-Training with Online Tokenizer,字节跳动、约翰霍普金斯大学等机构组成的联合团队提出iBOT十几类任务和数据集上刷新了 SOTA 结果，在一些指标上甚至超过了 MAE。

论文链接：https://arxiv.org/abs/2111.07832

1.3 RELICv2

模型简介：

RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率，而更大的ResNet模型则带来了80.6%的top-1准确率，以较大的优势超越了此前的自监督方法;RELICv2优于DINO和MoCo v3，并在参数数量相当的情况下表现出与EsViT类似的性能，尽管这些方法用了更强大的架构和更多的训练。

论文链接：https://arxiv.org/abs/2201.05119

1.4 data2vec

模型简介：

data2vec 是首个适用于多个模态输入的高性能自监督算法。Meta AI 将 data2vec 分别应用于语音、图像和文本，在计算机视觉、语音任务上优于最佳单一用途算法，并且在 NLP 任务也能取得具有竞争力的结果。此外，data2vec 还代表了一种新的、全面的自监督学习范式，其提高了多种模态的进步，而不仅仅是一种模态

论文链接： https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

源码链接： https://github.com/pytorch/fairseq/tree/main/examples/data2vec

2 图像、视频、检测

2.1 ConvNext

模型简介：

当应用于广义CV任务(如目标检测、语义分割)时，常规的ViT面临着极大挑战。因此，分层Transformer(如Swin Transformer)重新引入了ConvNet先验信息，使得Transformer成实际可行的骨干网络并在不同视觉任务上取得了非凡的性能。完全标准ConvNet模块构建的ConvNeXt取得了优于Transformer的精度87.8%，在COCO检测与ADE20K分割任务上超越了SwinTransformer，同时保持了ConvNet的简单性与高效性。

论文链接：https://arxiv.org/pdf/2201.03545.pdf

源码链接： https://github.com/facebookresearch/ConvNeXt

2.2 UniFormer

模型简介：

基于UniFormer模块，我们构建了一种新强力骨干并用于不同的视觉任务，包含图像与视频，分类与稠密预测。无需额外你训练数据，UniFormer在ImageNet数据及上取得了86.3%的精度；仅需ImageNet-1K预训练，它在诸多下游任务上取得了SOTA性能，比如Kinetics-400/600数据集上的82.9%/84.8%、Something-Something V1/V2数据集上的60.9%/71.2%、COCO检测任务上的53.8boxAP与46.4MaskAP、ADE20K分割任务上的50.8mIoU、COCO姿态估计上的77.4AP

论文链接：https://arxiv.org/abs/2201.09450

源码链接：https://github.com/Sense-X/UniFormer

3 多模态

3.1 NÜWA

模型简介：

微软亚洲研究院、北京大学强强联合提出了一个可以同时覆盖语言、图像和视频的统一多模态预训练模型——NÜWA（女娲），直接包揽8项SOTA

论文链接：https://arxiv.org/abs/2111.12417

源码链接：https://github.com/microsoft/NUWA

3.2 Florence

模型简介：

微软正式发布了一个新的计算机视觉基础模型Florence（佛罗伦萨），要用一个模型一统多模态天下！Florence可以轻松适用于各种计算机视觉任务，如分类、目标检测、VQA、看图说话、视频检索和动作识别，并在超过40个基准中刷新了SOTA。

论文链接：https://arxiv.org/pdf/2103.00020.pdf

源码链接

3.3 Omnivore

模型简介：

Omnivore在图像分类数据集ImageNet上能达到86.0%的精度，在用于动作识别的Kinetics数据集上能达84.1%，在用于单视图3D场景分类的SUN RGB-D也获得了67.1%。Omnivore在图像、视频和3D数据分类任务上超越当前SOTA模型

论文链接：https://arxiv.org/abs/2201.08377

源码链接：GitHub - facebookresearch/omnivore: Omnivore: A Single Model for Many Visual Modalities

4 超分

4.1 AutoML

模型简介：

东北大学王言治团队将网络结构搜索与剪枝搜索相结合了全新的自动搜索框架。该AutoML框架得到的稀疏模型能够在移动设备上实时且高质量地处理视频超分辨率任务，最高可以将超清视频渲染加速70倍。

论文链接：https://arxiv.org/pdf/2108.08910.pdf

源码链接：演示视频 CoCoPIE vs TF-Lite - 移动设备实时视频超分辨率_哔哩哔哩_bilibili

5 检测

5.1 Dynamic Head

模型简介：

本文提出一种新颖的动态头框架，它采用注意力机制将不同目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知，空间位置之间的注意力机制用于空间感知，输出通道内的注意力机制用于任务感知，该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。

论文链接：https://arxiv.org/abs/2106.08322

源码链接：GitHub - microsoft/DynamicHead

6 自注意力

6.1 HaloNet

模型简介：

来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型，该模型不仅可以超越标准的基线模型，而且可以超越高性能的卷积模型。提出了自注意力的两个扩展，并与自注意力的更高效实现相结合，提高了这些模型的运行速度、内存使用率和准确率。研究者利用这些改进开发了一种新的自注意力模型——HaloNet，并且在 ImageNet 分类基准的有限参数设置上准确率实现了新 SOTA。

论文链接：https://arxiv.org/abs/2103.12731

7 NLP 超大规模模型

7.1 ERNIE 3.0

模型简介：

百度 ERNIE 升级到 3.0，重磅发布知识增强的百亿参数大模型。该模型除了从海量文本数据中学习词汇、结构、语义等知识外，还从大规模知识图谱中学习。

ERNIE 3.0 一举刷新 54 个中文 NLP 任务基准，其英文模型在国际权威的复杂语言理解任务评测 SuperGLUE 上，以超越人类水平 0.8 个百分点的成绩登顶全球榜首。ERNIE 3.0 同时具备超强语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力。

论文链接：https://arxiv.org/pdf/2107.02137.pdf

源码链接：Demo 链接：文心大模型-产业级知识增强大模型

7.2 MT-NLG

模型简介：

微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

论文链接：https://arxiv.org/pdf/2109.01652.pdf

8 超大规模表格文本

8.1 SDCUP

模型简介：

研究者所在的达摩院 Conversational AI 团队发布了中文首个表格预训练模型 SDCUP，同时也是业界最大表格预训练模型（72 层 Transformer，10 亿参数），在 WikiSQL、SQuALL 等多个学界 Benchmark 均取得 SOTA 效果。

源码链接：https://github.com/alibaba/AliceMind

9 ViT

9.1 ViT 综述

模型简介：

中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务（分类、检测和分割）的一百多种不同的视觉 Transformer，最新模型截止至今年8月！同时，综述还包括了大量的实证分析、性能改进分析，并披露了三个具有广阔前景的未来研究方向！

论文链接: https://arxiv.org/abs/2111.06091

2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理相关推荐

Bioinformatics | 预测药物-药物相互作用的多模态深度学习框架
今天给大家介绍来自华中农业大学信息学院章文教授课题组在Bioinformatics上发表的一篇关于预测药物与药物相互作用事件的文章.作者提出了一个多模态深度学习框架- DDIMDL.它将不同的药物特征 ...
多模态深度学习综述：网络结构设计和模态融合方法汇总
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨小奚每天都要学习@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p ...
多模态深度学习综述总结与目标检测多模态融合领域论文推荐
文章目录一.多模态学习定义及应用二.模态表示 2.1 单模态表示 2.1.1 语句模态表示 2.1.2 视觉模态表示 2.1.3 声音模态表示(略) 2.2 多模态表示 2.2.1 模态共作用语义 ...
生物信息学|用于预测药物-药物相互作用事件的多模态深度学习框架
本篇推文引自:A multimodal deep learning framework for predicting drug–drug interaction events 1. 摘要动机 ...
什么是多模态深度学习？有哪些应用场景？
深度多模态学习能够更全面地理解数据,在准确性和效率上均有大幅提升.但首先,什么是多模态深度学习?它有哪些应用场景?本文将从定义.应用与前景三个角度来回答这两个问题. 随着深度神经网络的发展,深度学习也 ...
基于可解释多模态深度学习的泛癌症整合组织-基因组分析
目录从一篇文章入手(基于多模态深度学习的泛癌症整合组织-基因组分析) Post hoc Explainability Local explanations. V.s. Global Ex ...
多模态深度学习：用深度学习的方式融合各种信息
点击上方"视学算法",关注公众号,选择加"星标"或"置顶" 作者:Purvanshi Mehta 编译:ronghuaiyang 导读使用 ...
综述：NLP中的深度学习优势
[简介]自然语言处理(NLP)能够帮助智能型机器更好地理解人类的语言,实现基于语言的人机交流.目前随着计算能力的发展和大量语言数据的出现,推动了使用数据驱动方法自动进行语义分析的需求.由于深度学习方法 ...
fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择作者：机器人圈 / 微信号：ROBO_AI发表时间：2017-07-28 图：pixabay
fastText.TextCNN.TextRNN--这里有一套NLP文本分类深度学习方法库供你选择「机器人圈」编译:嗯~阿童木呀.多啦A亮这个库的目的是探索用深度学习进行NLP文本分类的方法. 它 ...

2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理

1 自监督

1.1 MAE

1.2 iBOT

1.3 RELICv2

1.4 data2vec

2 图像、视频、检测

2.1 ConvNext

2.2 UniFormer

3 多模态

3.1 NÜWA

3.2 Florence

3.3 Omnivore

4 超分

4.1 AutoML

5 检测

5.1 Dynamic Head

6 自注意力

6.1 HaloNet

7 NLP 超大规模模型

7.1 ERNIE 3.0

7.2 MT-NLG

8 超大规模表格文本

8.1 SDCUP

9 ViT

9.1 ViT 综述

2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理相关推荐

最新文章

热门文章

2021 CV NLP CTR 多模态深度学习 超越SOTA新模型整理

1 自监督

1.1 MAE

1.2 iBOT

1.3 RELICv2

1.4 data2vec

2 图像、视频、检测

2.1 ConvNext

2.2 UniFormer

3 多模态

3.1 NÜWA

3.2 Florence

3.3 Omnivore

4 超分

4.1 AutoML

5 检测

5.1 Dynamic Head

6 自注意力

6.1 HaloNet

7 NLP 超大规模模型

7.1 ERNIE 3.0

7.2 MT-NLG

8 超大规模表格文本

8.1 SDCUP

9 ViT

9.1 ViT 综述

2021 CV NLP CTR 多模态深度学习 超越SOTA新模型整理相关推荐

最新文章

热门文章

2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理

2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理相关推荐