2021 CV NLP CTR 多模态深度学习 超越SOTA新模型整理
1 自监督
1.1 MAE
模型简介:
Masked Autoencoders Are Scalable Vision Learners
恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单:对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计:我们设计了一种非对称编解码架构,其中编码器仅作用于可见块(无需mask信息),而解码器则通过隐表达与mask信息进行原始图像重建;我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。仅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度。
论文链接:https://arxiv.org/abs/2111.06377
源码链接:GitHub - pengzhiliang/MAE-pytorch: Unofficial PyTorch implementation of Masked Autoencoders Are Scalable Vision Learners
1.2 iBOT
模型简介:
iBOT: Image BERT Pre-Training with Online Tokenizer,字节跳动、约翰霍普金斯大学等机构组成的联合团队提出iBOT十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。
论文链接:https://arxiv.org/abs/2111.07832
1.3 RELICv2
模型简介:
RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率,而更大的ResNet模型则带来了80.6%的top-1准确率,以较大的优势超越了此前的自监督方法;RELICv2优于DINO和MoCo v3,并在参数数量相当的情况下表现出与EsViT类似的性能,尽管这些方法用了更强大的架构和更多的训练。
论文链接:https://arxiv.org/abs/2201.05119
1.4 data2vec
模型简介:
data2vec 是首个适用于多个模态输入的高性能自监督算法。Meta AI 将 data2vec 分别应用于语音、图像和文本,在计算机视觉、语音任务上优于最佳单一用途算法,并且在 NLP 任务也能取得具有竞争力的结果。此外,data2vec 还代表了一种新的、全面的自监督学习范式,其提高了多种模态的进步,而不仅仅是一种模态
论文链接: https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
源码链接: https://github.com/pytorch/fairseq/tree/main/examples/data2vec
2 图像、视频、检测
2.1 ConvNext
模型简介:
当应用于广义CV任务(如目标检测、语义分割)时,常规的ViT面临着极大挑战。因此,分层Transformer(如Swin Transformer)重新引入了ConvNet先验信息,使得Transformer成实际可行的骨干网络并在不同视觉任务上取得了非凡的性能。完全标准ConvNet模块构建的ConvNeXt取得了优于Transformer的精度87.8%,在COCO检测与ADE20K分割任务上超越了SwinTransformer,同时保持了ConvNet的简单性与高效性。
论文链接:https://arxiv.org/pdf/2201.03545.pdf
源码链接: https://github.com/facebookresearch/ConvNeXt
2.2 UniFormer
模型简介:
基于UniFormer模块,我们构建了一种新强力骨干并用于不同的视觉任务,包含图像与视频,分类与稠密预测。无需额外你训练数据,UniFormer在ImageNet数据及上取得了86.3%的精度;仅需ImageNet-1K预训练,它在诸多下游任务上取得了SOTA性能,比如Kinetics-400/600数据集上的82.9%/84.8%、Something-Something V1/V2数据集上的60.9%/71.2%、COCO检测任务上的53.8boxAP与46.4MaskAP、ADE20K分割任务上的50.8mIoU、COCO姿态估计上的77.4AP
论文链接:https://arxiv.org/abs/2201.09450
源码链接:https://github.com/Sense-X/UniFormer
3 多模态
3.1 NÜWA
模型简介:
微软亚洲研究院、北京大学强强联合提出了一个可以同时覆盖语言、图像和视频的统一多模态预训练模型——NÜWA(女娲),直接包揽8项SOTA
论文链接:https://arxiv.org/abs/2111.12417
源码链接:https://github.com/microsoft/NUWA
3.2 Florence
模型简介:
微软正式发布了一个新的计算机视觉基础模型Florence(佛罗伦萨),要用一个模型一统多模态天下!Florence可以轻松适用于各种计算机视觉任务,如分类、目标检测、VQA、看图说话、视频检索和动作识别,并在超过40个基准中刷新了SOTA。
论文链接:https://arxiv.org/pdf/2103.00020.pdf
源码链接
3.3 Omnivore
模型简介:
Omnivore在图像分类数据集ImageNet上能达到86.0%的精度,在用于动作识别的Kinetics数据集上能达84.1%,在用于单视图3D场景分类的SUN RGB-D也获得了67.1%。Omnivore在图像、视频和3D数据分类任务上超越当前SOTA模型
论文链接:https://arxiv.org/abs/2201.08377
源码链接:GitHub - facebookresearch/omnivore: Omnivore: A Single Model for Many Visual Modalities
4 超分
4.1 AutoML
模型简介:
东北大学王言治团队将网络结构搜索与剪枝搜索相结合了全新的自动搜索框架。该AutoML框架得到的稀疏模型能够在移动设备上实时且高质量地处理视频超分辨率任务,最高可以将超清视频渲染加速70倍。
论文链接:https://arxiv.org/pdf/2108.08910.pdf
源码链接:演示视频 CoCoPIE vs TF-Lite - 移动设备实时视频超分辨率_哔哩哔哩_bilibili
5 检测
5.1 Dynamic Head
模型简介:
本文提出一种新颖的动态头框架,它采用注意力机制将不同目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知,空间位置之间的注意力机制用于空间感知,输出通道内的注意力机制用于任务感知,该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。
论文链接:https://arxiv.org/abs/2106.08322
源码链接:GitHub - microsoft/DynamicHead
6 自注意力
6.1 HaloNet
模型简介:
来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型不仅可以超越标准的基线模型,而且可以超越高性能的卷积模型。提出了自注意力的两个扩展,并与自注意力的更高效实现相结合,提高了这些模型的运行速度、内存使用率和准确率。研究者利用这些改进开发了一种新的自注意力模型——HaloNet,并且在 ImageNet 分类基准的有限参数设置上准确率实现了新 SOTA。
论文链接:https://arxiv.org/abs/2103.12731
7 NLP 超大规模模型
7.1 ERNIE 3.0
模型简介:
百度 ERNIE 升级到 3.0,重磅发布知识增强的百亿参数大模型。该模型除了从海量文本数据中学习词汇、结构、语义等知识外,还从大规模知识图谱中学习。
ERNIE 3.0 一举刷新 54 个中文 NLP 任务基准,其英文模型在国际权威的复杂语言理解任务评测 SuperGLUE 上,以超越人类水平 0.8 个百分点的成绩登顶全球榜首。ERNIE 3.0 同时具备超强语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力。
论文链接:https://arxiv.org/pdf/2107.02137.pdf
源码链接:Demo 链接:文心大模型-产业级知识增强大模型
7.2 MT-NLG
模型简介:
微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。
号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。
论文链接:https://arxiv.org/pdf/2109.01652.pdf
8 超大规模表格文本
8.1 SDCUP
模型简介:
研究者所在的达摩院 Conversational AI 团队发布了中文首个表格预训练模型 SDCUP,同时也是业界最大表格预训练模型(72 层 Transformer,10 亿参数),在 WikiSQL、SQuALL 等多个学界 Benchmark 均取得 SOTA 效果。
源码链接:https://github.com/alibaba/AliceMind
9 ViT
9.1 ViT 综述
模型简介:
中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务(分类、检测和分割)的一百多种不同的视觉 Transformer,最新模型截止至今年8月!同时,综述还包括了大量的实证分析、性能改进分析,并披露了三个具有广阔前景的未来研究方向!
论文链接: https://arxiv.org/abs/2111.06091
2021 CV NLP CTR 多模态深度学习 超越SOTA新模型整理相关推荐
- Bioinformatics | 预测药物-药物相互作用的多模态深度学习框架
今天给大家介绍来自华中农业大学信息学院章文教授课题组在Bioinformatics上发表的一篇关于预测药物与药物相互作用事件的文章.作者提出了一个多模态深度学习框架- DDIMDL.它将不同的药物特征 ...
- 多模态深度学习综述:网络结构设计和模态融合方法汇总
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨小奚每天都要学习@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p ...
- 多模态深度学习综述总结 与 目标检测多模态融合领域论文推荐
文章目录 一.多模态学习定义及应用 二.模态表示 2.1 单模态表示 2.1.1 语句模态表示 2.1.2 视觉模态表示 2.1.3 声音模态表示(略) 2.2 多模态表示 2.2.1 模态共作用语义 ...
- 生物信息学|用于预测药物-药物相互作用事件的多模态深度学习框架
本篇推文引自:A multimodal deep learning framework for predicting drug–drug interaction events 1. 摘要 动机 ...
- 什么是多模态深度学习?有哪些应用场景?
深度多模态学习能够更全面地理解数据,在准确性和效率上均有大幅提升.但首先,什么是多模态深度学习?它有哪些应用场景?本文将从定义.应用与前景三个角度来回答这两个问题. 随着深度神经网络的发展,深度学习也 ...
- 基于可解释多模态深度学习的泛癌症整合组织-基因组分析
目录 从一篇文章入手(基于多模态深度学习的泛癌症整合组织-基因组分析) Post hoc Explainability Local explanations. V.s. Global Ex ...
- 多模态深度学习:用深度学习的方式融合各种信息
点击上方"视学算法",关注公众号,选择加"星标"或"置顶" 作者:Purvanshi Mehta 编译:ronghuaiyang 导读 使用 ...
- 综述:NLP中的深度学习优势
[简介]自然语言处理(NLP)能够帮助智能型机器更好地理解人类的语言,实现基于语言的人机交流.目前随着计算能力的发展和大量语言数据的出现,推动了使用数据驱动方法自动进行语义分析的需求.由于深度学习方法 ...
- fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择 作者:机器人圈 / 微信号:ROBO_AI发表时间 :2017-07-28 图:pixabay
fastText.TextCNN.TextRNN--这里有一套NLP文本分类深度学习方法库供你选择 「机器人圈」编译:嗯~阿童木呀.多啦A亮 这个库的目的是探索用深度学习进行NLP文本分类的方法. 它 ...
最新文章
- java中decimalFormat格式化数值
- 干货|pytorch必须掌握的的4种学习率衰减策略
- 想改善风险管理工作吗?做些基础性工作吧
- 2021年春季学期-信号与系统-第十三次作业参考答案-第八小题
- ThinkPHP U方法
- jQuery Ajax详解
- java非递归方式实现快速排序
- 浅谈WebGIS开放数据(矢量数据)
- zip 密码算法 java,java zip 密码
- Java序列化接口Serializable接口的作用总结
- 此文胜过你听三年的培训课
- java多个页面爬取_java爬取html页面(简易通用版)
- python-循环-通过while循环完成一个电子钟的模拟
- Linux获得命令帮助(学习笔记五)
- 非期望产出的sbm模型_投入产出模型在评价中应用的局限性
- 第13章 使用ADO.NET访问数据库
- Docker学习总结(59)——DockerFIile相关知识点再总结
- “春风又绿江南岸”真正的关键是什么?
- 专升本C语言知识点笔记
- 实变函数与泛函分析课本pdf_免费推荐几本实变函数和泛函分析的书