点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

如何最大限度地提升模型精度

最近,谷歌等机构发现:

性能不好的微调模型先不要扔,求一下平均权重!

就能在不增加推理时间以及内存开销的情况下,提高模型的准确性和鲁棒性。

比如,研究人员就使用该方法创造了ImageNet1K的新纪录:90.94%。

将它扩展到多个图像分类以及自然语言处理任务中,也能提高模型的分布外性能,并改善新下游任务的零样本性能。

而这个方法还有一个有趣的名字,叫Module soup——

是不是让人一下子就让人联想到了斐波那契汤的笑话(昨天的汤+前天的汤=今天的新汤)

 知乎网友@hzwer,已授权

一共三种配方

回想一下在此之前,大家是如何给模型涨点的呢?

是不是先用各种超参数训练出多个微调模型,然后再挑出验证集上表现最好的那一个留下,其余丢掉

由于神经网络是非线性的,在不同的loss basin中可能有许多解,因此Module soup这一采用保留所有微调模型的权重,对其进行平均的方法就可以提高性能,还是让人有点惊讶的。

不过,最近就已有研究发现,从相同的初始化配置中中独立优化的微调模型,位于相同的误差范围内 (lie in the same basin of the error landscape)。

之前也有研究证明,沿单个训练轨迹进行权重平均,可以提高随机初始化训练模型的性能。

作者正是从这些结论中受到启发。

Module soup一共有三种“配方”(实现):统一汤(uniform soup)、贪婪汤(greedy soup)和学习汤(learned soup)。

其中greedy soup是最主要采用的实现,因为它的性能比直接均匀地平均所有权重更高。

具体来说,Greedy soup通过顺序添加每个模型作为“汤”中的潜在成分构建而成,并且只有在保持验证集上的性能有所提高时才将相应模型保留在“汤”中。

排序按验证集精度的降序排列。

性能超越单个最佳微调模型

作者进行了全面的微调实验来确定Module soup的有效性。

首先是微调CLIP和ALIGN,这两个模型在图像-文本对上进行了对比损失预训练。

结果经过module soup操作后,两者在分布内和自然分布转移(distribution shifts)测试集上的表现都比最佳的单个微调模型性能更佳。

 左为CLIP,右为ALIGN

然后是在JFT数据集上预训练的ViT-G模型。

也就是它在ImageNet1K数据集实现了90.94%的精度,打破了此前CoAtNet保持的90.88%,同时在推理阶段还减少了25%的FLOPs。

在图像分类任务以外,作者在NLP领域也对module soup进行了验证。

下表是BERT和T5模型在GLUE benchmark的四个文本分类任务上的结果:

可以发现,虽然改进不如图像分类中的效果明显,但在多数任务下,greedy soup都可以相较最好的单个模型提高性能。

当然,作者也指出,module soup在适用性等方面存在局限,比如现在测试的都是在大型异构数据集上预先训练的模型,在这些模型之外,效果并不是非常明显。

最后,知乎网友@宫酱手艺人表示,其实这样的模型参数平均是一个经典trick,transformer原始论文就用了。

你发现了吗?

论文地址:
https://arxiv.org/abs/2203.0548

知乎@宫酱手艺人、@hzwer回答(已授权):https://www.zhihu.com/question/521497951

点个在看 paper不断!

谷歌创造ImageNet1K新纪录:性能不佳的微调模型不要扔,求一下平均权重就能提升性能...相关推荐

  1. 【深度学习】90.94%准确率!谷歌刷新ImageNet新纪录!Model soups:提高模型的准确性和稳健性...

    丰色 发自 凹非寺 转载自:量子位(QbitAI) 如何最大限度地提升模型精度? 最近,谷歌等机构发现: 性能不好的微调模型先不要扔,求一下平均权重! 就能在不增加推理时间以及内存开销的情况下,提高模 ...

  2. 他们在大学本科实现童年梦想!自研火箭,飞向外太空,创造人类新纪录

    乾明 李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI 这样的童年梦想,你有过吗? 长大,变强变strong,发射火箭,飞跃地平线,探索无人之境. 现在,一群平均20岁的大学本科生,实现了 ...

  3. 谷歌Flan-T5诞生!1800种语言任务超大规模微调

    编辑 | 泽南.小舟 来源 | 机器之心 不增加算力需求,谷歌总结的指令微调方法能让 8000 万到 5400 亿参数的模型都显著提升性能. 人工智能一个重要的目标是开发泛化能力强的模型.在自然语言处 ...

  4. 【历史上的今天】3 月 14 日:微软发布 IE9;黑莓创始人出生;圆周率计算创造新纪录

    整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 3 月 14 日,在 143 年前的今天,1879 年 3 月 14 日,爱因斯坦诞辰.阿尔伯特·爱 ...

  5. 教大模型自己跳过“无用”层,推理速度×3性能不变,谷歌MIT这个新方法火了...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 大语言模型用着 ...

  6. DNA存储技术创造新纪录 存储容量已达200MB

    DNA存储技术是利用人工合成的脱氧核糖核酸(DNA)作为存储介质,具有高效.存储量大.存储时间长等优点.据外媒报道,近日来自微软和华盛顿大学的一组研究人员宣布他们已经在DNA存储技术方面创造新纪录,目 ...

  7. 史上AI最高分!谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类医生...

    杨净 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证! 而且在科学常识.理解.检索和推理能力等任务中,直接与人类医生水平相匹敌.在一些临床 ...

  8. 当谷歌员工来到新公司的那一天,发现原来公司什么都没有

    云栖大会是阿里每年一次的秀肌肉,2020年的云栖大会采用了云上直播,昨天一天把云栖大会的内容整体上算是看了一遍,当然更多是挑着看的,不然太多了.总体的感觉阿里还是国内技术最过硬的公司之一(主要是考虑到 ...

  9. 得分碾压人类的NLP系统诞生了,微软创CoQA挑战新纪录!

    https://www.toutiao.com/a6687418409530950151/ 2019-05-05 13:58:52 智东西5月5日消息,人类在NLP领域的研究已长达半世纪,现在AI终于 ...

最新文章

  1. python raw_input 与 input 的区别
  2. BZOJ 1008--[HNOI2008]越狱(容斥快速幂)
  3. supervisor使用指南
  4. CIPAddressCtrl的用法
  5. HTTP1.0、HTTP1.1 、SPDY、HTTP2.0之演变过程和优化
  6. python基础:抓取博客网页上的图片并且保存的例子
  7. 我从创立3家科技公司的经历中学到了什么
  8. mysql dba系统学习(8)查询日志文件功能
  9. javafx给图形上颜色_红牛商标无效案:新欧盟商标条例下如何满足颜色商标注册条件?...
  10. 集异璧(GEB)第一章WU谜题读后感
  11. LESSON 10.3 Halving网格搜索
  12. 精辟!一文看懂layout与PCB的关系
  13. Python学习笔记(五)——读写文件
  14. 对你快速了解恶意软件以及病毒和反病毒
  15. 软件测试从业者年纪大了以后该怎么办?我能继续测试!可以自救...
  16. Word中怎么打分段函数?
  17. 海底捞:服务喧宾夺主,盈利不见起色
  18. 明解C语言入门篇_第10章_指针
  19. 美丽的夕阳(小孩文章)
  20. ajaxSubmit提交文件表单不执行success

热门文章

  1. win7旗舰版下配置IIS服务器
  2. libevent源码深度剖析十一
  3. hdu 4366 Card Collector (容斥原理)
  4. BFS之三(单向bfs和康托压缩)
  5. 【青少年编程】黄羽恒:漫天飞雪
  6. 数据结构与算法:14 Leetcode同步练习(五)
  7. 别找了,Thonny 才是 Python 小白的最理想的 IDE
  8. 做 Java 工程师,挺!好!
  9. 百万奖金悬赏AI垃圾分类,就问你来不来?
  10. AlphaGo的制胜秘诀:蒙特卡洛树搜索初学者指南