超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第3期《智源社区周刊:预训练模型》,从论文推荐、研究动态、热点讨论等几个维度推荐最近一周内发生在预训练模型领域值得关注的信息。

本期贡献者:亓宗帅  常政

 论文推荐

随着预训练技术逐渐成熟,越来越多的研究转向预训练技术的现实应用。本期推荐五篇预训练相关论文,具体方向分别是Image Caption、语音识别、程序语言表示、多模态预训练数据集、预训练模型评估。

标题:VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining(VisualGPT:在Image Captioning中用预训练来平衡视觉和语言知识,提高数据效率)

简介:本文提出VisualGPT,致力于利用大规模预训练语言模型来提高Image Caption任务的数据使用效率。

点击这里阅读详细内容

标题:Generating Human Readable Transcript for Automatic Speech Recognition with Pre-trained Language Model(语音识别中利用预训练语言模型生成人类可读文本)

简介:本文利用预训练模型增强语音识别的准确性,将RoBERT引入到语音识别当中,显著提高了WER和BLEU值。

点击这里阅读详细内容

标题:GraphCodeBERT: Pre-training Code Representations with Data Flow(GraphCodeBERT:预训练的数据流代码表示,ICLR 2021)

简介:本文提出GraphCodeBERT,一个考虑了结构信息的编程语言预训练模型,利用结构信息后显著增加了模型的性能。

点击这里阅读详细内容

标题:Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts(Conceptual 12M:大规模图文预训练数据集用于识别长尾视觉概念)

简介:本文发布了大型数据集Conceptual 12M (CC12M),1200万个图像文本数据对用于vision-and-language模型的训练。

点击这里阅读详细内容

标题:LogME: Practical Assessment of Pre-trained Models for Transfer Learning(LogME:通用快速准确的预训练模型评估方法)

简介:本文提出了一种名为LogME的方法,能极大地加速预训练模型选择的过程,将衡量单个预训练模型的时间从50个小时减少到一分钟。

点击这里阅读详细内容

研究动态

智源x清华开源FastMoE,万亿AI模型基石

智源研究院和清华大学联合发布首个支持PyTorch框架的高性能MoE系统:FastMoE ,相比直接使用PyTorch实现的版本,提速47倍。

点击这里阅读详细内容

英国机构发起世界最大图灵测试,测试GPT-3能否通过

项目由 AiCore 发起,要测试 OpenAI的 GPT-3  是否能通过。实验将在3月25日举行。

点击这里阅读详细内容

OpenAI 放出 DALL-E 的部分论文与实现代码

OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 前日刷屏社区,模型可以将自然语言形式概念转换为图像,效果惊艳。近日,OpenAI放出了DALL-E 的部分论文和代码

点击这里阅读详细内容

加州大学伯克利分校等研究员提出针对GPT-3等语言模型的偏差修正

最近一项由加州大学伯克利分校、加州大学欧文分校和马里兰大学的科学家合作完成的研究发现,语言模型,尤其是GPT-3的准确性,在没有校准的情况下可能是高度不稳定的:训练样本、甚至训练样本的顺序都会影响模型的准确性。为了缓解这种情况,研究人员首先通过输入无内容的虚拟输入(如“N/A”)来估计模型对答案的偏向,接着拟合校准函数,使得该输入的预测在各个答案中保持一致,通过“校准”输出分布来抵消这些偏差。

点击这里阅读详细内容

阿里发布千亿参数规模AI模型M6,可设计30多种物品高清图像

3月2日,阿里巴巴与清华大学联合发布业界最大的中文多模态预训练AI模型M6,该模型参数规模超千亿,同时具备文本、图像的理解和生成能力。以图像生成为例,模型可设计包括服饰、鞋类、家具、首饰、书籍等在内的30多个物品类别的图像,最短一分钟即可完成作品的创作,效率超越普通设计师。

点击这里阅读详细内容

热点讨论

OpenAI的GPT-3说话了,请听!

有1750亿参数的超级语言模型GPT-3自发布以来广受关注,很多问题逐渐暴露——消极的语言、有害的偏见等,那么GPT-3的开发者OpenAI对此有何对策呢?

点击这里阅读详细内容

10个重要问题概览Transformer全部内容

本文用10个主要问题的一篇文章搞定有关transformer的知识和工程方面的“全部”内容。

点击这里阅读详细内容

如果你正在从事或关注预训练模型研究、实现与应用,欢迎加入“智源社区-模型预训练-交流群”。在这里,你可以:

* 学习前沿知识、求解疑难困惑

* 分享经验心得、展示风貌才华

* 参与专属活动、结识研究伙伴

获取更多预训练相关信息,欢迎前往智源社区【预训练专区】

《智源社区周刊:预训练模型》第3期:智源x清华开源万亿AI模型基石FastMoE、英国机构发起世界最大图灵测试...相关推荐

  1. 智源x清华开源FastMoE,万亿AI模型基石

    北京智源人工智能研究院(以下简称"智源研究院")和清华大学联合发布首个支持PyTorch框架的高性能MoE系统:FastMoE .开源地址:https://github.com/l ...

  2. 《智源社区周刊:预训练模型》第2期:Facebook用“预微调”改进预训练性能、再议GPT-3中的东方主义偏见...

    超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第2期<智源社区周刊:预训练模型>,从论文推荐.研究动态.热点讨论等几个维度推 ...

  3. 《智源社区周刊:预训练模型》第1期:吴恩达团队医疗影像预训练、快手落地万亿参数模型...

    超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了<智源社区周刊:预训练模型>,从研究动态.行业资讯.热点讨论等几个维度推荐最近 ...

  4. 2021北京智源大会圆满闭幕,现场8千人,参会7万人,发布「悟道2.0」全球最大万亿级模型...

    句点,是下一行诗篇的开始. 6月3日晚上10点整,2021北京智源大会正式闭幕,为北京乃至中国人工智能发展画上浓重一点. 定位于"内行的AI盛会",北京智源大会以国际性.权威性.专 ...

  5. 智源社区周刊:Yann LeCun撰文预测自主智能发展;NYU学者认为通用人工智能的讨论没有意义...

    汇聚每周必看AI观点.研究和各类资源,不错过一条重要资讯!欢迎扫码订阅,获取邮件推送.点击阅读原文,访问完整文章.资源及观看链接. 观点 "没有人工智能系统能够从头开始设计自己,尽管有些系统 ...

  6. 智源社区周刊:LeCun等撰文回应Marcus;朱松纯团队价值对齐工作登Science官网头条;马毅沈向洋等公开AI智能综述论文...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 观点 Yann LeCun等撰文回应Marcus:当前对符号推理的争论都是边缘问题 [摘编]深度学习 ...

  7. 智源社区周刊No.94:谷歌发布PaLM-SayCan,用大模型解析机器人指令;Dwork谈算法公平性;KDD2022奖项出炉...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 谷歌发布PaLM-SayCan:大模型引导机器人理解人类的指令并执行任务 查看详情 在过去 ...

  8. 智源社区周刊:AlphaFold蛋白质宇宙扩展到2亿结构;对话清华代季峰:自动驾驶感知新时代...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 AlphaFold揭示蛋白质结构宇宙:已从100万扩展到超过2亿个结构 查看详情 7月29 ...

  9. 《预训练周刊》第28期:M6-10T:高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...

    No.28 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...

最新文章

  1. java访问修饰符详解——学java,零基础不怕,不只要理论,更要实践+项目,a href=http://www.bjweixin.com太原维信科技提供 /a...
  2. Transformer Family
  3. linux sublime nodejs,Windows环境下sublime的Nodejs插件详细安装图解
  4. llinux环境变量查看和修改
  5. Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛
  6. 亲测!Jquery2.0不支持IE8-了
  7. 关于vmware中的centos无法ping通宿主机或者是外网的解决思路
  8. 算法第四版学习笔记之初级排序算法
  9. R语言-运筹学线性规划实例
  10. word服务器无响应又没有保存怎么办,电脑突然死机Word没保存?教你一个小妙招,三秒快速恢复...
  11. python 利用 Turtle库 画太阳花图形
  12. 工程与建设杂志工程与建设杂志社工程与建设编辑部2022年第3期目录
  13. 蓝天保卫战之产品测试服务
  14. sqlite编辑器 linux,SQLite编辑器
  15. 图解迪士尼发展史:华特·迪士尼建立的动画王国
  16. 获得“网管师”资格证书,开启新的网管职业生涯
  17. 数字化经济带领各行各业迎来碧海蓝天
  18. opencv4.5.1 包含了BEBLID算子,一个新的局部特征描述符,超越ORB
  19. js中深浅拷贝理解与方法
  20. 【Python系列】_tkinter.TclError: no display name and no $DISPLAY environment variable

热门文章

  1. python-docx 使用教程_python docx 中文字体设置的操作方法
  2. mdk编译后的HTML,[转载]keil MDK编译完成后,Program Size:
  3. redisson的锁的类型_利用Redisson实现分布式锁,并防止重复提交
  4. python表格控件_python GUI库图形界面开发之PyQt5表格控件QTableView详细使用方法与实例...
  5. 平滑重启_swoole服务平滑重启
  6. android 自定义图片容器,Android应用开发中自定义ViewGroup视图容器的教程
  7. spring boot 注解_Spring-Boot项目中如何配置redis注解缓存?
  8. 启动项目时出现java.io.EOFException异常。
  9. 文件查找和压缩——Linux基本命令(12)
  10. Visual Studio2015如何连接到windows azure(国内版本)