超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了《智源社区周刊:预训练模型》,从研究动态、行业资讯、热点讨论等几个维度推荐最近一周内发生在预训练模型领域值得关注的信息。

本期贡献者:

亓宗帅 李卓然 常政

研究动态

我们从生成式预训练、多模态预训练、图神经网络预训练、知识图谱预训练、模型改进、医学影像预训练这几个方面,向大家推荐6篇值得一读的最新预训练论文。

标题:Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training(生成式预训练|基于生成增强预训练的语义分析上下文表示学习,AAAI 2021)

简介:本文提出了生成预训练模型(GAP),利用生成模型来生成预训练数据,用以联合学习自然语言话语和模式表示。

点击这里阅读详细内容

标题:Learning Spatiotemporal Features via Video and Text Pair Discrimination(多模态预训练|通过视频-文本对匹配的视频预训练模型,ICLR 2021)

简介:本文提出的CPD模型借助contrastive learning的思想预测视频和文本的匹配关系,对视频网络进行预训练。

点击这里阅读详细内容

标题:CheXtransfer: Performance and Parameter Efficiency of ImageNet Models for Chest X-Ray Interpretation(医学影像预训练|ImageNet上预训练的模型,是否真能更好地用于医学影像任务?)

简介:吴恩达团队通过在大型胸片数据集 CheXpert 上比较多种模型架构,发现无论模型是否经过预训练,基于 ImageNet 的体系结构改进的性能提升,和 CheXpert 性能之间并无明显关系。

点击这里阅读详细内容

标题:BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining(预训练模型改进|微软亚研院提出预训练模型BANG:兼顾自回归与非自回归模型)

简介:BANG 在大规模预训练中,通过考虑遮盖任意长度的前文来沟通自回归和非自回归生成。

点击这里阅读详细内容

标题:Learning to Pre-train Graph Neural Networks(图神经网络预训练|学习预训练图神经网络,AAAI 2021)

简介:本文分析了预训练和微调之间的差异,并为了缓解这种分歧,作者提出了一种用于GNNs的自监督预训练策略L2P-GNN。

点击这里阅读详细内容

标题:Billion-scale Pre-trained E-commerce Product Knowledge Graph Model(知识图谱预训练 |大规模知识图谱预训练及电商应用)

简介:介绍了浙江大学阿里巴巴知识引擎联合实验室在结构化知识预训练及电商领域应用方面的工作。将“预训练和微调”的思想应用到了大规模商品知识图谱的表示学习与业务应用中。

点击这里阅读详细内容

行业资讯

快手落地业界首个万亿参数推荐精排模型

快手近日宣布他们研发出了业界首个万亿参数推荐精排模型,参数量超过 1.9 万亿,规模相对于Google今日发布的Switch Transformer更大,且已经投入实践。

点击这里阅读详细内容

这里预告一个好消息,春节后,智源社区将邀请快手推荐算法负责人宋洋博士做一场报告分享,和大家交流预训练大模型的相关技术和应用等话题。具体时间、地点敬请留意智源社区的通知。

AAAI 2021 最佳论文出炉,Transformer成为热门

2月4日,人工智能顶会 AAAI 2021以在线虚拟的形式拉开序幕,开幕式上公布了最佳论文、最佳学生s论文等奖项。有多篇最佳论文的研究都在围绕Transformer和预训练开展。

点击这里阅读详细内容

在三篇最佳论文奖中,其中一篇由来自北京航空航天大学的周号益等人获得,论文提出了Transformer的改进 Informer,点击这里阅读该论文的解读:点击这里阅读该论文解读。

此前,在智源社区的AAAI 2021中国预讲会上,周号益同学也对自己的论文进行了汇报预讲,我们也保存了相应的线上展示Poster,有需要的同学可以下载。

Poster地址:https://baai.org/l/zhyPDF

PPT地址:https://baai.org/l/zhyPPT

热点讨论

OpenAI亲谈:我们眼中的GPT-3、大规模语言模型的局限性与出路在哪

近日,OpenAI公布了一篇新论文,内容是对一个GPT-3研讨会的总结。大致来讲,本次研讨会围绕两个主要问题:

大型语言模型的能力和局限性是什么?讨论涉及几个关键领域,包括:规模型对模型功能的巨大影响;评估大型语言模型是否真正理解语言的困难;在多种数据模态下训练模型的重要性;以及使模型目标与人类价值观相一致的挑战。

被广泛使用的大型语言模型的社会影响是什么?讨论涉及了几个关键领域,包括:难以确定通用语言模型的所有可能使用(或滥用)场景;机构在模型部署中可能面临的挑战;模型在算法层面上泄露信息的潜在可能;减少模型偏见(例如:种族、性别、宗教信仰等)存在的阻碍;以及基于语言模型的自动化应用对劳动力市场的影响。

点击这里阅读详细内容

垂直领域出海,多语言预训练好使吗?

腾讯游戏知几AI团队近日的一篇对多语言预训练的技术分析,受到广泛关注和转载,文中详述了他们团队如何通过预训练的方式来解决多语的问题。

点击这里阅读详细内容

如果你正在从事或关注预训练模型研究、实现与应用,欢迎加入“智源社区-模型预训练-交流群”。在这里,你可以:

* 学习前沿知识、求解疑难困惑

* 分享经验心得、展示风貌才华

* 参与专属活动、结识研究伙伴

获取更多预训练相关信息,欢迎前往智源社区【预训练专区】

《智源社区周刊:预训练模型》第1期:吴恩达团队医疗影像预训练、快手落地万亿参数模型...相关推荐

  1. 《智源社区周刊:预训练模型》第3期:智源x清华开源万亿AI模型基石FastMoE、英国机构发起世界最大图灵测试...

    超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第3期<智源社区周刊:预训练模型>,从论文推荐.研究动态.热点讨论等几个维度推 ...

  2. 《智源社区周刊:预训练模型》第2期:Facebook用“预微调”改进预训练性能、再议GPT-3中的东方主义偏见...

    超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第2期<智源社区周刊:预训练模型>,从论文推荐.研究动态.热点讨论等几个维度推 ...

  3. 周刊#003提要:吴恩达团队盘点2019 AI 大事件圣诞 AI 论战

    为了帮助中国人工智能科研.从业者们更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理.编辑了第3期<智源社区AI周刊>,从学术(论文和新思想分享.最新学术会议等),行业和政策 ...

  4. 智源社区周刊:Yann LeCun撰文预测自主智能发展;NYU学者认为通用人工智能的讨论没有意义...

    汇聚每周必看AI观点.研究和各类资源,不错过一条重要资讯!欢迎扫码订阅,获取邮件推送.点击阅读原文,访问完整文章.资源及观看链接. 观点 "没有人工智能系统能够从头开始设计自己,尽管有些系统 ...

  5. 智源社区周刊:LeCun等撰文回应Marcus;朱松纯团队价值对齐工作登Science官网头条;马毅沈向洋等公开AI智能综述论文...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 观点 Yann LeCun等撰文回应Marcus:当前对符号推理的争论都是边缘问题 [摘编]深度学习 ...

  6. 智源社区周刊No.94:谷歌发布PaLM-SayCan,用大模型解析机器人指令;Dwork谈算法公平性;KDD2022奖项出炉...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 谷歌发布PaLM-SayCan:大模型引导机器人理解人类的指令并执行任务 查看详情 在过去 ...

  7. 智源社区周刊:AlphaFold蛋白质宇宙扩展到2亿结构;对话清华代季峰:自动驾驶感知新时代...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 AlphaFold揭示蛋白质结构宇宙:已从100万扩展到超过2亿个结构 查看详情 7月29 ...

  8. 【CSDN AI周刊】第14期 | 吴恩达离职百度 CNN之父清华演讲

    资讯 百度首席科学家吴恩达离职 3月22日,百度首席科学家.在线教育平台Coursera的联合创始人吴恩达宣布将会辞去在百度的工作,吴恩达于2014年5月加入百度,负责百度研究院的领导工作,尤其是Ba ...

  9. 与大佬零距离交流,在行业报告留名,智源社区招募兼职编辑!

    如果你是: AI领域的关注者.爱好者.学习者: 追逐科技趋势的弄潮儿: 文笔极强的科技极客: 智源社区欢迎你的加入! 工作职责 参与AI科技趋势.领域进展.产业落地.机制创新等内容的分析.整理.撰写. ...

最新文章

  1. 微软奇迹之旅-----天津站
  2. BZOJ1782[USACO 2010 Feb Gold 3.Slowing down]——dfs+treap
  3. Shareplex 错误 can't open or read object cache file
  4. 如何安装python3_linux如何安装python3
  5. 昭阳k42-80可以装linux么,华硕K420JC 双显卡 本本 能装ubuntu吗
  6. Jmeter全局变量设置
  7. 消息驱动式微服务:Spring Cloud Stream RabbitMQ
  8. ojdbc6手动装载
  9. Cocos2D场景编辑器
  10. 鼠标失灵c语言代码,[转载]键盘和鼠标操作失灵代码
  11. IIS 中 HTTPS 自签名证书 的使用
  12. 基金套利是怎么玩的?
  13. 实现Vue移动端的PDF预览
  14. web 流程设计器探究
  15. 组策略——软件限制策略(完全教程与规则示例)
  16. 多元统计分析最短距离法_多元统计分析第10讲(聚类分析:动态聚类)
  17. 【笔试】备战秋招,每日一题|20230415携程研发岗笔试
  18. linux系统pdf目录编辑器,使用Master PDF Editor在Ubuntu Linux上编辑PDF文件
  19. 米家扫地机器人重置网络_小米扫地机器人重置wifi怎么链接_米家扫地机器人wifi连接不上怎么办...
  20. 用python判断是否为闰年。节气,一年的天数,一年还剩多少天

热门文章

  1. nbu oracle 冷备_NBU备份系统应用操作手册..doc
  2. Java web speach api_Web Speech API - 语音文本转换的Web解决方案
  3. ORACLE选择hint,ORACLE中的的HINT详解
  4. 初识 Knative: 跨平台的 Serverless 编排框架
  5. Hadoop2.6.5集群搭建
  6. iOS 网络状态判断方案(支持iOS11和iPhoneX)
  7. 基于lvs(DR模式)的keepalived部署
  8. InServ-T级存储系统能否挑战传统存储架构?
  9. 设计模式(0)简单工厂模式
  10. robotium常用方法