《预训练周刊》第15期：Bengio, Lecun, Hinton | 人工智能深度学习、用于图像分类的全局过滤网络...

No.15

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第15期《预训练周刊》，从论文推荐、研究动态、资源下载等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了11篇预训练相关的论文，涉及音频处理、语音模型评估、多模态、图像分类、歌声分割、视频摘要、法律推理、法律条款预测、蛋白关系提取、数值计算和文字擦除的探索。此外，在研究动态方面，我们选择了4篇预训练资讯，将介绍机器翻译、深度学习、文本理解和代码生成等方面的一些最新内容。在资源下载方面，我们选择了3篇资源，将介绍命名实体识别、图深度学习和视觉与对话模型的动态。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：DFKI、凯泽斯劳滕技术大学｜AudioCLIP: Extending CLIP to Image, Text and Audio（AudioCLIP：将 CLIP 扩展到图像、文本和音频）了解详情

简介：我们观察到融合特定领域任务和方法共同为社区提供了新的优秀模型的趋势。在这项工作中，我们展示了 CLIP 模型的扩展，除了文本和图像之外，它还处理音频。我们提出的模型包含使用 AudioSet 将 ESResNeXt 音频模型转换为 CLIP 框架数据集。这种组合使所提出的模型能够执行双峰和单峰分类和查询，同时保持 CLIP 的以零样本推理方式泛化到未知数据集的能力。AudioCLIP 在环境领域取得了最先进的声音分类任务新成果，优于其他方法，在UrbanSound8K上达到 90.07% 的准确度，在ESC-50 数据集上达到 97.15%。

代码下载：https://github.com/AndreyGuzhov/AudioCLIP

论文地址：https://arxiv.org/pdf/2106.13043v1.pdf

标题：中科院、腾讯｜Knowledgeable or Educated Guess? Revisiting Language Models as Knowledge Bases（知识渊博或训练猜测？重新审视语言模型知识库）了解详情

简介：以前的文献表明，预训练的掩码语言模型，例如BERT可以在某些数据集上实现具有竞争力的事实知识提取性能，表明预训练语言模型可能是一个可靠的知识来源。我们发现以前良好的表现主要归功于过度拟合数据集的偏见提示。此外，结合说明性案例和外部上下文改善知识预测主要是由于实体类型指导和黄金答案泄漏。我们的发现揭示了预训练语言模型潜在的预测机制，并强烈质疑以前的结论：预训练语言模型可以作为可靠的事实知识库。

代码下载：https://github.com/c-box/LANKA

论文地址：https://arxiv.org/pdf/2106.09231.pdf

标题：DeepMind｜Multimodal Few-Shot Learning with Frozen Language Models（基于冻结语言模型的多模态小样本学习）了解详情

简介：当以足够的规模训练时，自回归语言模型表现出在被提示后学习新语言任务的显着能力。在这里，我们提出了一种简单而有效的方法来转移这种少样本学习能力到多模态。使用对齐的图像和标题数据，我们训练一个视觉编码器来表示每个图像作为连续嵌入的序列，这样一个预训练的、使用前缀提示的冻结语言模型会生成适当的标题。训练出的系统是一个多模态的小样本学习器，在给定示例条件的新任务下具有惊人的学习能力，以多个交错的图像和文本嵌入作为表示。通过测量单一模型在各种现有和新基准，我们证明它可以快速学习新物体和新视觉类别的词，利用外部知识完成少样本视觉问答。

论文地址：https://arxiv.org/pdf/2106.13884v1.pdf

标题：清华|Global Filter Networks for Image Classification(用于图像分类的全局过滤网络)了解详情

简介：自注意力和纯多层感知器模型的显示出巨大的潜力且更少的归纳偏置。这些模型一般都是学习在原始数据的空间位置交互。自注意力和多层感知机的复杂性随着图像大小的增加呈二次增长，这使得这些模型在需要高分辨率时按比例放大变得困难。在本文中，我们提出全局过滤器网络，一个概念上简单但计算上高效的架构，学习频率的长期空间依赖性具有对数线性复杂度的域。我们的架构取代了自注意力具有三个关键操作的视觉变换器层：二维离散傅立叶变换，频域特征和可学习的全局滤波器和二维傅立叶逆变换。我们展示了我们的模型在 ImageNet 和下游的准确性/复杂性权衡任务的优势。

代码下载：https://github.com/raoyongming/GFNet

论文地址：https://arxiv.org/pdf/2107.00645v1.pdf

标题：罗切斯特大学、字节|Audiovisual Singing Voice Separation（视听歌声分离）了解详情

简介：将歌曲分为人声和伴奏组件是一个活跃的研究课题，近年来见证了深度学习技术使用监督训练的性能提升。我们建议将与歌手的声乐活动相对应的视觉信息应用于进一步提高分离的声音信号的质量。该视频前端模型接受嘴巴运动的输入并融合它进入基于音频的分离框架的特征嵌入。方便网络学习视听相关在歌唱活动中，我们添加了与歌唱活动无关的额外声音信号：训练期间嘴巴运动到音频混合。我们创造两个视听歌唱表演数据集，用于训练和评估，分别是从在互联网上挑选出来的试听录音中，以及在房子里的录音记录。

论文地址：https://arxiv.org/pdf/2107.00231v1.pdf

标题：伯克利|CLIP-It!Language-Guided Video Summarization（剪辑吧！语言引导的视频摘要）了解详情

简介：视频中场景的重要性通常是主观的，用户应该可以选择自定义通过使用自然语言来指定对他们来说重要的内容。这工作介绍了CLIP-It，这是一个单一的框架，用于解决通用和以查询为中心的视频摘要，通常在文献中单独处理。我们提出一种语言引导的多模态转换器，可以学习对帧进行评分在基于它们相对于彼此的重要性及其相关性的视频中使用用户定义的查询（用于以查询为中心的汇总）或自动生成密集视频标题。我们的模型可以是通过没有地面实况监督的训练扩展到无监督环境。我们在视频摘要数据集和以查询为中心的视频摘要数据集上都显著优于基线和先前的工作。

代码下载：https://github.com/medhini/clip_it

论文地址：https://arxiv.org/pdf/2107.00650v1.pdf

标题：哈佛法学院 | AutoLAW: Augmented Legal Reasoning through Legal Precedent Prediction（AutoLAW：通过法律先例预测增强法律推理能力）了解详情

简介：在美国，司法先例是法律推理的基石。而法律先例预测，就是在法律论证的背景下，预测法院先例裁决中的相关段落的任务，利用NLP来解决法律界的问题。为此，本文展示了一个BERT模型，该模型在美国联邦法官所做的530,000个法律论证的例子上进行了训练，以预测在法律论证的背景下先例法院判决中的相关段落。在96%的未见过的测试例子中，正确的目标段落都在预测的前10个段落中。这些体现了法律领域可以部署NLP工具的潜力，同时这些工具也有可能改善诉诸司法的方式。

论文地址：https://arxiv.org/pdf/2106.16034v1.pdf

标题：浙大，阿里巴巴 | Text-guided Legal Knowledge Graph Reasoning（文本指导的法律知识图谱推理）了解详情

简介：本文提出了一个新颖的法律应用，法律条款预测，即预测相关的法律事务条款。作者将这项任务表述为一个不仅需要文本理解，还需要图推理的知识图谱完成问题。本文对此提出了一种新颖的文本指导的图推理方法T-GraphR，利用预训练语言模型BERT，用低维向量表示实体，然后利用图神经网络在法律知识图谱上进行法律推理。作者同时从广东省政府服务网站上收集了大量真实世界的法律条款数据，并构建了一个名为LegalLPP的法律数据集。在该数据集上的大量实验结果表明，本文的方法与无推理的BERT模型等基线相比取得了更好的性能。

论文地址：https://arxiv.org/pdf/2104.02284v2.pdf

标题：印度理工学院 | Multimodal Graph-based Transformer Framework for Biomedical Relation Extraction（基于多模态图的生物医学关系提取的Transformer框架）了解详情

简介：预训练Transformer模型所引领的生物医学任务中文本挖掘模型主要在文本数据上学习，往往缺乏实体的领域知识来捕捉句子以外的背景。为此本文引入了一个新的框架，使模型能够在额外的多模态线索（如分子结构）的帮助下学习关于实体（蛋白质）的多模态生物信息。作者没有开发特定模态的架构，而是设计了一个通用和优化的基于图的多模态学习机制，利用GraphBERT模型来编码文本和分子结构信息，并利用各种模态的基本特征来实现端到端的学习。作者在生物医学语料库中的蛋白质相互作用任务上评估了提出的方法，其中提出的通用方法被观察到受益于蛋白质结构模态。

论文地址：https://arxiv.org/pdf/2107.00596v1.pdf

标题：加州大学伯克利分校，脸书，谷歌 | Pretrained Transformers as Universal Computation Engines（作为通用计算引擎的预训练Transformer）了解详情

简介：本文研究了在自然语言中预训练Transformer在没有微调前馈层和自注意力层的情况下，微调泛化到其他模态上的能力。为此作者考虑了冻结预训练Transformer，并研究了其在各种序列分类任务的表现，包括数值计算、视觉和蛋白质折叠预测上。与之前在与预训练数据集相同的模式上研究微调的工作相反，本文表明在自然语言上的预训练可以提高非语言下游任务的性能和计算效率。此外，作者还对架构进行了分析，比较了随机初始化Transformer和随机LSTM的性能。结合这两个工作，本文表示语言预训练的Transformer可以在各种非语言任务上表现强大的性能。

论文地址：https://arxiv.org/pdf/2103.05247v2.pdf

标题：中科大张勇东团队提出PERT：一种基于区域的迭代场景文字擦除网络了解详情

简介：本文提出了一种新的场景文字擦除网络，通过引入基于区域的修改策略和迭代擦除的思想，在降低模型参数量的同时，大幅提升了场景文字的擦除性能。整个训练过程不需要引入额外的对抗损失。本文贡献：(1)新的基于区域的擦除策略。实现文字擦除过程中文字定位和背景重建的完全解藕，降低背景重建分支的学习难度。(2)共享参数的迭代擦除策略。通过只对最后一步的擦除结果进行监督，有效的平衡了每个擦除步骤的学习难度。(3)新的Region-Global Loss，从全局和局部的视角保证特征的一致性。

论文地址：https://arxiv.org/abs/2106.13029

研究动态

标题：日本国家信息和通信技术研究所|Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers（机器翻译研究的科学可信度：769 篇论文的元评估）了解详情

简介：本文介绍了机器翻译 (MT) 的首次大规模元评估。我们的研究表明，自动化的MT评估实践在过去十年中发生了巨大变化，并随之成为趋势。越来越多的MT评估完全依赖于BLEU分数得出结论，无需执行任何类型的统计显着性测试或人工评估，而至少108 项指标声称优于BLEU的方法已经提出。在展示了这些陷阱的累积如何导致可疑的评估，我们提出了一个指导方针来鼓励更好的自动MT评估以及一种简单的元评估评分方法来评估其可信度。

论文地址：https://arxiv.org/pdf/2106.15195v1.pdf

标题：Bengio、Lecun、Hinton｜Deep Learning for AI（人工智能深度学习）了解详情

简介：人工神经网络的研究受到以下观察的启发：人类智能是从相对简单的非线性神经元的高度并行网络中产生的，这些网络通过调整连接强度来学习。这一观察导致了一个核心的计算问题：这种一般类型的网络如何学习识别物体或理解语言等困难任务所需的复杂内部表示？深度学习试图通过使用多层活动向量作为表示并通过跟踪衡量网络性能的目标函数的随机梯度来学习产生这些向量的连接强度来回答这个问题。非常令人惊讶的是，这种概念上简单的方法在使用大量计算应用于大型训练集时已被证明如此有效，而且似乎一个关键因素是深度，浅层网络根本无法正常工作。我们回顾了几年前深度学习的基本概念和一些突破性成就。

论文地址：https://dl.acm.org/doi/pdf/10.1145/3448250

标题：ERICA: 提升预训练语言模型实体与关系理解的统一框架了解详情

简介：近年来，预训练语言模型在各种下游自然语言处理任务中表现出卓越的性能，受益于预训练阶段的自监督学习目标，预训练语言模型可以有效地捕获文本中的语法和语义，并为下游 NLP 任务提供蕴含丰富信息的语言表示。然而，传统的预训练目标并没有对文本中的关系事实进行建模，而这些关系事实对于文本理解至关重要。提出了一种新颖的对比学习框架ERICA，帮助预训练语言模型深入了解文本中的实体及实体间关系。具体来说，实体区分与关系判别这两个辅助性预训练任务来帮助预训练语言模型更好地理解实体和实体间关系。

论文地址：https://arxiv.org/abs/2012.15022

标题：GPT-3加持，OpenAI联合GitHub发布最新编程AI，自动补全整个函数了解详情

简介：近日，OpenAI和GitHub联合推出了一个全新的代码生成AI：Copilt，可以根据注释或者已经写好的代码自动补全整段函数。Copilot建立在OpenAI全新的Codex算法之上，其中Codex接受了从GitHub中提取的TB级公开代码以及英语语言示例的训练。令人期待的是，Copilot不仅仅是模仿以前见过的代码，而且还会分析文档中的字符串、注释、函数名称以及代码本身，从而生成新的匹配代码，包括之前调用的特定函数。同时，在Copilot中也加入了GPT-3的协助：GPT-3负责生成英语，Codex负责生成代码。GitHub认为这将是「结对编程」的进化版本（其中两个程序员将在同一个项目上工作，从而能更好地发现错误并加快开发过程，只不过这里的另一个程序员是AI）。

论文地址：https://copilot.github.com

资源下载

标题：清华｜FEW-NERD: A Few-shot Named Entity Recognition Dataset（FEW-NERD：少数命名实体识别数据集）了解详情

简介：大量的文献已经围绕少样本命名实体的主题识别（NER），但很少有发布的基准数据专门针对实际和具有挑战性的任务。当前的方法收集现有的受监督的 NER 数据集，并将它们重组为用于实证研究的少样本设置。这些策略通常旨在识别粗粒度的实体类型，而在实践中，大多数看不见的实体类型是细粒度的。在这论文中，我们提出了FEW-NERD，一个大规模的人工注释的少样本 NER 数据集8 个粗粒度和 66 个细粒度实体类型的层次结构。FEW-NERD包括来自维基百科的 188,238 个句子，4,601,160单词，每个单词都被注释为上下文或两级实体类型的一部分。

资源下载：https://github.com/thunlp/Few-NERD

论文地址：https://arxiv.org/pdf/2105.07464.pdf

标题：首个面向NLP的图深度学习工具包问世！简单易用，开发效率从此起飞！了解详情

简介：现阶段任务众多却分散，很少有提供多方面服务的工具包，因此研究人员使用GNNs仍然不轻松。为了解决这一问题，来自京东硅谷研发中心的首席科学家吴凌飞博士领导的Graph4AI 团队开发了首个面向NLP的图深度学习工具包。目前Graph4NLP的包是建立在DGL基础上，关键模块包含了文本转图结构模块、图学习模块、预测模块、评估模块和损失函数模块。此外，项目还加入了一些流行的通用模型比如Graph2Seq和Graph2Tree, 从而使使用开发更加容易。

资源下载：https://github.com/graph4ai/graph4nlp

论文地址：https://www.aclweb.org/anthology/2021.naacl-tutorials.3.pdf

标题：NVIDIA发布预训练模型工具包看TLT 3.0如何简化AI构建流程了解详情

简介：日前，一年一度的全球计算机视觉顶级会议 CVPR落下帷幕。NVIDIA在会议期间发布全新预训练模型，并宣布迁移学习工具包3.0全面公开可用。据了解，在新版本中包括高精度和高性能计算机视觉和对话式AI预训练模型，此外还有一套强大的生产级功能、可以将AI开发的能力提升10倍。相关资源地址：

迁移学习工具包下载及开发者资源地址：https://developer.nvidia.com/tl

计算机视觉模型下载地址：https://ngc.nvidia.com/catalog/collections/nvidia:tltcomputervision

对话式AI模型下载地址：https://ngc.nvidia.com/catalog/

TLT 相关文档: https://docs.nvidia.com/metropolis/TLT/tlt-getting-started-guide/index.html

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

《预训练周刊》第15期：Bengio, Lecun, Hinton | 人工智能深度学习、用于图像分类的全局过滤网络...相关推荐

《预训练周刊》第11期：全球最大智能模型“悟道2.0”重磅发布、谷歌KELM：将知识图与语言模型预训练语料库集成...
No.11 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...
《预训练周刊》第23期：Smart Bird：解决变换器性能瓶颈的新方法、Prompt：如何提升预训练模型的迁移效果...
No.23 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第23期&l ...
《预训练周刊》第25期：HyperCLOVA：数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...
No.25 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第25期&l ...
《预训练周刊》第14期：World-GAN：Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...
No.14 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第14期&l ...
《预训练周刊》第13期：CPM-2：大规模经济高效的预训练语言模型、变换器作为编程语言...
No.13 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第13期&l ...
《预训练周刊》第7期：傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG
No.07 智源社区预训练组预训练研究观点资源活动关于周刊 ‍‍‍超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第7期 ...
《预训练周刊》第60期：大模型应用图谱、最大ViT模型PaLI、高效英文语音识别Whisper...
No.60 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第40期：量子预训练、千层BERT与GPT
No.40 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第35期：零样本规划器的语言模型：为智能体提取可操作的知识、LaMDA：对话应用的语言模型...
No.35 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了13篇预训练相关的论文,涉及动作规划.大模型改进.网络结构.零样本学习.对话模型.视频理解.机器翻译. ...

《预训练周刊》第15期：Bengio, Lecun, Hinton | 人工智能深度学习、用于图像分类的全局过滤网络...

《预训练周刊》第15期：Bengio, Lecun, Hinton | 人工智能深度学习、用于图像分类的全局过滤网络...相关推荐

最新文章

热门文章