【一周学术热点】预训练模型，文本生成，模型蒸馏

AI Box 为你回顾上周AI学术热点，分享最新学术资源！

精选论文推荐

Which *BERT? A Survey Organizing Contextualized Encoders

【作者】Patrick Xia, Shijie Wu, Benjamin Van Durme

【机构】Johns Hopkins University

【来源】EMNLP 2020

【链接】https://arxiv.org/pdf/2010.00854

【推荐理由】预训练上下文编码器研究综述，涵盖背景知识、预训练任务、效率、预训练数据、探测模型可解释性的方法和多语言系统的研究，强调了解释与评估上下文编码器，以及选择模型时的重要考虑事项，建议研究人员在报告模型优点的同时更要指出其缺陷和不足

【主题】预训练模型

Pretrained Language Models for Dialogue Generation with Multiple Input Sources

【作者】Yu Cao, Wei Bi, Meng Fang, Dacheng Tao

【机构】The University of Sydney, Tencent AI LAB, Tencent Robotics X

【来源】EMNLP 2020

【链接】https://arxiv.org/pdf/2010.07576

【代码链接】‍‍‍‍‍‍‍‍‍https://github.com/caoyu-noob/Multi-GPT2

【推荐理由】本文探索了如何更好地基于多种来源的输入（个性、对话历史、已有回复）使用预训练语言模型生成对话回复。模型整体采用seq2seq架构，encoder直接使用GPT-2，decoder在GPT-2的基础上增加了对于个性和对话历史的cross attention，探索了静态、加权和attention这三种attention融合方式，进行个性、对话历史和回复这三个语言模型相结合的多任务学习。实验表明，与直接将多种输入拼接等方式相比，该模型生成的回复在自动和人工测评中表现更好

【主题】对话生成

模型架构示意图

A Systematic Characterization of Sampling Algorithms for Open-ended Language Generation

【作者】Moin Nadeem, Tianxing He, Kyunghyun Cho, James Glass

【机构】Massachusetts Institute of Technology

【来源】AACL 2020

【链接】https://arxiv.org/pdf/2009.07243

【代码链接】https://github.com/moinnadeem/characterizing-sampling-algorithms

【推荐理由】文本生成离不开采样，一个好的采样方法可以兼顾生成文本的质量和多样性。但是，目前主流的各采样算法并没有得到充分的研究，它们的优劣也难以量化。本文在语言模型上比较了当前主流的几个采样算法Top-K, Nucleus, Tempered，发现他们都满足三个关键性质，因此在效果上难分伯仲。进一步的研究表明，满足这三个性质的其他采样算法也能够取得很好的效果，这就指出了文本生成所需的必要条件。

【主题】文本生成

不同算法生成的文本示例

Sequence Generation with Mixed Representations

【作者】Lijun Wu, Shufang Xie, Yingce Xia, Yang Fan, Tao Qin, Jianhuang Lai, Tie-Yan Liu

【机构】Sun Yat-sen University, Microsoft Research, University of Science and Technology of China

【来源】ICML 2020

【链接】https://proceedings.icml.cc/static/paper_files/icml/2020/3729-Paper.pdf

【代码链接】https://github.com/apeterswu/fairseq_mix

【推荐理由】本文力图通过改变传统的单模型单tokenizer的方法，提出了多tokenizer混合表示的方法，并提出一种可利用混合表示的方法来融合更多不同的知识，用于序列生成任务。在6种语言的机器翻译任务和抽象文本摘要任务中取得了显著的增强。本文提出的多tokenizer的混合方法以及联合学习框架，对语言表示学习的研究具有一定参考价值

【主题】文本生成

模型架构图

Contrastive Distillation on Intermediate Representations for Language Model Compression

【作者】Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang, Jingjing Liu

【机构】Microsoft Dynamics 365 AI Research

【来源】EMNLP 2020

【链接】https://arxiv.org/pdf/2009.14167.pdf

【代码链接】https://github.com/intersun/CoDIR

【推荐理由】本文针对的问题是使用蒸馏对BERT压缩的工作，以前的方法是在中间层或者最后的输出使用L2损失，但是作者指出这种方法不能准确抓到teacher模型在中间层的结构化知识。本文在BERT蒸馏中的贡献在于1）使用对比学习的方式而不是传统的L2损失函数，来使student model和teacher model中间层表示更接近，即需要构建一个pair对的样本，越是相似的样本他们在teacher和student中间层表示应该越相近，反之则越远；2）对比学习中本文在构建训练数据时，正例为同样的样本在teacher和studnet模型中不同的表示输出，负样本在预训练和fine-tune采用不同的采样策略，在预训练阶段是从同一个mini-batch采样其他的样本，而fine-tune阶段则是采样其他不同label的样本。最终结果上本文蒸馏后得到的小模型在GLUE数据集平均的指标上超过了当前SOTA方法（distilBERT、TinyBERT、SID、PKD）

【主题】模型蒸馏

模型架构图

一周学术资讯

当地时间10月12日，国际电气与电子工程师协会（IEEE）官方发布了2021年候选主席的选举结果。美国马里兰大学教授、信号处理领域专家、IEEE院士刘国瑞（KJ Ray Liu）当选。这也是IEEE历史上迎来的第一位华人学者担任主席详细报道

第28届ACM国际多媒体会议（ACM MM）最佳论文奖、最佳学生论文奖、最佳demo奖、最佳开源软件奖在内的所有多媒体领域大奖都已出炉。其中最佳论文的一作是来自南开大学Hongru Liang，最佳学生论文的一作是来自西安交大的Wenbo Zheng。详细报道

北京时间10月14日，清华大学计算机科学与技术系（以下简称“计算机系”）张悠慧团队、精密仪器系（以下简称“精仪系”）施路平团队与合作者在《Nature》杂志发文，首次提出“类脑计算完备性”以及软硬件去耦合的类脑计算系统层次结构。详细报道

CCF-ACM人工智能奖”授予在人工智能理论、技术或应用做出杰出贡献，且获奖时在中国工作的专业人士。该奖由CCF和ACM共同评选和颁发，于2020年设立。CCF奖励委员会决定授予南京大学周志华教授2020年“CCF-ACM人工智能奖”，以表彰他在机器学习的多个领域做出的杰出贡献。详细报道

2018-2019年，模式识别国家重点实验室承担了中国科学院学部学科发展战略研究项目“模式识别发展战略研究”。鉴于过去60多年模式识别的理论方法和应用都产生了巨大进展，而在通信、传感和计算软硬件技术不断发展、应用场景渐趋复杂开放的新形势下，又面临很多新的理论和技术问题，本项目希望对模式识别领域的发展历史进行全面梳理，整理出至今在学术届或应用中产生了重大影响的主要研究进展，并且面向未来，提炼出具有重要理论价值或应用需求的值得研究的问题，供模式识别学术界参考，以期对未来基础研究和应用研究产生指导，产出具有重大理论价值或应用价值的研究成果。详细报道

最新学术资源

【资源推荐】ICLR 2021 自监督学习 & Transformer 相关论文

【会议教程】ECML/PKDD20 图表示学习与应用

【PPT链接】https://www.aminer.cn/grla_ecmlpkdd2020

【推荐理由】图表示学习为挖掘和学习网络数据提供了一个革命性的范例。本教程系统地介绍网络上的表示学习。以阿里巴巴、AMiner、Microsoft Academic、微信和XueTangX的行业案例作为教程的开始，来解释网络分析和网络图挖掘如何从表示学习中受益。然后，将全面介绍图表示学习的历史和最新进展，如网络嵌入、图神经网络及其预训练策略。本教程旨在向读者提供图形表示学习的基本理论，以及转化为实际应用方面的经验。最后，发布了面向开放和可重现的图表示学习研究的公共数据集和基准。

【会议教程】NLPCC 2020 预训练语言模型回顾

【详细链接】http://tcci.ccf.org.cn/conference/2020/tutorials.php

【推荐理由】哈工大讯飞联合实验室（HFL）资深级研究员、研究主管崔一鸣受邀在NLPCC 2020会议做题为《Revisiting Pre-trained Models for Natural Language Processing》的讲习班报告（Tutorial），介绍了预训练语言模型的发展历程以及近期的研究热点。

【数据集】中文自然语言推理数据集OCNLI（Original Chinese Natural Language Inference）

【链接】https://github.com/CLUEbenchmark/OCNLI

【推荐理由】第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。OCNLI包含5万余训练数据，3千验证数据及3千测试数据。我们将提供训练与验证集的数据及标签。测试数据仅提供数据，不提供标签。OCNLI为中文语言理解基准测评（CLUE benchmark）的一部分。

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！后台回复【五件套】
下载二：南大模式识别PPT后台回复【南大模式识别】说个正事哈由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。
感谢支持，比心。投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。
方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。记得备注呦推荐两个专辑给大家：专辑 | 李宏毅人类语言处理2020笔记专辑 | NLP论文解读专辑 | 情感分析整理不易，还望给个在看！

【一周学术热点】预训练模型，文本生成，模型蒸馏相关推荐

用文本指导文本：基于文本的自监督可控文本生成模型
论文标题: CoCon: A Self-Supervised Approach for Controlled Text Generation 论文作者: Alvin Chan, Yew-Soon On ...
Hugging Face实战（NLP实战/Transformer实战/预训练模型/分词器/模型微调/模型自动选择/PyTorch版本/代码逐行解析）下篇之模型训练
模型训练的流程代码是不是特别特别多啊?有的童鞋看过Bert那个源码写的特别特别详细,参数贼多,运行一个模型百八十个参数的. Transformer对NLP的理解是一个大道至简的感觉,Hugging F ...
性能堪比GPT-3，但参数量仅为0.1%，LMU团队推出NLP最强文本生成模型
2020-09-24 04:21:08 作者 | 贝爽编辑 | 陈彩娴模型越大,性能越佳?不一定. 在NLP领域,谈到超大模型必然想到预训练语言模型GPT-3,自今年3月份对外开放以来,其因超大模 ...
达摩院李雅亮：大规模预训练模型的压缩和蒸馏
作者 | 李雅亮博士阿里巴巴来源 | DataFunTalk 导读:本次分享的主题为大规模预训练模型的压缩和蒸馏,主要是从自动机器学习的角度,介绍大规模预训练模型的压缩和蒸馏.将介绍阿里巴巴达摩院 ...
请谈谈你对这句话的理解：“所见的是暂时的，所不见的是永远的”5.3 先来先服务调度算法为什么苏联解体的时候，戈尔巴乔夫演讲的当时，电视的所有频道都在放《天鹅湖》介绍一下LSTM文本生成模型
目录请谈谈你对这句话的理解:"所见的是暂时的,所不见的是永远的" 5.3 先来先服务调度算法为什么苏联解体的时候,戈尔巴乔夫演讲的当时,电视的所有频道都在放<天鹅湖> ...
NLP文本生成模型数据准备及实战
NLP文本生成模型数据准备及实战自然语言处理+数据准备 Machine readable vector format 自然语言处理NLP的数据预处理有哪些共性,可以参考? 什么样的数据格式是深度学习 ...
周明：预训练模型在多语言、多模态任务的进展
2020-09-12 15:34:16 作者 | 周明编辑 | 陈彩娴 8月29日至30日,由中国科学技术协会.中国科学院.南京市人民政府为指导单位,中国人工智能学会.南京市建邺区人民政府.江苏省科 ...
手把手教 | 使用Bert预训练模型文本分类（内附源码）
作者:GjZero 标签:Bert, 中文分类, 句子向量本文约1500字,建议阅读8分钟. 本文从实践入手,带领大家进行Bert的中文文本分类和作为句子向量进行使用的教程. Bert介绍 Bert ...
[Pytorch系列-72]：生成对抗网络GAN - 图像生成开源项目pytorch-CycleGAN-and-pix2pix - 使用预训练模型训练CycleGAN模型
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...
[Pytorch系列-66]：生成对抗网络GAN - 图像生成开源项目pytorch-CycleGAN-and-pix2pix - 使用预训练模型测试pix2pix模型
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

【一周学术热点】预训练模型，文本生成，模型蒸馏

【一周学术热点】预训练模型，文本生成，模型蒸馏相关推荐

最新文章

热门文章