哈工大教授车万翔：自然语言处理中的伪数据

导语：自然语言处理被誉为“人工智能皇冠上的明珠”。对语言的理解需要广义的“知识”，即狭义知识，算法和数据的约束。目前的预训练+微调的范式充分利用了数据类“知识”，然而存在预训练任务与目标任务之间的差距较大的问题，为了弥补这种差距，本文提出了“伪数据”方法。本文源于哈工大教授车万翔在智源社区所作报告《自然语言处理中的伪数据》。（报告回放https://event.baai.ac.cn/activities/350）

作者：车万翔博士，哈尔滨工业大学计算学部长聘教授、博士生导师，人工智能研究院副院长，社会计算与信息检索研究中心副主任。教育部青年长江学者，黑龙江省“龙江学者”青年学者，斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长；中国计算机学会高级会员、曾任YOCSEF哈尔滨主席（2016-2017年度）。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文100余篇，其中AAAI 2013年的文章获得了最佳论文提名奖，论文累计被引6,000余次（Google Scholar数据）。

整理：牛梦琳

编辑：李梦佳

背景介绍

语言是思维的载体，是人类交流思想，表达情感最自然、最深刻、最方便的工具。《信息简史》中说：“历史和逻辑本身就是文字的产物。”自然语言主要是指人类的语言，而在自然语言处理（Natural Language Processing，NLP）中，自然语言特指文本信号，而非语音信号。自然语言处理主要包括两个方面：一是对文本符号本身的理解，二是自然语言的生成。

自然语言的应用有很多，如机器翻译、智能助手、文本校对、舆情分析、智能教育、信息检索等，可以说，只要涉及到对文本进行处理的任务，都有自然语言处理的用武之地。

自然语言处理本质上属于认知智能任务。众所周知，认知智能是人类与动物对主要区别之一，与许多动物也具有低级的感知智能不同，认知智能需要更强的抽象和推理能力。自然语言处理本身有很多特性，包括歧义性、抽象性、组合性、进化性、非规范性、主观性、知识性、难迁移性等。这些特性提升了自然语言处理的难度，自然语言处理也成为制约人工智能取得更大突破和更广泛应用的瓶颈。包括多位图灵奖得主在内的多位知名科学家都认为自然语言处理是下一个人工智能需要重点攻克的方向。

自然语言处理的核心困难，在于自然语言的形式与语义之间存在多对多的映射。为了解决这个困难，我们通常利用“知识”来进行约束。因此，如何获取和利用“知识”成为了一个关键科学问题。

“知识”（广义）的来源：

广义的“知识”包括狭义的知识、算法以及数据。其中，狭义的知识指可以人工定义的、显性的知识，包括语言知识、常识知识和世界知识。语言知识通常可以通过词典、规则库等来获取；世界知识也可以从文本中挖到，如知识图谱；而常识知识往往很难从文本中直接获取，现在一般通过人工的方式，将人类的常识知识结构化地存储下来（如CYC项目）。

另外，算法在本质上也是一种知识，但它是一种动态的知识。在深度学习出现之前，主流的算法是浅层学习，通过人工提取解决问题的关键特征，再对特征进行线性加权，而所谓的“知识”就体现在对“特征”的定义和提取之中。后来，随着深度学习的发展，深层神经网络越来越多地取代人工进行特征的归纳和提取，端到端的学习使得任务可以自动实现。另外，如CKY，MST等NLP算法，也与语言知识密切相关。

最后，数据也是一种自动的、隐性的知识。数据包括有标注和无标注两种类型。有标注的数据往往规模有限，蕴含的知识也有限；为了扩大数据的规模，最好使用无标注的数据，如大量传统的文本数据，然后通过设计自监督任务来预训练一个语言模型，这也就是目前整个人工智能领域最火的预训练语言模型方向。

而本文主要关注的是第三种数据类型——伪数据。伪数据也可以自动获取，但与无标注数据相比，伪数据可以进行一些与目标任务近似的自动标注，数据增广就是一种典型的伪数据。

本文认为，要实现自然语言处理能力的提升，必须有三个广义知识的支撑，即必须有新知识、新算法或新数据的加入。

自然语言处理技术已经经历了四次范式变迁：从1950-1990年的小规模专家知识，到2018年至今的大规模预训练模型，数据的重要性越来越凸显。目前主要是通过“预训练+精调”的范式来处理大规模数据，但预训练与精调之间的任务往往差距较大，这限制了进一步提高下游任务的准确率。

为了解决这个问题，本文提出了“伪数据”的方法。

“伪数据”（Pseudo Data）

伪数据是一种弱标注的训练数据。伪数据虽然有标签，但标签的构造不曾面向所研究的任务进行人工标注，且这种标签不精确，而是样本的近似答案（伪）。获取伪数据主要有三种方法：移植、采集和制造。

1. 移植伪数据

伪数据的移植一般用于两个相近任务，且一个任务数据稀缺，另一个任务数据相对丰富的情况。此时样本与真实样本近似，获得的标签也近似于真实标签。根据两个任务的不同，移植可以分为跨语言、跨领域和跨任务三种类型。

一个典型的例子是跨语言自然语言处理。世界上有超过7,000种语言，其中绝大部分都没有人工标注数据。这时，我们可以将在资源丰富的源语言（如英语）上训练的模型，直接应用于资源匮乏的目标语言。

2. 采集伪数据

数据“天然”存在目标任务的标注结果时，可以应用伪数据的采集方法。此时样本就是真实的样本，但获得的标签与真实标签近似。采集可以用来处理如命名实体、词义向量、信息抽取、情感分析等任务。如基于双语的多义词词向量学习任务，传统为每个词赋予一个词向量的方法忽略了多义词等情况，于是我们使用双语（如英汉双语）数据，为多义词的每个词义学习一个词向量，结果命令实体识别任务提升了1.5%。

3. 制造伪数据（数据增广）

即对样本进行编辑操作形成伪数据，编辑的方式主要包括增加、删除、修改。在这种情况下，样本近似于真实样本，但标签与真实标签一致。如文本校对任务，伪数据可以对文本随机进行音近、形近词等替换，从而与原文本形成一个错误与正确的文本对，进而训练一个文本校对模型。

这个方法还可以用于伪顺滑数据的预训练任务。

4. 数据增广（Data Augmentation，DA）

通过修改已有数据或从已有数据合成新数据，用于模型训练。数据增广发端于图像处理，在图像处理中，可以对原始图像进行翻转、旋转、平移、缩放等操作，而图像标签的类别不变。

然而上述操作无法直接应用于自然语言处理。所以，需要针对其进行深入研究。我们将自然语言处理常用的数据增广方法分为三种：复述、加噪和采样。

1. 基于复述（Paraphrasing）的增广方法

此时增广数据保持原有语义，常用的方法包括1）基于同义词词典；2）基于词嵌入；3）基于语言模型；4）基于规则；5）基于回译；6）基于生成等。

2. 基于加噪（Noising）的增广方法

即加入离散或连续噪声的增广方法。下图总结了各种加噪的方法：

3. 基于采样（Sampling）的增广方法

依据原数据的分布采样增广数据。

三种数据增广方法对比较：

增广数据的实际应用策略有很多，例如对多种增广方法进行叠加，对增广数据质量进行控制（过滤、加权等），高质量增广数据直接与原训练数据混合，较低质量增广数据用作预训练数据等等。

本文按不同的任务，以及时间线，对现有对论文进行了分类。

自然语言处理任务中的应用：

各种增广方法的时间线归类：

总结与展望

自然语言处理被誉为“人工智能皇冠上的明珠”，而语言的理解需要“知识”——狭义知识、算法和数据的约束。数据的作用越来越重要，但是目前的预训练方式，预训练任务与目标任务之间的差距较大，本文提出的伪数据方法，正是为了弥补这种差距。同时，伪数据也是融合规则知识的一种手段。

但是，对伪数据方法目前缺少更深入的理论分析，同时，也希望之后可以得到更泛化的“伪数据”生成方法。

对自然语言处理未来发展的思考：目前，随着深度学习的发展，尤其是Transformer模型的出现，不同模态的数据可以使用同一套深度学习的模型进行处理，“同质化”的趋势越来越明显。同时，由于模型的规模与表现正相关，模型规模也越来越大。自然语言处理的未来，需要拓展除语言之外的认知能力，寻找新的、更有效的“知识”来源。

Q&A

Q：在使用复述或采样等方法进行数据增广时，是否需要人工标注数据？

A：增广并不是zero-short的处理方法，而是基于已有小规模的标注数据，对原始数据做复述或增广。本质上来说，仍是需要人工标注数据。

Q：如何按照数据质量对数据进行过滤，有哪些方法？

A：进行增广之后，数据的质量可能会有所下降。对此，主要有两种应对方法：一是过滤。比如通过语言模型对生成的句子进行打分，过滤掉分数低的句子；二是直接对增广的数据进行预训练，然后在原数据上进行精调。

Q：除了对数据增广外，是否还可以对标签进行增广？

A：可以基于采样的方法，通过翻转标签等方式，对标签进行修改。

Q：如何衡量增广数据的质量与多样性？

A：根据具体的任务，需要平衡增广的质量与多样性。在保证质量的情况下，尽量增加增广数据的多样性。