自然语言处理中的文本表示研究

资源下载地址（原论文和笔记）
INTRODUCTION
chap1文本表示基础
- 1.1 什么是文本表示?
- 1.2 为什么进行文本表示
chap2 主流技术和方法
- 文本的离散表示
- 2.1 向量空间模型VSM(离散型）
- 2.2 基于主题模型的方法
- 2.3 基于图的方法
- - 2.3.1 基于经典图论的图文本表示
  - 2.3.2 基于信息检索的图文本表示
  - 2.3.3 基于复杂网络的图文本表示
  - 2.3.4 基于知识图谱的图文本表示
- 2.4 基于神经网络的方法
- 2.5 基于深度神经网络的文本表示代表性的工作包括：
- 2.6 基于表示学习的方法
- - 2.6.2 注意力机制和表示学习
chap3 其他文本表示方法分析
- 3.1 基于事件的方法
- 3.2 基于语义的方法
- 3.3 基于知识的方法
5 总结

资源下载地址（原论文和笔记）

点击跳转

INTRODUCTION

自然语言处理的最终目标是让机器能准确地理解人类语言, 并自然地与人类进行交互.
在当前和今后很长一段时间内, 自然语言处理领域的研究重点是探索计算机如何表示、存储和处理人类语言, 设计相应的系统实现自然语言处理任务, 并评估这些系统的质量.
这种系统是采用人工智能算法或模型, 编制计算机程序模拟人的自然语言处理机制实现的. 这里有一个核心问题是如何将人类真实的自然语言转化为计算机可以处理的形式, 一般也称为自然语言的形式化或数字化, 在自然语言处理领域通常称为文本表示.
文本表示也称语言表示, 是对人类语言的一种主观性约定或描述, 是认知科学和人工智能领域中的共性和基础性问题. 认知科学认为语言表示是语言在人脑中的表现形式, 影响或决定着人类对语言的理解和产生. 而人工智能认为语言表示是指语言的形式化或数学化描述, 在计算机中表示语言并通过计算机程序自动处理, 比如词向量就是以数值向量的形式来表示一个词.。
由此可以看出, 文本表示完成自然语言数据的数字化, 是自然语言后续处理的基础性工作.
. 在计算学科, 一般认为数据决定了机器学习的上限, 而算法只是尽可能逼近这个上限

chap1文本表示基础

1.1 什么是文本表示?

语言模型(language model,LM):语言模型可以根据上下文预测下一个语言单位是什么,可以从大规模的文本中学习到语义.

① 初期——基于规则的NLP:持续性和移植性较差
② 20世纪80年代末至2010s 年,从统计角度建模的统计语言模型(statistical languagemodel,SLM)成为主流方法
③ 2003年, Bengio 等人.提出了神经网络语言模型(neural network language model,NNLM)，使用低维、稠密的实值向量表示语言中的组成要素
④近年来,基于深度学习和神经网络的语言模型成为文本表示的主流方法，预训练+微调YYDS!

1.2 为什么进行文本表示

表示学习作为目前研究和应用的热点领域, 可以自动、有效地获取文本的特征

chap2 主流技术和方法

文本的离散表示

基于布尔表示的形式(boolean representation) or one-hot，前者；
基于计数表示的形式 (count-based representation)，后者；
句子包 (bag of sentence, BOS)
词袋 BOW

2.1 向量空间模型VSM(离散型）

VSM改进的研究主要集中在两个方面

2.2 基于主题模型的方法

LDA

2.3 基于图的方法

2.3.1 基于经典图论的图文本表示

GSM (graph space model) 模型
GSM构建主要包括 3 个步骤: 第 1 步是获取文本特征, 构建节点集合 V; 第 2 步是定义特征项之间的关系, 确定节点之间的边集合 E; 第 3 步是对节点和边根据需要进行量化, 包括节点属性量化和边的权重量化.

2.3.2 基于信息检索的图文本表示

TextRank 算法:
TextRank 算法实现文本表示建模的思想是根据文本要素之间的共现关系构造无向加权图, 主要有两种应用:
一种是用于关键词提取的文本表示建模和算法
另一种是用于抽取式的无监督文本摘要方法, 类似地构建图, 但其中节点集合 V是文本中的句子集合, 将文本分割成句子的表示

2.3.3 基于复杂网络的图文本表示

文本复杂网络就是利用复杂网络来描述和建模文本, 研究语言要素及其结构. 通常将文本中的字、词或句子等语言要素表示为节点, 字、词或句子间的关系表示为边, 将文本抽象成图.

2.3.4 基于知识图谱的图文本表示

知识图谱的构建需要自然语言处理技术中的信息抽取, 包括实体抽取和关系抽取, 实体构成 G中的节点集合 V, 关系构成边的集合 E. 对于文档或文档集合, 提取其中的关键信息, 结构化并最终组织成图谱形式, 形成对文章语义信息的图谱化表示

2.4 基于神经网络的方法

基本的 NNLM实现机制：
模型由输入层、隐藏层和输出层组成, 输入第 t–1 到第 t–n+1 个单词的 one-hot 向量表示 wt–1, wt–2,…, wt–n+1, 模型预测并输出第 t 个单词的嵌入表示 wt, 隐藏层通过参数矩阵 C∈R|V|×m 将输入的每个词映射为一个向量 C(i), C(i)∈Rm 表示词典中第 i 个词对应的向量, |V|表示单词表中的单词个数, m表示向量的维度

代表性方法有 3 种：
(1) 基于卷积神经网络 CNN.：卷积神经网络对句子建模, 以句子为单位再卷积和池化, 得到篇章表示；
(2) 基于循环神经网络 RNN. 采用循环神经网络对句子建模, 然后再用循环神经网络建模以句子为单位的序列, 得到篇章表示；
(3) 混合模型. 先用循环神经网络对句子建模, 然后以句子为单位再卷积和池化, 得到篇章表示

2.5 基于深度神经网络的文本表示代表性的工作包括：

(1) ELMo (embeddings from language models)：ELMo[83] 实现了一词多义、动态更新的词嵌入建模. 先在一个大的语料库上训练语言模型, 得到词向量和神经网络结构, 接着进行领域转换 (domain transfer), 用训练数据来调优预训练好的 ELMo 模型, 这种训练数据的上下文信息就是词的语境.；
(2) Transformer/self-attention：Transformer[84] 是 Google 提出的一种文本表示全新架构模型, 用来解决 LSTM文本建模长距离依赖缺陷的问题.；
(3) Open AI GPT (generative pre-training)；
(4) BERT (bidirectional encoder representation from transformers)：BERT[88] 是一种非常成功的文本表示学习模型, 即通过一个深层模型来学习文本特征, 这个模型可以从无标记数据集中预训练得到.
(5) XLNet (extra long net)：GPT 和BERT 的出现, 使自然语言处理任务的主流做法变为预训练 & 微调 (pre-train+finetune) 的形式, 先在大规模语料库上进行有监督或无监督预训练, 然后针对特定任务对模型微调.

XLNet[89] 预训练过程

预训练语言表示分为基于特征的方法 (ELMo 为代表) 和基于微调 (Open AI GPT 为代表) 的方法. BERT 最重要的意义不在于模型选择和训练方法, 而是提出了一种全新的思路, 效果好且具备广泛的通用性, 绝大部分自然语言处理任务都可以采用类似的两阶段模式直接去提升效果.

2.6 基于表示学习的方法

表示学习和深度学习关系示意图

图模型和神经网络模型的比较

生成对抗网络 (generative adversarial networks, GAN):GAN 包含两部分: 生成器用来生成尽可能真实的自然语言文本, 去“欺骗”或“误导”判别器; 判别器尽最大努力甄别真实语言文本与生成的文本. 训练 GAN 就是使生成器和判别器相互博弈, 达到真实文本和生成器生成的文本难以区分的效果. 比较代表性的改进模型有 SegGAN、GraphGAN、ANE 等

2.6.2 注意力机制和表示学习

大多数注意力机制都是在深度学习的常见编码-解码 (encoder-decoder) 框架上发挥作用的,

基于注意力机制的编码-解码框架：注意力机制最核心的工作就是在序列的不同时刻产生不同的语言编码向量, 量化要重点关注输入序列中的哪些部分, 然后根据关注区域产生后续的输出.

chap3 其他文本表示方法分析

3.1 基于事件的方法

3.2 基于语义的方法

3.3 基于知识的方法

5 总结

目前和今后较长一段时间, 以 Word2Vec[36] 、GloVe[77] Transformer[84] 、GPT[86,87] 、BERT[88] 、XLNet[89] 、fastText[79] 为代表的嵌入式表示方法, 以为代表的自然语言深度学习框架, 以预训练加微调为代表的自然语言处理基本流程将成为进一步研究和发展的主导方向。

NLP——day37 读论文：自然语言处理中的文本表示研究（综述类 2022 软件学报）相关推荐

《预训练周刊》第19期：歧义短语的类量子语境性研究、自然语言处理中prompt方法的系统综述...
No.19 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第19期&l ...
NLP之BoWNLTK：自然语言处理中常用的技术——词袋法Bow、NLTK库
NLP之BoW&NLTK:自然语言处理中常用的技术--词袋法Bow.NLTK库目录输出结果实现代码输出结果 [[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 ...
自然语言处理中的文本聚类
声明:代码的运行环境为Python3.Python3与Python2在一些细节上会有所不同,希望广大读者注意.本博客以代码为主,代码中会有详细的注释.相关文章将会发布在我的个人博客专栏<Pyth ...
论文简读《视听觉深度伪造检测技术研究综述》
<视听觉深度伪造检测技术研究综述> 概述: 深度学习被广泛的应用于各个领域,自然语言处理.计算机视觉.无人驾驶等,推动了人工智能的发展.但在带来好处的同时,也对信息安全方面也有一定 ...
NLP自然语言处理中的文本相似度
1. 背景介绍 CSDN 及各类技术博客上有很多文本相似度方面的文章,但它们的侧重点是代码,目标受众是开发人员,代码基础薄弱的话看起来会比较吃力. 本文侧重讲述逻辑和使用场景,尝试将算法通俗化,尽量多 ...
自然语言处理中的文本分类
声明:代码的运行环境为Python3.Python3与Python2在一些细节上会有所不同,希望广大读者注意.本博客以代码为主,代码中会有详细的注释.相关文章将会发布在我的个人博客专栏<Pyth ...
读“基于深度学习的图像识别技术研究综述”有感
"基于深度学习的图像识别技术研究综述"总结现在流行的图像识别技术都是基于深度学习的算法,经过前辈们的探索改进,图像识别技术经历很多阶段,现如今图像识别技术已经广泛的应用于生活的方 ...
【大数据论文笔记】大数据技术研究综述
大数据的基本概念: 1.大数据的产生 a.科学研究 b.物联网的应用 c.海量网络信息的产生 2.大数据概念的提出 3.大数据的"4V"特征 a.Volume(容量大):大数据巨大 ...
【论文总结】并发程序变异测试研究综述_田甜，巩敦卫
并发程序: 并发程序是指包含多个并发执行流程的程序．这些执行流程可以同时执行,并在执行过程中相互通信．变异测试: 变异测试是一种面向缺陷的软件测试方法,变异测试通过对被测程序注入特定类 ...

NLP——day37 读论文：自然语言处理中的文本表示研究（综述类 2022 软件学报）