摘要

作为象形文字，汉字含有潜在的字形信息。
这一点经常被忽视。在本文中，我们提出了FGN，即融合字形网络用于中文NER。除了用一个新的CNN对字形信息进行编码外，该方法还可以提取字形信息。
融合字形网络，该方法可以通过融合机制提取字符分布式表示和字形表示之间的交互信息。
FGN的主要创新点包括 (1)提出了一种新型的CNN结构，即CGS-CNN，以获取字形信息和相邻图之间的交互信息。(2)我们提供了一种带有滑动窗口的方法和注意机制来融合每个字符的BERT表示和字形表示。这种方法可以捕获潜在的交互式语境和字形之间的潜在交互知识。我们在四个NER数据集上进行了实验。实验表明，以LSTM-CRF为标记的FGN在中文NER中取得了新的
在中文NER中取得了最先进的性能。此外，我们还进行了更多的实验，以研究各方面的影响。
进行了更多的实验来研究FGN中各种组件和设置的影响。

1.Introduction

命名实体识别（NER）通常被视为序列标记问题，并通过统计方法或神经网络解决。
命名实体识别(NER)一般被视为序列标记问题，并通过统计方法或神经网络来解决。在中文命名实体识别领域，研究人员一般采用基于字符的标记策略来标记命名实体[1, 2]。

[1]Yanan, L., Yue, Z., Dong-Hong, J.: Multi-prototype Chinese character embedding. In: Conference on Language Resources and Evaluation, pp. 855-85 9(2016).

[2]Yuxian, M., Wei, W., Fei, W., et al.: Glyce:Glyph-vectors for Chinese Character Representations. In: Advances in Neural Information Processing Systems, pp. 2742-2753 (2019).
一些研究[3, 4]

[3]Haibo, L., Masato, H., Qi, L., Heng, J.: Comparison of the impact of word segmentation on name tagging for Chinese and Japanese. In: International Conference on Language Resources and Evaluation, pp. 2532–2536 (2014).

[4]Zhangxun, L., Conghui, Z., Tiejun, Z.: Chinese named entity recognition with a sequence labeling approach. based on characters, or based on words?. Advanced Intelligent Computing Theories and Applications, 634–640 (2010).

明确比较了基于字符的方法和基于词的
的方法进行比较，证实了基于字符的方法避免了词的分割阶段的错误，性能更好。
当使用基于字符的方法进行NER时, 字符级知识表示的影响可能会极大地影响中文NER模型的性能。

目前，分布式表示学习已经成为主流的汉字表示方法。
特别是在BERT[5]的提出之后，它提高了几乎所有NLP领域的
几乎所有NLP领域的基线。然而，这些方法忽略了单词或汉字内部的信息，如中文字形。已经有一些研究，关注于单词或字符的内部成分。在英语领域，研究人员[6]使用
卷积神经网络（CNN）对单词的拼写进行编码，用于序列
标签的任务。这种方法不适合于中文NER，因为中文不是字母语言，而是象形文字语言。汉字可以被进一步分割成转换成偏旁部首。例如，"抓 "字是由 "扌"（手）和 "爪 "组成的。
"爪"(爪子)。关于基于部首的字符嵌入的研究[7]证实了这些部件在中文中的有效性。

[7]Yaming, S., Lei, L., Duyu, T., et al.: Radical-Enhanced Chinese Character Embedding. In: International Conference on Neural Information Processing, pp. 279-286 (2014).

此外，研究人员将注意力转向了将汉字视为字形的图形编码。一些研究人员[8, 9, 25]尝试运行CNN来捕捉字形信息。然而，这些工作只是获得了可忽略的改进。在Meng等人[2]避免了以前工作的缺点，提出了一个基于字形的BERT模型，称为Glyce，它在各种NLP 包括NER在内的各种NLP任务中取得了SOTA性能。他们采用Tianzige-CNN对每个汉字的七个历史和现代脚本进行编码。
田字格是中国传统的书法形式，它符合汉字内部的偏旁部首分布。然后 Transformer[10]被用作Glyce中的序列编码器。此外，Sehanobish和 Song[11]

[11]Arijit, S., Chan, S.. Using Chinese Glyphs for Named Entity Recognition. arXiv preprint arXiv:1909.09922, Computer Science (2019).

提出了一个基于字形的NER模型，称为GlyNN，它只对每个字符的黑体进行编码，以提供字形的
黑体字体来提供字形信息，并使用BiLSTM-CRF作为序列标记器。
此外，在GlyNN中还仔细考虑了非汉字的表示。与Glyce相比，带有BERT的GlyNN在多个NER数据中取得了相当的性能，使用了较少的字形资源和小的CNN。它证明了历史文字在某种程度上对NER是没有意义的。我们认为这是因为现代汉语的实体类型和数量远比古代的丰富和复杂。

上述工作只是对字形和分布式表示进行独立编码。他们忽略了字形和上下文之间的交互式知识，这一点在多模态深度学习领域已经得到了研究。
在多模态深度学习领域中被研究[12, 13, 14]。此外，由于汉字的含义并不完整，我们怀疑对每个字的编码并不是一个合适的方法。事实上，相邻字符的字形之间的交互知识可能有利于NER任务的完成。例如，像 "杨树"、"柏树 "和 "松树 "这样的树名中的字符有相同的偏旁部首 "木"，但算法名称 "决策树 "的字符却没有这样的模式。汉语中还有更多类似的模式，可以通过相邻字形之间的交互知识来区分。

因此，我们提出了FGN，即用于中文NER的融合字形网络。FGN的主要创新包括：(1) 为字形编码提供了一种新的CNN结构，称为CGS-CNN，即Character 图形序列CNN，用于字形编码。CGS-CNN可以捕捉相邻字形之间的潜在邻近字符的字形之间的信息。邻近字符的字形之间的信息。(2) 我们提供了一种融合方法，用同步外的滑动窗口和 Slice-Attention来捕获字形表示和字符表示之间的交互知识。FGN被发现可以提高NER的性能，它在四个NER数据集上的表现优于其他SOTA
模型在四个NER数据集上的表现（第4.2节）。此外，我们验证并讨论了FGN中各种建议设置的影响（第4.3节）。

2.Related Work

我们的工作与用于 NER 的神经网络有关。Ronan等人[15]提出了CNN-CRF模型，该模型获得了与各种最佳统计NER模型竞争的性能。

LSTM-CRF[16]是目前后续NER的主流组件。模型中的主流组件。为了加强词级表示，Ma和Hovy[6]提出了 LSTM-CNN-CRF结构用于序列标注，

[6]Xuezhe, M., and Eduard, H.: End-to-end Sequence Labeling via Bi-directional LSTMCNNs-CRF. In: Proceedings of the Annual Meeting of the Association for Computational Linguistics, pp. 1064-1074 (2016).

[16]Huang Z, Xu W, Yu K.: Bidirectional LSTM-CRF models for sequence tagging. arXiv preprint arXiv: 1508.01991, Computer Science (2015).

该结构采用CNN来编码该结构采用CNN编码每个英语单词的拼写，以增强语义。此外，一个核心参考表征学习方法[17]，该方法结合了 LSTM-CNN-CRF进行英语NER。在中文领域，Dong等人[18]将每个字符中的部首组织成序列，并使用LSTM网络捕捉部首信息用于中文NER。Zhang等人[19]提出了一种新的NER方法，称为LatticeLSTM，它巧妙地编码了汉字以及所有与词库相匹配的潜在词汇。

[19]Yue, Z., Jie, Y.: Chinese NER Using Lattice LSTM. In: Proceedings of the Annual Meeting of the Association for Computational Linguistics, pp.1554-1564 (2018) 这也是我们后来要看的论文
匹配的词库。在Lattice-LSTM的基础上，提出了单词-字符LSTM（WC-LSTM）[20]。

[20]Wei, L., Tongge, X., Qinghua, X.: An Encoding Strategy Based Word-Character LSTM for Chinese NER, In: Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics, pp. 2379-2389 (2019)

的基础上，提出了将词的信息加入到一个词的开头和结尾的字符中，以减轻词的影响。词的开头和结尾字符，以减轻单词分割错误的影响。

我们的工作也与一些多模态的工作有关。目前，来自视觉的知识已经在NLP中被广泛使用。我们根据视觉知识的来源将这些相关研究简单地分为两类：字形表示学习和多模态深度学习。如前所述，前者是稀缺的。我们将输入的句子转化为三维编码的图形序列。据我们所知，我们是第一个通过三维卷积[21]在句子层面上对字符字形进行编码的人，而三维卷积主要是用来编码视频信息的。后者是当前各种NLP领域的热点。Zhang等人[12]提出了一种用于推文NER的自适应共同关注网络，该网络可以自适应地平衡推文中图像表示和文本表示的融合比例。参考BERT，提出了一个多模态BERT[13]，用于面向目标的情感分类。在这个模型中使用了多个自我注意层[9]，以便在连接BERT和视觉表示后捕捉互动信息。此外，Mai等人[14]提出了一个具有局部和全局视角的融合网络，用于多模态情感计算。他们提供了一个滑动窗口来切分多模态向量，并通过外积函数融合每个切分对。他们提供了一个滑动窗口，并通过外积函数来融合每个片断对。我们的方法借鉴了上述的多模态融合方法的思路。与他们在句子层面的融合不同，我们将重点放在字符层面的融合上。

3 Model

在本节中，我们将详细介绍FGN。如图1所示，FGN可以分为三个阶段：表示阶段、融合阶段和标记阶段。我们遵循基于字符的序列标签的策略进行中文NER。

3.1 Representation Stage

这里我们讨论了汉字的表示学习，包括来自BERT的字符表示和CGS-CNN的字形表示。包括来自BERT的汉字表示和来自CGS-CNN的字形表示。这些代表的细节表示方法如下。

BERT.

BERT是一个多层Transformer编码器，它为单词或字符提供分布式表示。我们使用预先训练好的中文BERT来编码句子中的每个句子中的字符。与一般的微调策略不同，我们首先在训练集上用CRF层作为标记器对BERT进行微调（HOW TO）。然后冻结BERT的参数并将其转移到FGN中。4.3节中的实验显示了这一策略的有效性。

CGS-CNN 图2描述了CGS-CNN的结构。我们只选择简单的中文字体来生成字形向量，因为过去的工作[11]表明，只使用一种中文字体就能达到与七种字体相媲美的性能。CGS-CNN的输入格式是字符图谱序列。我们首先将句子转换为图形序列，其中的字符被替换成50×50的灰度图形。然后，我们提供两个3×3×3的三维卷积层来编码图形序列，并以8个通道输出每个50×50的图形。三维卷积可以从空间和时间两个维度上提取特征，这意味着每个字形向量可以从邻近的图形中获得额外的字形信息。使用填充对图形序列的维度进行填充，我们可以在通过三维卷积后保持图形序列的长度不变，这对基于字符的标签来说是必要的。然后，三维卷积的输出可以通过几组二维卷积和二维最大集合，将每个图形压缩成2×2的田字格结构，有 64个通道。为了过滤噪音和空白像素，我们将2×2结构压平，并采用1D最大池化法来处理。
采用1D最大集合法来提取每个字符的字形向量。字形向量的大小向量的大小被设定为64，这比Tianzige-CNN输出的大小（1024维）
与Glyce不同的是，它将图像分类任务设定为学习字形表示。我们在领域数据集中训练整个NER模型时学习CGS-CNN的参数

3.2 Fusion stage

我们提供一个滑动窗口来滑动BERT和字形表示。
在滑动窗口中，每个切片对都是通过外积来计算的，以捕捉局部的交互特征。然后用切片注意来平衡每个切片对的重要性，并将它们结合起来，输出一个融合的表征。

Out-of-sync Sliding Window.

不同步的滑动窗口

如上所述，滑动窗口已被应用于多模态情感计算[14]。使用滑动窗口的原因是，直接用外积融合向量将指数级地扩大向量大小。这增加了后续网络的空间和时间复杂性。然而，这种方法要求多模态表示具有相同的大小，这不适合同时滑动BERT矢量和字形矢量。因为BERT的字符表示比字形表示有更丰富的语义信息，需要更大的矢量尺寸。这里我们提供了一个同步外的滑动窗口，可以满足不同的矢量大小，同时保持相同的片数。

假设我们有一个汉字，其字符向量定义为

论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition相关推荐

FGN: Fusion Glyph Network for Chinese Named Entity Recognition
结合中文字形处理NLP任务的并不多推荐一篇:Glyce2.0,中文字形增强BERT表征能力 paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.052 ...
论文阅读：A Survey on Deep Learning for Named Entity Recognition
这是一篇2020年发的命名实体识别的综述性论文,从NER的语料库,定义,评估指标,到深度学习中的NER的技术都有涉及到. A Survey on Deep Learning for Named Ent ...
【论文精读】A Survey on Deep Learning for Named Entity Recognition
A Survey on Deep Learning for Named Entity Recognition 前言 Abstract 1. INTRODUCTION 2. BACKGROUND 2.1 ...
【论文阅读笔记】Occlusion-Aware Siamese Network for Human Pose Estimation
论文地址:Occlusion-Aware Siamese Network for Human Pose Estimation 论文总结本文的网络名,作者命名为OASNet.本文的出发点就如名字所 ...
【ACCV2022】论文阅读笔记Lightweight Alpha Matting Network Using Distillation-Based Channel Pruning
Lightweight Alpha Matting Network Using Distillation-Based Channel Pruning 使用基于蒸馏通道裁剪的轻量Alpha抠图网络 ht ...
自监督论文阅读笔记SELF-SUPERVISED SPECTRAL MATCHING NETWORK FOR HYPERSPECTRAL TARGET DETECTION
高光谱目标检测是一个像素级的识别问题.给定几个目标样本,它旨在从整个高光谱图像中识别特定的目标像素,例如飞机.车辆.船舶.一般来说,背景像素占图像的大部分并且分布复杂.结果,数据集的注释很弱并且非常不 ...
论文笔记 Bipartite Flat-Graph Network for Nested Named Entity Recognition | ACL2020
论文作者: 论文链接:https://arxiv.org/pdf/2005.00436.pdf 代码实现:https://github.com/cslydia/BiFlaG Abstract 作者为嵌 ...
论文笔记：Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition
文章目录摘要一.模型二.结果三.疑惑摘要文章设计了一种利用外部词典加强命名实体识别的方法,整个模型大致分为[Inner-Region Encoder].[Attentive Context ...
语音情感识别领域-论文阅读笔记1：融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...

论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition

摘要