使用Soft-Masked BERT纠正拼写错误

Shaohua Zhang 1 , Haoran Huang 1 , Jicong Liu 2 and Hang Li 1 1 ByteDance AI Lab 2 School of Computer Science and Technology, Fudan University { zhangshaohua.cs,huanghaoran,lihang.lh } @bytedance.com jcliu15@fudan.edu.cn

摘要

拼写错误纠正是一项重要而富有挑战性的任务,因为要解决拼写错误,基本上需要人类的语言理解能力。在不失一般性的情况下,本文考虑了中文拼写纠错(CSC)。该任务的最先进方法是根据BERT语言表示模型,从候选字符列表中选择一个字符,以便在句子的每个位置进行更正(包括非更正)。然而,该方法的精度可能是次优的,因为BERT没有足够的能力检测每个位置是否存在错误,这显然是由于使用mask语言建模对其进行预训练的方式。在这项工作中,我们提出了一种新的神经结构来解决上述问题,它包括一个错误检测网络和一个基于BERT的错误校正网络,前者通过我们称之为软掩蔽技术连接到后者。我们使用“软蒙蔽BERT”的方法是通用的,它可以用于其他语言检测-校正问题。在两个数据集上的实验结果表明,我们提出的方法的性能明显优于基线,包括单独基于BERT的方法。

1引言

拼写错误纠正是一项重要的任务,旨在纠正文本中单词级或字符级的拼写错误(于和李,2014;于等人,2014;张等人,2015;王等人,2018b;洪等人,2019;王等人,2019)。它对于许多自然语言应用至关重要,如搜索(Martins and Silva,2004;Gao et al.,2010)、光学字符识别(OCR)(Afli et al.,2016;Wang et al.,2018b)和论文评分(Burstein and Chodorow,1999)。在本文中,我们考虑了汉字层面的汉语拼写纠错(CSC)。
    拼写错误纠正也是一项非常具有挑战性的任务,因为要彻底解决这个问题,系统需要具备人类水平的语言理解能力。如表1所示,这里至少有两个挑战。首先,纠正拼写错误需要世界知识。
    性格字 在第一句中,错误地写为子 , 哪里金 子 塔 指金塔和金 字 塔 表示金字塔。人类可以通过参考世界知识来纠正拼写错误。其次,有时还需要推理。在第二句中,第四个字符生 错误地写为胜 . 事实上胜 周围的字符组成一个新的有效单词求 胜 欲 (渴望胜利),而不是预期的词语求 生 欲 (渴望生存)。
    对于CSC或更普遍的拼写错误纠正,已经提出了许多方法。以前的方法主要分为两类。一种采用传统的机器学习,另一种采用深度学习(Yu等人,2014;Tseng等人,2015;Wang等人,2018b)。例如,Zhang等人(2015)提出了一个统一的CSC框架,该框架由错误检测、候选生成和使用传统机器学习的最终候选选择管道组成。Wang et al.(2019)提出了一个具有复制机制的Seq2Seq模型,该模型将输入句子转换为新句子,并纠正拼写错误。
    最近,语言表示模型BERT(Devlin et al.,2018)成功应用于许多语言理解任务,包括CSC(参见(Hong et al.,2019))。在使用BERT的最新方法中,首先使用大型未标记数据集对字符级BERT进行预训练,然后使用标记数据集对其进行微调。标记的数据可以通过数据扩充获得,其中拼写错误的示例是使用大型混淆表生成的。最后,利用模型从给定传感器每个位置的候选人列表中预测最可能的字符。这种方法很强大,因为BERT有一定的能力获得语言理解的知识。我们的实验结果表明,该方法的准确性可以进一步提高。一个观察结果是,模型的错误检测能力不够高,一旦检测到错误,模型就有更好的机会进行正确的校正。我们假设这可能是由于使用mask语言建模对BERT进行预训练的方式,其中文本中只有大约15%的字符是掩码式的,因此它只学习掩码式tokens的分布,并且倾向于选择不进行任何更正。这种现象很普遍,对于在某些任务(如拼写错误纠正)中使用BERT来说,这是一个根本性的挑战。
    为了解决上述问题,我们在这项工作中提出了一种新的神经结构,称为软掩码式BERT。软屏蔽BERT包含两个网络,一个是检测网络,一个是基于BERT的校正网络。校正网络类似于单独使用BERT的方法。
    检测网络是一个Bi GRU网络,它预测字符在每个位置出错的概率。然后利用该概率对该位置处的字符嵌入进行软掩蔽。软掩码是传统“硬掩码”的扩展,即当错误概率等于1时,前者退化为后者。然后将每个位置的软屏蔽嵌入输入到校正网络中。校正网络使用BERT进行误差校正。这种方法可以迫使模型在端到端联合训练期间,在检测网络的帮助下学习正确的纠错上下文。
    我们进行了实验来比较软掩码式BERT和几个基线,包括单独使用BERT的方法。作为数据集,我们使用了SIGHAN的基准数据集。我们还创建了一个名为News Title的大型高质量评估数据集。这个包含新闻文章标题的数据集比以前的数据集大十倍。实验结果表明,软掩蔽BERT在两个数据集上的准确度度量显著优于基线。
    这项工作的贡献包括:(1)针对CSC问题提出了新的神经结构软屏蔽BERT,(2)对软屏蔽BERT的有效性进行了实证验证。
表1:中文拼写错误示例

2我们的方法

2.1问题和动机

汉语拼写错误纠正(CSC)可以形式化为以下任务。给定一个由n个字符(或单词)组成的序列X=(X 1,X 2,···,X n),目标是将其转换为另一个长度相同的字符序列Y=(Y 1,Y 2,···,Y n),其中X中不正确的字符替换为正确的字符以获得Y。
    该任务可以看作是一个序列标记问题,其中模型是一个映射函数f:X→ Y然而,这项任务比较容易,因为通常不需要或只需要替换几个字符,而应该复制所有或大部分字符。
    CSC最先进的方法是使用BERT来完成任务。我们的初步实验表明,如果指定了错误字符,则可以提高该方法的性能(参见第3.6节)。一般来说,基于BERT的方法倾向于不进行校正(或只是复制原始字符)。我们的解释是,在BERT的预训练中,只有15%的字符被掩码式用于预测,导致学习的模型不具备足够的错误检测能力。这促使我们设计新的模型。

2.2模型

我们为CSC提出了一种称为软屏蔽BERT的新型神经网络模型,如图1所示。软屏蔽BERT由基于Bi-GRU的检测网络和基于BERT的校正网络组成。检测网络预测错误概率,校正网络预测错误纠正概率,而前者使用软掩码将其预测结果传递给后者。
    更具体地说,我们的方法首先为输入句子中的每个字符创建一个嵌入,称为输入嵌入。接下来,它将嵌入序列作为输入,并使用检测网络输出字符序列(嵌入)的错误概率。然后,它计算输入嵌入和[MASK]嵌入的加权和,这些嵌入由错误概率加权。计算出的嵌入mask了序列中可能出现的错误。然后,我们的方法将软屏蔽嵌入序列作为输入,并使用校正网络输出错误校正概率,校正网络是一个BERT模型,其最后一层由所有特征的softmax函数组成。在输入嵌入和最后一层的嵌入之间还有一个剩余连接。接下来,我们描述模型的细节。

图1:软屏蔽BERT的体系结构

2.3检测网络

检测网络是一个连续的二元拉贝林模型。输入是em-beddings E=(E 1,E 2,···,E n)的序列,其中E i表示字符x i的嵌入,它是字符的单词嵌入、位置嵌入和片段嵌入的总和,如BERT所示。输出是一系列标签G=(G 1,G 2,···,G n),其中G i表示i字符的标签,1表示字符不正确,0表示字符正确。对于每个字符,都有一个概率pi,表示为1的可能性。p i越高,字符错误的可能性越大。
    在这项工作中,我们将检测网络实现为双向GRU(Bi GRU)。对于序列的每个字符,错误概率p i定义为

,其中表示检测网络给定的条件概率,σ表示sigmoid函数,h d i表示Bi-GRU、W d和b-dare参数的隐藏状态。此外,隐藏状态定义为

,其中表示从两个方向串联GRU隐藏状态,GRU是GRU函数。
    软掩码相当于输入嵌入和mask嵌入的加权和,错误概率作为权重。第i个字符的软屏蔽嵌入e′i定义为

,其中e i是输入嵌入,e mask是mask嵌入。如果错误概率较高,则软掩码嵌入e′i与mask嵌入e mask接近;否则,它接近于输入嵌入e i。

2.4校正网络

校正网络是基于BERT的序贯多类标记模型。输入是软屏蔽嵌入序列E′=(E′1,E′2,···,E′n),输出是字符序列
    BERT由12个相同块组成的堆栈组成,将整个序列作为输入。每个块包含一个多头部自我注意力操作,然后是一个前馈网络,定义为:其中Q、K和V是表示前一块输入序列或输出的相同矩阵,多头部、注意力和FNN分别表示多头部自我注意力、自我注意力和前馈网络,W O、W Q i、W K i、W V i、W 1、W 2、b 1,和b 2是参数。我们表示BERT最后一层的隐藏状态序列,对于序列的每个字符,纠错概率定义为

,其中是将字符x i纠正为候选列表中的字符j的条件概率,softmax是softmax函数,h′i表示隐藏状态,以及裸参数。这里,隐藏状态h′i通过与剩余连接的线性组合获得,其中h c i是最后一层的隐藏状态,e i是字符x i的输入嵌入。校正网络的最后一层利用softmax功能。从候选字符列表中选择概率最大的字符作为字符x i的输出。

2.5学习

软屏蔽BERT的学习是端到端进行的,前提是对BERT进行预训练,并给出由成对的原始序列和校正序列组成的训练数据,表示为

。创建训练数据的一种方法是,使用混淆表(其中i=1,2,···,N)重复生成一个包含错误的序列X i,给定一个没有错误的序列Y i。
    学习过程通过优化两个目标来驱动,分别对应于错误检测和错误纠正


    其中,L是检测网络的训练目标,L c是校正网络的训练目标(也是最终决策)。这两个函数被线性组合为学习的总体目标


    式中λ∈ [0,1]是系数。

3实验结果

3.1数据集

我们使用了SIGHAN数据集,这是CSC 1的基准。SIGHAN是一个小数据集,包含1100个文本和461种错误(字符)。
    本文选自《对外汉语测试》的作文部分,选题范围较窄。我们采用了SIGHAN的训练、开发和测试数据的标准分割。
    我们还为测试和开发创建了一个更大的数据集,称为新闻标题。我们在头条这一中文新闻应用程序上对新闻文章的标题进行了抽样,头条是一个政治、娱乐、体育、教育等内容丰富的中文新闻应用程序。为了确保数据集包含足够数量的错误句子,我们从质量较低的文本中进行了抽样,因此数据集的错误率高于平时。三个人进行了五轮标记,仔细纠正标题中的拼写错误。数据集包含15730个文本。共有5423个文本包含错误,3441种类型。我们将数据分为测试集和开发集,每个测试集包含7865个文本。
    此外,我们遵循CSC中的常见做法,自动生成用于训练的数据集。我们首先在中文新闻应用程序上抓取了大约500万条新闻标题。我们还创建了一个混淆表,其中每个字符都与许多同音字符关联,作为潜在错误。接下来,我们将文本中15%的字符随机替换为其他字符以人工生成错误,其中80%是表中的同音字符,20%是随机字符。这是因为在实践中,由于人们使用基于拼音的输入法,大约80%的汉语拼写错误是同音字。

3.2基线

为了进行比较,我们采用以下方法作为基线。我们从他们的原始论文中报告了这些方法的结果。
    NTOU是一种使用n-gram模型和基于规则的分类器的方法(Tseng等人,2015)。
    NCTU-NTUT是一种利用词向量和条件随机场的方法(Tseng等人,2015)。HanSpeller++是一个统一的框架,使用隐马尔可夫模型生成候选人,并使用过滤器对候选人重新排序(Zhang等人,2015)。Hybrid使用基于BiLSTM的模型,在生成的数据集上进行训练的(Wang等人,2018b)。
    Confusionset是一个Seq2Seq模型,由指针网络和复制机制组成(Wang et al.,2019)。FASPell采用Seq2Seq模型进行CSC,采用BERT作为去噪自动编码器和解码器(Hong等人,2019)。BERT-预训练是使用预先训练的BERT的方法。BERT微调是使用微调BERT的方法。

3.3实验设置

作为评估指标,我们使用了句子水平的准确性、精确性、召回率和F1分数,这与之前的大多数工作一样。我们评估了一种方法在检测和校正方面的准确性。显然,校正比检测更困难,因为前者依赖于后者。
    实验中使用的预训练BERT模型是https://github.com/huggingface/transformers。在对BERT进行微调时,我们保留了默认的超参数,仅使用Adam对参数进行微调。为了减少训练技巧的影响,我们没有使用动态学习率策略,并将学习率保持在2 e− 5微调。Bi GRU中隐藏单元的大小为256,所有型号都使用320的批量大小。
    在SIGHAN上的实验中,对于所有基于BERT的模型,我们首先使用500万个训练示例对模型进行微调,然后继续使用SIGHAN中的训练示例进行微调。为了提高效率,我们删除了训练数据中不变的文本。在新闻标题的实验中,仅使用500万训练示例对模型进行了微调。
    开发集用于SIGHAN和News Title的超参数调整。
    为每个数据集选择了超参数λ的最佳值。

3.4主要结果

表2给出了两个测试数据集上所有方法的实验结果。从表中可以看出,在这两个数据集上,所提出的模型软掩码式BERT显著优于基线方法。特别是在新闻标题上,软蒙面BERT在所有指标上的表现都比基线好得多。
    在新闻标题数据集上,更正级别召回的最佳结果大于54%,这意味着将发现54%以上的错误,更正级别精度优于55%。
    HanSpeller++在SIGHAN上实现了最高的精度,显然是因为它可以通过大量手工编制的规则和功能消除错误检测。虽然规则和特征的使用是有效的,但该方法的开发成本很高,并且在推广和适应方面也有困难。在某种意义上,它不能直接与其他基于学习的方法(包括软蒙面BERT)相比。除Confusionset外,所有方法的结果都是在句子层面,而不是在字符层面。(角色级别的结果看起来更好。)尽管如此,软面具BERT仍然表现得更好。
    使用BERT、软屏蔽BERT、BERT Finetune和FASPell这三种方法的性能优于其他基线,而BERT Pretrain方法的性能相当差。结果表明,没有微调的BERT(即BERT预训练)无法工作,而带有微调的BERT(即BERT微调等)可以显著提高性能。在这里,我们看到了BERT的另一个成功应用,它可以获得一定数量的语言理解知识。此外,软屏蔽BERT可以在两个数据集上以较大的优势击败BERT Finetune。结果表明,错误检测对于BERT在CSC中的应用非常重要,而软掩码确实是一种有效的手段。
表2:CSC上不同方法的性能

表3:不同规模的训练数据的影响

3.5超参数的影响

我们给出了软屏蔽BERT对新闻标题测试数据的结果,以说明参数和数据大小的影响。
    表3显示了使用不同大小的训练数据学习的软屏蔽BERT和BERT微调的结果。可以发现,当大小为500万时,软屏蔽BERT的效果最好,这表明使用的训练数据越多,可以获得更高的性能。我们还可以观察到,软蒙面BERT始终优于BERT Finetune。
    λ值越大,表示误差校正的权重越高。错误检测比错误纠正更容易,因为前者本质上是一个二元分类问题,而后者是一个多类分类问题。表5给出了超参数λ的不同软屏蔽BERT值的结果。λ为0.8时,F1得分最高。这意味着在检测和校正之间达成了良好的折衷。

3.6消融研究

我们在两个数据集上对软屏蔽BERT进行了消融研究。表4显示了新闻标题的结果。(由于空间限制,我们省略了关于SIGHAN的结果,其趋势类似。)在软屏蔽BERT-R中,去除了模型中的剩余连接。在硬屏蔽BERT中,如果检测网络给出的错误概率超过阈值(0.95、0.9、07),则当前字符的嵌入设置为[MASK]token的嵌入,否则嵌入保持不变。在随机屏蔽BERT中,错误概率随机化,值介于0和1之间。我们可以看到,软屏蔽BERT的所有主要组件都是实现高性能所必需的。我们还尝试了“BERT Finetune+Force”,其性能可以视为上限。在该方法中,我们让BERT微调到仅在存在错误的位置进行预测,并从候选列表的其余部分中选择一个字符。结果表明,软蒙面BERT算法仍有很大的改进空间。
表4:软蒙面BERT对新闻标题的消融研究

表5:λ不同值的影响

3.7讨论

我们观察到,软屏蔽BERT能够比BERT Finetune更有效地利用全局上下文信息。通过软掩码,可以识别可能的错误,因此,模型可以更好地利用BERT的能力,通过不仅参考局部上下文,而且还参考全局上下文,对错误纠正进行合理的推理。例如,句子’我 会 说 一 点 儿 , 不 过 一个 汉 子 也 看 不 懂 , 所 以 我 迷 路 了 ’(我会说一点中文,但我不懂中文。所以我迷路了。)。单词’汉 子 ’(man)不正确,应写为’汉 字 ’(中文字符)。BERT Finetune不能纠正错误,但软屏蔽BERT可以纠正错误,因为错误纠正只能通过全局上下文信息进行。
    我们还发现,几乎所有方法都存在两种主要类型的错误,包括软屏蔽BERT,这会影响性能。为了统计错误,我们从测试集中抽取了100个错误。
    我们发现,67%的错误需要很强的推理能力,11%的错误是由于缺乏世界知识,其余22%的错误没有明显的类型。
    第一类错误是由于缺乏推理能力。准确纠正此类错误需要更强的推理能力。例如,对于句子’他主 动 拉 了 姑 娘 的 手 , 心 里 很 高 心 , 嘴 上 故 作 生 气 ’ (他故意拉着女孩的手,非常生气,但假装生气。)如果无法理解不正确的单词“x”,可能会有两种可能的更正,更改’高 心 ’ 至’寒 心 ’(冷却)和更换’高 心 ’ 至’高 兴 ’(快乐),而后者对人类更为合理。可以看出,为了进行更可靠的修正,模型必须具有更强的推理能力。
    第二类错误是由于缺乏世界知识。例如,在句子’芜 湖 : 女 子 落 入 青 戈 江 , 众 人 齐 救 援 ’ (芜湖:这名女子掉进了青葛河,人们尽力营救她。)”青 戈 江 ’ (青葛河)是’青 弋 江 ’ (清余河)。人类可以发现拼写错误,因为中国芜湖市的河流被称为青鱼而不是青歌。对于一般人工智能系统中的现有模型来说,检测和纠正此类错误仍然是一个非常具有挑战性的问题。

4相关工作

迄今为止,人们对拼写错误纠正进行了各种研究,这在许多应用中起着重要作用,包括搜索(Gao等人,2010年)、光学字符识别(OCR)(Afli等人,2016年)和论文评分(Burstein和Chodorow,1999年)。
    汉语拼写纠错(CSC)是一种特例,但由于其与汉语分词的结合,更具挑战性,这一点得到了大量的研究(Yu等人,2014;Yu和Li,2014;Tseng等人,2015;Wang等人,2019)。CSC的早期工作遵循错误检测、候选生成和最终候选选择的流程。一些研究人员采用了使用语言模型和规则的无监督方法(Yu和Li,2014;Tseng et al.,2015),其他研究人员将其视为一个顺序标签问题,并采用了条件随机场或隐马尔可夫模型(Tseng et al.,2015;Zhang et al.,2015)。最近,深度学习被应用于拼写错误纠正(Guo et al.,2019;Wang et al.,2019),例如,采用了以BERT为编码器的Seq2Seq模型(Hong et al.,2019),该模型将输入句子转换为拼写错误得到纠正的新句子。
    BERT(Devlin et al.,2018)是一种语言表示模型,其架构为Transformer编码器。BERT首先以自我监督的方式使用一个非常大的语料库进行预训练(mask语言建模和下一句预测)。然后,在下游任务中使用少量标记数据对其进行微调。自成立以来,BERT在几乎所有的语言理解任务中都表现出了优异的表现,例如GLUE挑战赛(Wang等人,2018a)。BERT表现出了很强的获取和利用知识进行语言理解的能力。最近,还提出了其他语言表示模型,如XLNET(Yang et al.,2019)、Roberta(Liu et al.,2019)和ALBERT(Lan et al.,2019)。在这项工作中,我们将BERT扩展到软掩码式BERT来进行拼写错误纠正,据我们所知,之前没有提出过类似的体系结构。

5结论

在本文中,我们提出了一种新的用于拼写错误纠正的神经网络结构,更具体地说是中文拼写错误纠正(CSC)。我们的模型称为软屏蔽BERT,它由检测网络和基于BERT的校正网络组成。检测网络识别给定句子中可能不正确的字符,并对字符进行软屏蔽。校正网络以软屏蔽字符为输入,对字符进行校正。
    软掩蔽技术是通用的,在其他检测校正任务中可能有用。
    在两个数据集上的实验结果表明,软屏蔽BERT方法明显优于仅利用BERT的最新方法。作为未来的工作,我们计划将软屏蔽BERT扩展到语法错误纠正等其他问题,并探索实现检测网络的其他可能性。

参考文献

Haithem Afli, Zhengwei Qiu, Andy Way, and Páraic Sheridan. 2016. Using smt for ocr error correction of historical texts. In Proceedings of the Tenth international Conference on Language Resources and Evaluation (LREC’16) , pages 962–966.

Jill Burstein and Martin Chodorow. 1999. Automated essay scoring for nonnative english speakers. In Proceedings of a Symposium on Computer Medi- ated Language Assessment and Evaluation in natural Language Processing , pages 68–75. Association for Computational Linguistics.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understand- ing. arXiv preprint arXiv:1810.04805 .

Jianfeng Gao, Xiaolong Li, Daniel Micol, Chris Quirk, and Xu Sun. 2010. A large scale ranker-based system for search query spelling correction . In COL- ING 2010, 23rd International Conference on Com- putational Linguistics, Proceedings of the Confer- ence, 23-27 August 2010, Beijing, China , pages 358– 366.

Jinxi Guo, Tara N Sainath, and Ron J Weiss. 2019. A spelling correction model for end-to-end speech recognition. In ICASSP 2019-2019 IEEE international Conference on Acoustics, Speech and Signal Processing (ICASSP) , pages 5651–5655. IEEE.

Yuzhong Hong, Xianguo Yu, Neng He, Nan Liu, and Junhui Liu. 2019. Faspell: A fast, adaptable, sim- ple, powerful chinese spell checker based on dae- decoder paradigm. In Proceedings of the 5th workshop on Noisy User-generated Text (W-NUT 2019) , pages 160–169.

Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942 .

Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Man- dar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining ap- proach. arXiv preprint arXiv:1907.11692 .

Bruno Martins and Mário J. Silva. 2004. Spelling correction for search engine queries . In Advances in Natural Language Processing, 4th International Conference, EsTAL 2004, Alicante, Spain, October 20-22, 2004, Proceedings , pages 372–383.

Yuen-Hsien Tseng, Lung-Hao Lee, Li-Ping Chang, and Hsin-Hsi Chen. 2015. Introduction to sighan 2015 bake-off for chinese spelling check. In Proceedings of the Eighth SIGHAN Workshop on Chinese language Processing , pages 32–37.

Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman. 2018a. Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461 .

Dingmin Wang, Yan Song, Jing Li, Jialong Han, and Haisong Zhang. 2018b. A hybrid approach to automatic corpus generation for chinese spelling check. In Proceedings of the 2018 Conference on empirical Methods in Natural Language Processing , pages 2517–2527.

Dingmin Wang, Yi Tay, and Li Zhong. 2019. Confusionset-guided pointer networks for chinese spelling check. In Proceedings of the 57th Annual Meeting of the Association for Computational Lin- guistics , pages 5780–5785.

Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Car- bonell, Ruslan Salakhutdinov, and Quoc V Le. 2019. Xlnet: Generalized autoregressive pretrain- ing for language understanding. arXiv preprint arXiv:1906.08237 .

Junjie Yu and Zhenghua Li. 2014. Chinese spelling error detection and correction based on language model, pronunciation, and shape . In Proceedings of The Third CIPS-SIGHAN Joint Conference on chinese Language Processing , pages 220–223, Wuhan, China. Association for Computational Linguistics.

Liang-Chih Yu, Lung-Hao Lee, Yuen-Hsien Tseng, and Hsin-Hsi Chen. 2014. Overview of sighan 2014 bake-off for chinese spelling check. In proceedings of The Third CIPS-SIGHAN Joint Conference on Chinese Language Processing , pages 126–132.

Shuiyuan Zhang, Jinhua Xiong, Jianpeng Hou, Qiao Zhang, and Xueqi Cheng. 2015. Hanspeller++: A unified framework for chinese spelling correction. In Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing , pages 38–45.

Spelling Error Correction with Soft-Masked BERT相关推荐

  1. 论文解读:Spelling Error Correction with Soft-Masked BERT

    论文解读:Spelling Error Correction with Soft-Masked BERT(2020ACL)   拼写错误纠错是一个比较重要且挑战的任务,非常依赖于人类的语言理解能力.本 ...

  2. 论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction

    论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction 简要信息: 序号 属性 值 1 模型 ...

  3. 【论文阅读】Spelling Error Correction with Soft-Masked BERT

    文章目录 论文内容 摘要(Abstract) 1. 介绍(Introduction) 2. 方法(Our Approach) 2.1 问题和思路(Problem and Motivation) 2.2 ...

  4. Self-Supervised Curriculum Learning for Spelling Error Correction

    半监督课程学习用于中文拼写纠错任务 课程学习(CL) 以一种从易到难的顺序促进模型训练,该方法需要对数据难度和训练细则进行仔细设计. 纠错中得数据的难易程度受许多因素的影响,如句子长度.词的稀缺性和错 ...

  5. 【语音】论文阅读笔记 Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM

    目录 摘要 介绍 预备和相关工作 1. CTC-based ASR 2. Masked LM 3. ASR error correction 提出的方法 1. Phone-conditioned Ma ...

  6. 复现有道NLPCC-2018 CGEC:A Neural Machine Translation Approach to Chinese Grammatical Error Correction

    有道NLPCC-2018 CGEC任务论文:A Neural Machine Translation Approach to Chinese Grammatical Error Correction ...

  7. COA-2019-第十章 Error Correction

    lecture10 Error Correction 1. 错误(Error) A semiconductor memory system is subject to errors(半导体系统容易导致 ...

  8. Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精

    Jabba: hybrid error correction for long sequencing reads using maximal exact matches 机译:Jabba:使用最大精确 ...

  9. Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错

    Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错 作者: Liu Yuansheng; Lan Chaowang; Blu ...

最新文章

  1. 使用PowerDesigner 建立mysql数据表
  2. python—gc.collect()清楚内存
  3. android系统文件的权限
  4. 修改mysql字符集后如何生效_修改MySQL字符集
  5. matlab 大数阶乘,紧急求助:怎么用matlab计算1000的阶乘啊?
  6. 互联网日报 | 1月30日 星期六 | 苹果单季营收首破1000亿美元;特斯拉连续六个季度盈利;全球新冠肺炎确诊病例超1亿例...
  7. Word控件Spire.Doc 【页面背景】教程(1) ;C#/VB.NET:在 Word 中插入水印
  8. delphi7中的局部变量和全局变量
  9. 六度好友算法【转载】
  10. win7计算机资源管理器卡住,如何解决win7系统资源管理器已停止工作的问题
  11. android记账本折线图_小熊记账本
  12. matlab shading颜色设置,关于matlab中pcolor显示图片时的shading设置问题
  13. 计算机组成原理复习要点与考题类型--选择-填空-分析-计算-简答
  14. 130 个令你眼前一亮的网站,总有用得着的
  15. 我可以借助计算机在家里工作翻译,请帮我翻译下面句子
  16. pycharm光标变粗变宽
  17. Easy-Pay一行代码解决支付宝微信支付功能
  18. 牛客小白月赛6 G.指纹锁
  19. Highly SMAC
  20. 使用 Python 的铅笔素描图像

热门文章

  1. 程序员为什么要英文好?
  2. Vibrant Ink Theme for IntelliJ IDEA
  3. python画长方形的代码_python使用turtle画一个三角形、正方形(矩形或四边形)
  4. 软件缺陷报告与JIRA工具使用学习笔记
  5. java 文件移动_java 文件移动
  6. 抖音可以传多长的视频?
  7. Vba Excel 自动分级
  8. Win32 OpenGL 编程(1)Win32下的OpenGL编程必须步骤
  9. 不用工具,如何快速计算文件的MD5?
  10. mac上的kindle打开mobi文件的方式