来源:爱奇艺 EMNLP2019 Workshop

论文:https://aclanthology.org/D19-5522.pdf

代码:GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

目录

模型结构

1. 基于bert掩码语言模型的微调

2. 基于汉字相似度的解码器

汉字相似度

实验结果


模型结构

1. 基于bert掩码语言模型的微调

利用训练语料(错误-正确句子对),微调bert

  • 对于无错误的句子和bert一样构造数据,即选出15%的tokens预测,80%用[Mask]替换,10%用保持不变,10%用随机token替换
  • 对于有错误的句子,有错误的位置为需要预测的位置,标签是对应正确的token;为了防止过拟合,另外再选择相同数量的无错的位置进行预测。

2. 基于汉字相似度的解码器

汉字相似度

字形相似度(相比使用汉字图片,以下方法考虑到了笔画顺序,汉字结构之类)。考虑到复杂度,这里仅仅使用序列的信息,而不是使用树形结构信息(漢字データベースプロジェクト)

发音相似度: 1减去标准化的拼音编辑距离

在解码阶段,原有的方法是对多个特征设置不同的权重。论文同时利用bert预测的置信度和汉字之间的相似度进行解码。

首先基于训练集绘制原字-候选字相似度和bert置信度的散点图,画出能将检测错误,纠正错误与纠正正确分开的曲线。

横坐标是bert的置信度,纵坐标是汉字的相似度

最后选择的时候根据这个曲线进行选择。

这个曲线是要手工调整的,其实就是在解码的时候,综合考虑字的相似度以及bert预测的输出概率

可实现在召回率损失不大的基础上,提高准确率

实验结果

——FT代表去掉微调

——CSD代表去掉基于汉字相似度的解码器

论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based相关推荐

  1. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

  2. 论文阅读:DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios(附数据集地址)

    论文阅读:DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios 基于现实场景的大规模中文事件抽 ...

  3. 三维目标检测论文阅读:PointPillars: Fast Encoders for Object Detection from Point Clouds

    PointPillars: Fast Encoders for Object Detection from Point Clouds code ID: https://github.com/nuton ...

  4. 论文阅读 (81):Fast Feature Fool: A Data Independent Approach to Universal Adversarial Perturbations

    文章目录 1 概述 1.1 题目 1.2 摘要 1.3 代码 1.4 引用 2 快速特征愚弄 (Fast feature fool) 3 实验 3.1 在不同网络上生成的扰动 3.2 数据集示意 3. ...

  5. 论文阅读DefectNet: Toward Fast and Effective Defect Detection缺陷网:走向快速有效的缺陷检测

    DefectNet: Toward Fast and Effective Defect Detection缺陷网:走向快速有效的缺陷检测 期刊:IEEE Transactions on Instrum ...

  6. fast-lio2论文阅读 《FAST-LIO2: Fast Direct LiDAR-inertial Odometry》

    [摘要] 本文提出了FAST-LIO2:一个快速.鲁棒和通用的激光雷达惯性里程计框架.FAST-LIO2基于一个高效的紧密耦合迭代卡尔曼滤波器,FAST-LIO2有两个关键的新特性,允许快速.鲁棒和精 ...

  7. 【论文阅读】ICRA2021: VDB-EDT An Efficient Euclidean Distance Transform Algorithm Based on VDB Data Struct

    参考与前言 Summary: 浩哥推荐的一篇 无人机下的建图 and planning实验 Type: ICRA Year: 2021 论文链接:https://arxiv.org/abs/2105. ...

  8. 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition

    论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...

  9. 【论文阅读】FC-Net: A Method of Few-Shot Network Intrusion Detection Based on Meta-Learning Framework

    文章目录 0. Abstract 1. Introduction 2. Problem Formulation 3. Network Traffic Representation (数据与其处理方式) ...

最新文章

  1. scrum项目管理_Scrum,用于初创企业(或针对该项目的任何项目)
  2. 当物联网实时工作时,城市才是“智能”的
  3. python使用缩进作为语法边界-俄罗斯方块之Python实现代码(一)
  4. 【Matlab】利用 LMI 解矩阵不等式方程
  5. 【知识星球】3D网络结构解读系列上新
  6. 中两个数做减法_人生下半场,学会做减法
  7. OSGi.NET 学习笔记 [模块化和插件化][概念]
  8. ××× L2TP over IPSec 配置
  9. IplImage 应用解读
  10. [LoadRunner]LR11安装或破解时报错的解决方法
  11. 程序设计c语言作业章春芳,C语言说课PPT
  12. java isnull方法_isnull函数详解
  13. Android原生开发饱和后,为什么还有这么多人没转行?,渣本Android开发小伙如何一步步成为架构师
  14. 机器学习——神经网络(三):线性神经网络
  15. DDR中的一些知识点说明(ODT,ZQ校准,OCT,TDQS)【转载】
  16. 毕业设计之基于Qt数字音频处理软件设计
  17. 关于宏文档开启宏后还是不能正常使用问题
  18. table行的折叠和展开
  19. 微型计算机ccc认证依据,3C检测规定
  20. kinectfusion解析_2019/02/09 对于KinectFusion 的理解

热门文章

  1. windows下WMI使用C++查询用户硬件信息
  2. 《Core Java 课件》Day02
  3. 基于linux桌面3d面打印机,基于DLP技术的桌面级3D打印机研发
  4. php的ftp怎么代理访问,利用PHP登陆FTP实现服务器资源同步 | Lancer's Blog
  5. 干货||Selenium自动化测试网页
  6. 测试面试题,自动化测试与性能测试篇(附答案)
  7. matlab ds18b20 单片机,基于51单片机ds18b20温度检测————设计报告.doc
  8. HTTP和RPC的区别?
  9. 全网最全的Postman接口自动化测试
  10. java获取汉字的拼音首字母_java获取汉字的拼音首字母