对这些研究有点兴趣颇微。

文章目录

  • Rethinking Dense Retrieval’s Few-Shot Ability
  • Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder
  • PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction
  • Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking

Rethinking Dense Retrieval’s Few-Shot Ability

我们定制了一个标准的FewDR数据集和评估协议,用于少量密集的检索。该数据集是在维基百科语料库上构建的,包含41,420个样本,有60个细粒度的类别。
具体内容上,和其他的dense retrieval方法,没有感觉到有太大的不同。

Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder

传统上,大部分seq2seq任务是由编码器-解码器框架解决的,它需要一个编码器来编码源序列,一个解码器来生成目标文本。

This paper aims to address this gap by conducting a detailed comparison between the encoder-decoder architecture and the decoder-only language model framework through the analysis of a regularized encoder-decoder structure.

问题矛盾点:
1.encoder-decoder模型结构相比于decoder-ONLY结构,哪个更有优势?
2.我们揭示了语言模型中的注意力退化问题,即随着生成步骤数的增加,越来越少的注意力被集中在源序列上。


traditional ED structure named as Regularized Encoder-Decoder (RED) framework

1.为了避免注意力退化的问题,提出了单向交叉注意,单向的交叉注意同时关注源矩阵和目标矩阵;
2.连续位置编码,在target序列中的位置编码和source序列中的位置编码是连续,而不是在target中从头开始排序。


PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction

语音和视觉相似性知识对这项任务很重要。 PLOME 利用 GRU 网络根据字符的语音和笔画对此类知识进行建模。


所提出的模型将每个字符的笔画和拼音作为输入,这使得 PLOME 能够对任意字符之间的相似性进行建模。
PLOME 通过联合恢复掩码标记的真实字符和语音来学习字符和语音级别的拼写错误知识。
模型结构图

  1. we randomly mask some percentage of the input tokens and then recover them
  2. mask 15% of tokens in the corpus. In addition, we use dynamic masking strategy
  3. the final embedding of each character is the sum of character embedding, position embedding, phonic embedding and shape embedding
The probability of the character predicted for the i-th token in a given
sentence is defined as

The probability of pronunciation prediction
is defined as:


损失函数:

Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking

汉字中常见的错误类型如上文所述,一个是拼音,一个是字形。

模型结构图

The Semantic Encoder

The input tokens X = (x1, . . . , xN ) are first
projected into Ht0
through the input embedding.
Then the computation of Transformer (Vaswani
et al., 2017) encoder layers can be formulated as:

The Phonetic Encoder(拼音encoder)

 The 5 kinds of tones (take
the final “a” as an example, { a,¯ a,´ a,ˇ a, a ` }) can be
mapped into numbers {1, 2, 3, 4, 0}

The Character-level Encoder

a single-layer
uni-directional GRU (Cho et al., 2014), which encodes the pinyin of the i-th character xi as:


The Graphic Encoder

**fused module **
采用的gate机制实现的embedding的融合。

230530-论文整理-课题组2相关推荐

  1. 关系抽取论文整理,核方法、远程监督的重点都在这里

    来源 | CSDN 博客 作者 | Matt_sh,编辑 | Carol 来源 | CSDN云计算(ID:CSDNcloud) 本文是个人阅读文章的笔记整理,没有涉及到深度学习在关系抽取中的应用. 笔 ...

  2. 论文整理集合 -- 吴恩达老师深度学习课程

    吴恩达老师深度学习课程中所提到的论文整理集合!这些论文是深度学习的基本知识,阅读这些论文将更深入理解深度学习. 这些论文基本都可以免费下载到,如果无法免费下载,请留言!可以到coursera中看该视频 ...

  3. Non-Blind图像反卷积论文整理

    Non-Blind图像反卷积论文整理 1 Spatial Deconvolution Stochastic Deconvolution  2013   http://www.cs.ubc.ca/lab ...

  4. 计算机维修知识综述论文,机器学习领域各领域必读经典综述论文整理分享

    原标题:机器学习领域各领域必读经典综述论文整理分享 机器学习是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知 ...

  5. 内窥镜去反光的论文整理

    文章目录 内窥镜去反光的论文整理 Detection and correction of specular reflections for automatic surgical tool segmen ...

  6. ECCV2020超分辨率方向论文整理笔记

    ECCV2020超分辨率篇 ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,是计算机视觉三大顶级会议(另外两个是ICCV]和C ...

  7. 流量分类方法设计(一)——参考论文整理

    流量分类方法设计(一)--参考论文整理 因为最近在做流量分类有关的工作,所以将整个工作思路整理下来,希望对以后进一步的学习和论文写作有所帮助. 这一篇主要整理一下最近有关流量分类的论文,介绍他们的设计 ...

  8. WSDM'23 | 工业界搜推广nlp论文整理

    大家好,蘑菇先生. WSDM'23已公布录用结果,共收到投稿690篇,录用123篇,录用率为17.8%,完整录用论文: https://www.wsdm-conference.org/2023/pro ...

  9. ICCV2019超分辨率方向论文整理笔记

    ICCV2019超分辨率篇 IEEE International Conference on Computer Vision,即国际计算机视觉大会,与计算机视觉模式识别会议(CVPR))和欧洲计算机视 ...

  10. NAACL2021 信息抽取与少/零样本相关论文整理

    NAACL2021放榜啦!!具体情况这里! 小编对其中 事件抽取.关系抽取.NER和Few-Shot / Zero-Shot相关的论文整理如下,欢迎补充整理呦: 事件抽取 WEC: Deriving ...

最新文章

  1. windows下cmd命令行显示UTF8字符设置
  2. 初心大陆-----python宝典之以外学习对比去重
  3. WPF UI布局之概述
  4. Web 前端小白入门(一):心路历程,非技术指南
  5. Arcmap坐标系转换通用教程【简单明了】
  6. 江苏大学毕业论文答辩PPT模板
  7. python读入图片,可视化展示图片
  8. Spark——Spark Project Tungsten深入解析
  9. 易语言调用子程序_ c,易语言汇编调用子程序源码
  10. 手把手教你用 Homer 处理 fNIRS 数据
  11. 华为8.19笔试题目分析
  12. Linux服务器中Tomcat在执行./Shutdown.sh的时候报错
  13. python 读取文件去除回车
  14. lcoal Storage 介绍
  15. 顾险峰:技术爆炸的亲历观察
  16. 给博客增加豆瓣观影和阅读
  17. 前端 给确定按钮加一个确认提示
  18. 明华读卡器 java_Java调用明华RF读写器DLL文件过程解析
  19. 【寻东】source insight4.0模仿sublime text的配色方案
  20. 7-2 打印学生选课清单 (25分)(c++)

热门文章

  1. Python:等差素数数列(每日一题)
  2. android edittext控件常用属性,Android_Android EditText常用属性功能汇总,本文总结分析了Android EditText常 - phpStudy...
  3. intellij idea 设置编码
  4. 魔术般的科技!准备好迎向科技了吗?
  5. tf第八讲:global_step理解与指数衰减学习率
  6. [教程]网吧2121版本升级最新版本
  7. 高质量的超高分辨率图像分割(论文简读)
  8. 关于爱情和青春的思考
  9. Linux笔记(二)
  10. CSS命名方法之BEM