Abstract & Introduction & Related Work

研究任务
- word representation
已有方法和相关工作
- 基于形态学的分解
面临挑战
- 流行的学习这种表征的模型忽略了单词的形态，为每个单词分配了一个不同的向量。这是一个局限性，特别是对于具有大词汇量和许多稀有词汇的语言来说
创新思路
- 提出了一种基于skipgram的模型，每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示；单词被表示为这些表示的总和
- 允许我们为训练数据中没有出现的词计算词的表征
实验结论

Model

我们通过考虑子词单位来建立形态学模型，并通过其字符n-grams的总和来表示单词。我们将首先介绍我们用来训练词向量的一般框架，然后介绍我们的子词模型，最后描述我们如何处理字符n-grams的字典

General model

Word2Vec的思想是用上下文词来预测中心词

预测语境词的问题可以被视为一组独立的二元分类任务。那么目标就是独立预测上下文词的存在（或不存在）。对于位置t的词，我们将所有的上下文词视为正例，并从字典中随机抽取负例。对于一个选定的上下文位置c，使用二元逻辑损失，我们得到以下负对数似然：

s是向量内积

Subword model

每个词w被表示为一袋子char n-gram。我们在词的开头和结尾添加了特殊的边界符号<和>，以便将前缀和后缀与其他字符序列区分开来。我们还将单词w本身包含在其n-grams的集合中，以学习每个单词的表示方法（除了字符n-grams之外）。以单词where和n=3为例，它将由字符n-grams来表示：

请注意，对应于单词her的序列 <her> 与来自单词where的 tri-gram her不同。在实践中，我们提取了n大于等于3和小于等于6的所有n-grams。这是一个非常简单的方法，可以考虑不同的n-grams集合，例如，提取所有的前缀和后缀

这个简单的模型允许在不同的词之间共享表征，从而允许学习稀有词的可靠表征

为了约束内存需求，使用哈希将所有的子词映射到一个整数

Results

Conclusion

在本文中，我们研究了一种通过考虑子词信息来学习单词表征的简单方法。我们的方法是将字符n-grams纳入skipgram模型，这与Schütze（1993）提出的一个想法有关。由于其简单性，我们的模型训练速度快，不需要任何预处理或监督。我们表明，我们的模型优于不考虑子词信息的基线，以及依靠形态分析的方法。我们将开放我们的模型的实现，以促进未来学习子词表征的工作的比较

Remark

简单，超级高效率，在工业落地中的表现不输BERT（效果差一点点，效率差百倍）

Raki的读paper小记：FastText：Enriching Word Vectors with Subword Information相关推荐

Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
【不想读paper的时候看看】阅读文献？
[不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...
【cs224n学习作业】Assignment 1 - Exploring Word Vectors【附代码】
前言这篇文章是CS224N课程的第一个大作业, 主要是对词向量做了一个探索, 并直观的感受了一下词嵌入或者词向量的效果.这里简单的记录一下我探索的一个过程. 这一下几篇文章基于这次作业的笔记理论: ...

Raki的读paper小记：FastText：Enriching Word Vectors with Subword Information