Abstract & Introduction & Related Work

  • 研究任务

    • word representation
  • 已有方法和相关工作
    • 基于形态学的分解
  • 面临挑战
    • 流行的学习这种表征的模型忽略了单词的形态,为每个单词分配了一个不同的向量。这是一个局限性,特别是对于具有大词汇量和许多稀有词汇的语言来说
  • 创新思路
    • 提出了一种基于skipgram的模型,每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示;单词被表示为这些表示的总和
    • 允许我们为训练数据中没有出现的词计算词的表征
  • 实验结论

Model

我们通过考虑子词单位来建立形态学模型,并通过其字符n-grams的总和来表示单词。我们将首先介绍我们用来训练词向量的一般框架,然后介绍我们的子词模型,最后描述我们如何处理字符n-grams的字典

General model

Word2Vec的思想是用上下文词来预测中心词

预测语境词的问题可以被视为一组独立的二元分类任务。那么目标就是独立预测上下文词的存在(或不存在)。对于位置t的词,我们将所有的上下文词视为正例,并从字典中随机抽取负例。对于一个选定的上下文位置c,使用二元逻辑损失,我们得到以下负对数似然:

s是向量内积

Subword model

每个词w被表示为一袋子char n-gram。我们在词的开头和结尾添加了特殊的边界符号<和>,以便将前缀和后缀与其他字符序列区分开来。我们还将单词w本身包含在其n-grams的集合中,以学习每个单词的表示方法(除了字符n-grams之外)。以单词where和n=3为例,它将由字符n-grams来表示:

请注意,对应于单词her的序列 <her> 与来自单词where的 tri-gram her不同。在实践中,我们提取了n大于等于3和小于等于6的所有n-grams。这是一个非常简单的方法,可以考虑不同的n-grams集合,例如,提取所有的前缀和后缀


这个简单的模型允许在不同的词之间共享表征,从而允许学习稀有词的可靠表征

为了约束内存需求,使用哈希将所有的子词映射到一个整数

Results







Conclusion

在本文中,我们研究了一种通过考虑子词信息来学习单词表征的简单方法。我们的方法是将字符n-grams纳入skipgram模型,这与Schütze(1993)提出的一个想法有关。由于其简单性,我们的模型训练速度快,不需要任何预处理或监督。我们表明,我们的模型优于不考虑子词信息的基线,以及依靠形态分析的方法。我们将开放我们的模型的实现,以促进未来学习子词表征的工作的比较

Remark

简单,超级高效率,在工业落地中的表现不输BERT(效果差一点点,效率差百倍)

Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information相关推荐

  1. Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

    Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...

  2. Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK

    Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...

  3. Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

    Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...

  4. Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

    Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...

  5. Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks

    Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...

  6. Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets

    Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...

  7. Stetman读paper小记:ATTEQ-NN

    注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...

  8. Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning

    之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...

  9. 【不想读paper的时候看看】阅读文献?

    [不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...

  10. 【cs224n学习作业】Assignment 1 - Exploring Word Vectors【附代码】

    前言 这篇文章是CS224N课程的第一个大作业, 主要是对词向量做了一个探索, 并直观的感受了一下词嵌入或者词向量的效果.这里简单的记录一下我探索的一个过程. 这一下几篇文章基于这次作业的笔记理论: ...

最新文章

  1. [k8s] 第七章 Service详解
  2. java 同步块 抛出异常_不把 wait 放在同步块中,为啥这种情况不会抛出 IllegalMonitorStateException?...
  3. java自定义日志级别_自定义log4j日志级别
  4. C++ Primer 5th笔记(chap 14 重载运算和类型转换)递增和递减运算符
  5. BJUI修改弹窗dialog的宽度和高度
  6. .Net Core 环境下构建强大且易用的规则引擎
  7. Android漫游记(1)---内存映射镜像(memory maps)
  8. python当输入0时结束_python输入-1时结束-女性时尚流行美容健康娱乐mv-ida网
  9. 在用户控件中动态添加控件及事件
  10. linux的uapi文件夹,【linux】Linux kernel uapi header file(用户态头文件)
  11. [iView warn]: please transfer a valid prop path to form item
  12. 手机摄像头驱动_聚辰股份,智能手机摄像头EEPROM产品供应商
  13. 【工程光学】平面与平面系统
  14. of引导的后置定语的总结
  15. 计算机软件著作权登记证书
  16. 参加河北省研究生数学建模比赛有感
  17. Dcloud 全栈之旅1-1 组件-基础
  18. RALL机制的线程锁
  19. 2021-2027全球与中国多媒体教室投影仪市场现状及未来发展趋势
  20. Sublime的tab键失效

热门文章

  1. string字符串比较
  2. 3. 使用Keras-神经网络来拟合非线性模型
  3. ros 开源物体检测_开源机器人动力学仿真软件:V-REP简介
  4. linux opencl安装方法,如何在Ubuntu上安装libOpenCL.so
  5. android 隐藏系统音量的接口_Android9.0 系统默认配置清单
  6. python复制文件到指定文件夹并重命名_python文件、文件夹的移动、复制、删除、重命名...
  7. android 获取录音时长_Android中集成FFmpeg ③执行进度
  8. Genius ACM(倍增+归并排序)
  9. 【HDU1665】That Nice Euler Circuit(欧拉公式+点在线段上判断(不在端点)+线段规范相交)
  10. lisp用entmake生产圆柱体_液态基酒生产