Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Abstract & Introduction & Related Work
- 研究任务
- word representation
- 已有方法和相关工作
- 基于形态学的分解
- 面临挑战
- 流行的学习这种表征的模型忽略了单词的形态,为每个单词分配了一个不同的向量。这是一个局限性,特别是对于具有大词汇量和许多稀有词汇的语言来说
- 创新思路
- 提出了一种基于skipgram的模型,每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示;单词被表示为这些表示的总和
- 允许我们为训练数据中没有出现的词计算词的表征
- 实验结论
Model
我们通过考虑子词单位来建立形态学模型,并通过其字符n-grams的总和来表示单词。我们将首先介绍我们用来训练词向量的一般框架,然后介绍我们的子词模型,最后描述我们如何处理字符n-grams的字典
General model
Word2Vec的思想是用上下文词来预测中心词
预测语境词的问题可以被视为一组独立的二元分类任务。那么目标就是独立预测上下文词的存在(或不存在)。对于位置t的词,我们将所有的上下文词视为正例,并从字典中随机抽取负例。对于一个选定的上下文位置c,使用二元逻辑损失,我们得到以下负对数似然:
s是向量内积
Subword model
每个词w被表示为一袋子char n-gram。我们在词的开头和结尾添加了特殊的边界符号<和>,以便将前缀和后缀与其他字符序列区分开来。我们还将单词w本身包含在其n-grams的集合中,以学习每个单词的表示方法(除了字符n-grams之外)。以单词where和n=3为例,它将由字符n-grams来表示:
请注意,对应于单词her的序列 <her> 与来自单词where的 tri-gram her不同。在实践中,我们提取了n大于等于3和小于等于6的所有n-grams。这是一个非常简单的方法,可以考虑不同的n-grams集合,例如,提取所有的前缀和后缀
这个简单的模型允许在不同的词之间共享表征,从而允许学习稀有词的可靠表征
为了约束内存需求,使用哈希将所有的子词映射到一个整数
Results
Conclusion
在本文中,我们研究了一种通过考虑子词信息来学习单词表征的简单方法。我们的方法是将字符n-grams纳入skipgram模型,这与Schütze(1993)提出的一个想法有关。由于其简单性,我们的模型训练速度快,不需要任何预处理或监督。我们表明,我们的模型优于不考虑子词信息的基线,以及依靠形态分析的方法。我们将开放我们的模型的实现,以促进未来学习子词表征的工作的比较
Remark
简单,超级高效率,在工业落地中的表现不输BERT(效果差一点点,效率差百倍)
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information相关推荐
- Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...
- Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...
- Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...
- Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...
- Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
- Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...
- Stetman读paper小记:ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
- Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
- 【不想读paper的时候看看】阅读文献?
[不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...
- 【cs224n学习作业】Assignment 1 - Exploring Word Vectors【附代码】
前言 这篇文章是CS224N课程的第一个大作业, 主要是对词向量做了一个探索, 并直观的感受了一下词嵌入或者词向量的效果.这里简单的记录一下我探索的一个过程. 这一下几篇文章基于这次作业的笔记理论: ...
最新文章
- [k8s] 第七章 Service详解
- java 同步块 抛出异常_不把 wait 放在同步块中,为啥这种情况不会抛出 IllegalMonitorStateException?...
- java自定义日志级别_自定义log4j日志级别
- C++ Primer 5th笔记(chap 14 重载运算和类型转换)递增和递减运算符
- BJUI修改弹窗dialog的宽度和高度
- .Net Core 环境下构建强大且易用的规则引擎
- Android漫游记(1)---内存映射镜像(memory maps)
- python当输入0时结束_python输入-1时结束-女性时尚流行美容健康娱乐mv-ida网
- 在用户控件中动态添加控件及事件
- linux的uapi文件夹,【linux】Linux kernel uapi header file(用户态头文件)
- [iView warn]: please transfer a valid prop path to form item
- 手机摄像头驱动_聚辰股份,智能手机摄像头EEPROM产品供应商
- 【工程光学】平面与平面系统
- of引导的后置定语的总结
- 计算机软件著作权登记证书
- 参加河北省研究生数学建模比赛有感
- Dcloud 全栈之旅1-1 组件-基础
- RALL机制的线程锁
- 2021-2027全球与中国多媒体教室投影仪市场现状及未来发展趋势
- Sublime的tab键失效
热门文章
- string字符串比较
- 3. 使用Keras-神经网络来拟合非线性模型
- ros 开源物体检测_开源机器人动力学仿真软件:V-REP简介
- linux opencl安装方法,如何在Ubuntu上安装libOpenCL.so
- android 隐藏系统音量的接口_Android9.0 系统默认配置清单
- python复制文件到指定文件夹并重命名_python文件、文件夹的移动、复制、删除、重命名...
- android 获取录音时长_Android中集成FFmpeg ③执行进度
- Genius ACM(倍增+归并排序)
- 【HDU1665】That Nice Euler Circuit(欧拉公式+点在线段上判断(不在端点)+线段规范相交)
- lisp用entmake生产圆柱体_液态基酒生产