Word embeddings in 2017: Trends and future directions (2017年里的词嵌入：趋势和未来方向)

Word embeddings in 2017: Trends and future directions

原文作者：anonymous
原文地址：http://ruder.io/word-embeddings-2017/index.html?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=web&utm_source=Artificial_Intelligence_Weekly_72
译者微博：@从流域到海域
译者博客：blog.csdn.net/solo95

2017年里的词嵌入：趋势和未来方向

子字级嵌入(Subword-level embeddings)
OOV处理(OOV handling)
评估(Evaluation)
多层含义嵌入(也可以简称多义嵌入，Multi-sense embeddings)
除了将词作为点(之外的方法)(Beyond words as points)
短语和多词表达式
乖离率(Bias)
时间维度(Temporal dimension)
缺乏理论认知(Temporal dimension)
任务和特定领域的嵌入(Task and domain-specific embeddings)
嵌入多种语言(Embeddings for multiple languages)
基于其他上下文嵌入(Embeddings based on other contexts)

(上面的链接以及全文绝大部分链接只在原博客有效。这篇文章过于专业而且非常复杂，译者无法保证对每一个词的翻译都是完全准确的，有疑问或者中文目前无对应的词汇用()标注，representations被直译成了表示，请注意这点，译者注)

基于skip-gram并使用负例(negative sampling)的”word2vec方法”(Mikolov等，2013)[49]于2013年发布，通过其随附的软件包，该方法对词嵌入)领域产生了重大影响，使得我们能够有效地对密集词汇表示(dense word representations)进行训练并直接整合到下游模型中。在某些方面，我们已经走了很远词嵌入已经成为自然语言处理（NLP）模型的一个组成部分。在其他方面，我们可能仍然停留在2013年，因为我们还没有找到能够取代最初的”word2vec”的(其他方法)来词嵌入进行预先训练。

这篇文章将重点讨论单词嵌入的不足之处以及最近(出现)的方法如是如何解决这些问题的。如果没有特别说明，这篇文章讨论的是_预训练词嵌入，即使用word2vec及其变体在大型语料库上学习到的词汇表示。如果没有数百万的训练样本可用，预先训练词嵌入是最有效的（在该情况下从未标记的大型语料库传输知识是有用的），这对于NLP中的大多数任务来说是正确的。有词嵌入的介绍，请参阅本博客的这篇文章。

子字级嵌入

许多应用，例如命名实体识别(named entity recognition)（Lample等，2016）[8]，词性标注(part-of-speech tagging)（Plank等，2016）[9]，依赖分析(dependency parsing);（Ballesteros等，2015。于＆VU，2017）[17,10(Kim等人，2016)]，以及语言建模(anguage modelling)[ 11 ]等已经被子字词嵌入大大增强。这些模型中的大多数使用CNN或BiLSTM，将一个单词的字符作为输入，并输出基于字符的单词表示。

对于将字符信息转换成预先训练的嵌入，字符的n-gram的功能已被证明比在单个字符上进行组合的功能更为强大（维廷等人，2016; Bojanowski等人，2017）[2，3] 。字符的n-gram(功能)(至今为止不算是文本分类的新颖特征（Cavnar等人，1994）。[1])是特别有效的，并且还构成了Facebook的fastText分类器的基础（Joulin等人，2016）[4]。使用fastText词嵌入进行学习(的方法)可以在294种语言中使用。

已经发现基于字节对编码的子字单元对于机器翻译（Sennrich et al。，2016）[12]特别有用，因为它们已经将单词替换为标准输入单元。它们对有许多未知单词的任务来说也是有用的，比如实体类型(entity typing)（Heinzerling＆Strube，2017）[13]，但是对于标准的NLP任务还没有被证明是有效的。虽然他们可以很容易地学习，但很难在大多数任务中看到他们比基于字符的表示(方法)更有优势（Vania＆Lopez，2017）[50]。

使用预训练嵌入(pre-trained embeddings)来整合字符信息的的另一种选择是利用最先进的语言建模（Jozefowicz et al。，2016）[7]对大范围的语料库进行训练，例如10亿字基准（一个预训练的Tensorflow模型可以在这里找到）。虽然语言建模被认为对不同的任务是有用的(比如auxiliary objective)（Rei，2017）[5]，但预训练的语言建模嵌入也被用来增词嵌入（Peters等，2017） [6]]。随着我们开始更好地理解如何对模型进行预训练和初始化，预先训练好的语言建模嵌入(方式)将变得更加有效。他们甚至可能取代word2vec作为初始化词嵌入的首选，因为在过去的几年里，由于更好的框架和更多的计算资源，它已经变得更具表现力和更容易训练。

OOV处理

使用预训练的词嵌入的主要问题之一是它们不能处理词汇表外的词（out-of-vocabulary）（即，在训练期间没有看到的词）。通常，这些单词被设置为UNK令牌，并且被分配到相同的向量上，如果OOV单词的数量很大，则这会是无效的选择。在上一节讨论的子字级嵌入是减轻这个问题(影响)的一种方法。另一种对阅读理解有效的方法（Dhingra et al. ，2017）[14]是将预训词嵌入分配到OOV单词（如果可用的话）。

最近，已经提出了不同的方法来即时产生用于OOV单词的嵌入。Herbelot和Baroni（2017）[15]初始化OOV单词的嵌入并作为其上下文词汇的总和，然后以高学习率快速只对OOV嵌入进行完善。他们的方法对于明确要求对当前词汇进行建模的数据集是成功的，但是目前还不清楚是否可以将其扩展到(其他)更可靠的NLP任务。另一个生成OO词嵌入的有趣方法是训练一个基于字符的模型，以明确地重新创建预训练的嵌入（Pinter等，2017）[16]。这在低资源情况下特别有用，在这种情况下，大型语料库不可访问，只有预训练的嵌入可用。

评估

针对预先训练的嵌入的评估一直是一个有争议的问题，因为通过词汇相似性或类比数据集的常用评估(方法)已被证明只与下游性能(存在)弱相关（Tsvetkov等，2015）[21]。ACL 2016上的RepEval研讨会专注于更好的方式来评估预训练的嵌入。就目前而言，共识似乎是这样的，尽管预训练的嵌入可以在固有任务上进行评估，例如与以前的词相似性方法进行比较，评估它们的最好方法是对下游任务进行外部评估。

多层含义嵌入

一个被普遍引用的对词嵌入的批评是，他们无法捕捉多义词。在ACL 2016的一篇指南中概述了最近几年有关于学习分隔开的嵌入来感知一个字的多个含义的工作[（Neelakantan等人，2014; Pilehvar＆科利尔，2016; Iacobacci等人，2015年。）18，19，20]。然而，大多数现有的学习多层含义嵌入的方法仅评估单词相似性。Pilehvar等人（2017）[22]是第一个将话题分类作为下游任务来显示结果的人之一; 而多层含义嵌入在他们的实验中表现优于随机初始化的词嵌入，他们(的实验)也超出了预训练的字嵌入的表现。

鉴于近年来神经(网络)机器翻译系统使用词嵌入已经取得了成功的结果（约翰逊等人，2016）[23]，似乎目前这一代的模型足以充分表达上下文语境并根据上下文消除歧义，而不必依赖在专门的消歧流水线(上消除歧义)或(使用)多层含义嵌入。然而，我们仍然需要更好的方法来理解我们的模型是否实际上能够充分消除单词的歧义，并如何在必要时改进其消歧行为。

除了将词作为点(之外的方法)

虽然我们可能不需要对每个单词的每个意义进行单独的嵌入来获得良好的下游性能，但是将每个单词都减少到向量空间中的点无可争议的过于简单化，并且使我们漏掉了可能对下游任务有用的细微差别。因此，一个有趣的方向是采用其他能更好地捕捉这些方面的表示。Vilnis＆McCallum（2015）[24]提出将每个单词建模为一个概率分布而不是一个点向量，这使得我们能够在一定的维度上表示概率质量(probability mass)和横跨某些维度的不确定性。Athiwaratkun＆Wilson（2017）[25]将这种方法扩展到多模分布，允许处理多义性，必然性，不确定性，并提高可解释性。

与其改变表示(representation)，也可以改变嵌入空间以更好地表示某些特征。例如，Nickel和Kiela（2017）[52]将单词嵌入到一个双曲空间，以学习分层表示。寻找其他方式来表示包含语言假设的词或更好地处理下游任务特征是一个令人信服的研究方向。

短语和多词表达式

(多词指该表达式有多个单词构成，译者注)

词嵌入不能捕捉到有多层含义单词的意义，也不能捕捉短语和多词表达式的含义，这可能是一个其(多词表达式)成分单词含义的函数，或者具有全新的含义。短语嵌入已在原来的word2vec论文被提出（Mikolov等人，2013）[37]，并一直在学习更好的组成成分和非组成成分的短语嵌入（Yu＆Dredze，2015; Hashimoto＆Tsuruoka，2016 ）[38，39]。然而，与多义嵌入类似，可以确切的说，短语建模迄今尚未显示出对下游任务有着显着改进，这将证明(它有)额外的复杂性。类似地，更好地理解短语在神经网络中是如何建模的，将为扩展我们模型的能力以捕获表达式的组合性和非组合性的方法铺平道路。

乖离率(Bias)

(乖离率是股票术语，这该语境下可能仅仅是衡量偏差的值)

我们的模型中的乖离率正在成为一个更大的问题，我们只是(刚刚)开始理解其对训练和评估我们的模型的影响。即使是在Google News文章上训练的文字嵌入，也会令展示出女性/男性的性别刻板印象到一个打乱我们节奏的程度（Bolukbasi et al. ，2016）[26]。了解我们会捕获到什么其他的偏差词(Bias word)嵌入和找到更好的方法来消除这些偏差词将是开发自然语言处理的公平算法(fair algorithnms)的关键。

时间维度

(认知语言学理论的历时性(diachronic nature)强调语言是某种连续的、不断向前发展的事物，译者注。)

文字是时代精神的一面镜子，它们的意义是不断变化的; 目前单词表示(出来的含义)可能与过去使用的这些单词的方式有很大的不同，并且将来会被(继续)使用。因此，一个有趣的方向是考虑到词的时间维度和历时性。这可以使我们能够揭示语义变化的规律（Hamilton等，2016; Bamler＆MANDT，2017; Dubossarsky等人，2017）[27，28，29]，以对一个时效性词进行建模比或关联（Szymanski的，2017年;松香等人，2017）[30，31]，或捕捉语义关系的动态(性)（库图佐夫等人的动态，2017）[31]。

缺乏理论认知

除了认为基于skip-gram使用负例的word2vec会隐式地将PMI矩阵分解（Levy＆Goldberg，2014）[33]这种看法之外，关于词嵌入空间及其属性的理论性理解方面的研究相对较少，比如总结(summation)捕获了类比关系。Arora等人（2016年）[34]提出了一个新的词嵌入生成模型，将语料库生成(corpus generation)当作语篇向量(discourse vector)的随机漫步，并建立了类比行为的理论动机。Gittens等人（2017年）[35]提供了一个更加详尽的附加组合(additive compositionality)的理论证明，并表明了skip-gram词向量在信息论的层面上是最优的。Mimno＆Thompson（2017）[36]进一步揭示了词嵌入与上下文词嵌入之间的一个有趣的关系，即它们不是均匀地分散在矢量空间中，而是占据一个与上下文词嵌入完全相反的窄圆锥体。尽管有这些额外的见解，但我们对于词嵌入位置和属性的理解仍然不足，需要更多的理论工作。

任务和特定领域的嵌入

使用预训练的嵌入的主要缺点之一是用于训练的新闻数据通常与我们希望使用的数据大不相同。然而，在大多数情况下，我们无法访问我们目标领域中的数百万个未进行标记的文档，这将允许 scratch中预训练良好的嵌入。因此，我们希望能够采用大型新闻语料库预训练的嵌入，以便捕捉我们目标领域的特征，但仍保留所有相关的现有知识。Lu＆Zheng（2017）[40]提出了一个用于学习这种跨域嵌入的正则化skip-gram模型。未来，我们需要更好的方法来将预先训练好的嵌入应用到新的领域，或者将多个相关领域的知识结合起来。

除了采用新的域，我们也可以使用语义词典对现有知识编码以使用信息来增强预训练的嵌入，而这些信息与我们的任务是相关的。将这种关系注入嵌入空间的一个有效方法是改装（Faruqui et al。，2015）[41]，这已经扩展到诸如ConceptNet等其他资源（Speer et al。，2017）[55]并用正例和负例的智能选择进行扩展（Mrkšić等，2017）[42]。将额外的先前知识注入到词嵌入中(比如单调性（You et al。，2017）[51]、词相似性（Niebler等，2017）[53]、任务相关分级或强度，以及逻辑关系)，是一个重要的研究方向，可以使我们的模型更强大。

词嵌入对于NLP以外的各种应用也都是有用的，例如信息检索，推荐(系统)和知识库中的链接预测，这些应用都具有它们自己任务的特定方法。吴等人（2017年）[54]提出了一个通用的模型，与许多这样的应用兼容，可以作为一个强有力的基准线来使用。

多种语言的嵌入

随着NLP模型越来越多地使用和评估多种语言，创建多语言词嵌入正成为一个更重要的问题，并且近年来受到越来越多的关注。一个有希望的方向是开发出用尽可能少的并行数据学习跨语言表示的方法，以便他们可以很容易地应用于学习表示(repretationss)，即使是对于低资源语言。最近在这方面的调查，请参阅Ruder et al（2017年）的论文[43]。

基于其他上下文的嵌入

通常仅基于周围环境词的窗口来学习词嵌入。Levy＆Goldberg（2014年）[44]已经表明依赖结构可以作为上下文来捕捉更多的句法关系; Köhn（2015年）[45]发现，这种基于依赖关系的嵌入对特定的多语言评估方法表现最好，这种评估方法可以根据不同的句法特征对嵌入进行聚类。

Melamud等（2016年）[46]观察到，不同的上下文类型适用于不同的下游任务，并且使用不同的上下文类型学习的词嵌入的简单级联可以产生进一步的性能增益。鉴于最近将图形结构包含进神经网络模型用于不同的任务的成功-例如-通过图形的卷积神经网络所展示的那样（Bastings等人，2017; Marcheggiani＆Titov，2017）[47，48]，我们可以推测，将这样的结构嵌入下游任务也是有益的。

除了不同地选择上下文词语之外，还可以以其他方式使用另外的上下文：Tissier等人（2017年）[56]将来自字典定义的同现信息纳入负例过程，以将相关工作靠得更近，并防止其被用作负例本。我们可以考虑一下从其他上下文（如文章标题或维基百科介绍段落）衍生的主题或相关性信息，这些信息可以类似但更加适用地用于对特定的下游任务做出表示(make representations)。

结论

我们很高兴地看到，作为一个社区，我们正把词嵌入应用到每个可能的问题，以获得更有原则的，更细致的和更实用的对它们的理解。这篇文章是为了突出一些当前的趋势和未来的方向用于学习我认为最引人注目的词嵌入。毫无疑问，我没有提到许多同样重要和值得注意的领域。请在下面的评论中告诉我我错过了什么，我犯了一个错误还是错误地表达了一种方法，或者说你发现哪一个词嵌入方面特别令人兴奋或者尚未开发。

黑客新闻

关于单词嵌入的更多见解，请参阅“黑客新闻”的讨论。

参考
1. Cavnar, W. B., Trenkle, J. M., & Mi, A. A. (1994). N-Gram-Based Text Categorization. Ann Arbor MI 48113.2, 161–175. https://doi.org/10.1.1.53.9367 ↩
2. Wieting, J., Bansal, M., Gimpel, K., & Livescu, K. (2016). Charagram: Embedding Words and Sentences via Character n-grams. Retrieved from http://arxiv.org/abs/1607.02789 ↩
3. Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics. Retrieved from http://arxiv.org/abs/1607.04606 ↩
4. Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of Tricks for Efficient Text Classification. arXiv Preprint arXiv:1607.01759. Retrieved from http://arxiv.org/abs/1607.01759 ↩
5. Rei, M. (2017). Semi-supervised Multitask Learning for Sequence Labeling. In Proceedings of ACL 2017. ↩
6. Peters, M. E., Ammar, W., Bhagavatula, C., & Power, R. (2017). Semi-supervised sequence tagging with bidirectional language models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 1756–1765). ↩
7. Jozefowicz, R., Vinyals, O., Schuster, M., Shazeer, N., & Wu, Y. (2016). Exploring the Limits of Language Modeling. arXiv Preprint arXiv:1602.02410. Retrieved from http://arxiv.org/abs/1602.02410 ↩
8. Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural Architectures for Named Entity Recognition. In NAACL-HLT 2016. ↩
9. Plank, B., Søgaard, A., & Goldberg, Y. (2016). Multilingual Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Models and Auxiliary Loss. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. ↩
10. Yu, X., & Vu, N. T. (2017). Character Composition Model with Convolutional Neural Networks for Dependency Parsing on Morphologically Rich Languages. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 672–678). ↩
11. Kim, Y., Jernite, Y., Sontag, D., & Rush, A. M. (2016). Character-Aware Neural Language Models. AAAI. Retrieved from http://arxiv.org/abs/1508.06615 ↩
12. Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016). Retrieved from http://arxiv.org/abs/1508.07909 ↩
13. Heinzerling, B., & Strube, M. (2017). BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 Languages. Retrieved from http://arxiv.org/abs/1710.02187 ↩
14. Dhingra, B., Liu, H., Salakhutdinov, R., & Cohen, W. W. (2017). A Comparative Study of Word Embeddings for Reading Comprehension. arXiv preprint arXiv:1703.00993. ↩
15. Herbelot, A., & Baroni, M. (2017). High-risk learning: acquiring new word vectors from tiny data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ↩
16. Pinter, Y., Guthrie, R., & Eisenstein, J. (2017). Mimicking Word Embeddings using Subword RNNs. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://arxiv.org/abs/1707.06961 ↩
17. Ballesteros, M., Dyer, C., & Smith, N. A. (2015). Improved Transition-Based Parsing by Modeling Characters instead of Words with LSTMs. In Proceedings of EMNLP 2015. https://doi.org/10.18653/v1/D15-1041 ↩
18. Neelakantan, A., Shankar, J., Passos, A., & Mccallum, A. (2014). Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space. In Proceedings fo (pp. 1059–1069). ↩
19. Iacobacci, I., Pilehvar, M. T., & Navigli, R. (2015). SensEmbed: Learning Sense Embeddings for Word and Relational Similarity. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (pp. 95–105). ↩
20. Pilehvar, M. T., & Collier, N. (2016). De-Conflated Semantic Representations. In Proceedings of EMNLP. ↩
21. Tsvetkov, Y., Faruqui, M., Ling, W., Lample, G., & Dyer, C. (2015). Evaluation of Word Vector Representations by Subspace Alignment. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 17-21 September 2015, 2049–2054. ↩
22. Pilehvar, M. T., Camacho-Collados, J., Navigli, R., & Collier, N. (2017). Towards a Seamless Integration of Word Senses into Downstream NLP Applications. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 1857–1869). https://doi.org/10.18653/v1/P17-1170 ↩
23. Johnson, M., Schuster, M., Le, Q. V, Krikun, M., Wu, Y., Chen, Z., … Dean, J. (2016). Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation. arXiv Preprint arXiv:1611.0455. ↩
24. Vilnis, L., & McCallum, A. (2015). Word Representations via Gaussian Embedding. ICLR. Retrieved from http://arxiv.org/abs/1412.6623 ↩
25. Athiwaratkun, B., & Wilson, A. G. (2017). Multimodal Word Distributions. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017). ↩
26. Bolukbasi, T., Chang, K.-W., Zou, J., Saligrama, V., & Kalai, A. (2016). Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. In 30th Conference on Neural Information Processing Systems (NIPS 2016). Retrieved from http://arxiv.org/abs/1607.06520 ↩
27. Hamilton, W. L., Leskovec, J., & Jurafsky, D. (2016). Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (pp. 1489–1501). ↩
28 Bamler, R., & Mandt, S. (2017). Dynamic Word Embeddings via Skip-Gram Filtering. In Proceedings of ICML 2017. Retrieved from http://arxiv.org/abs/1702.08359 ↩
29. Dubossarsky, H., Grossman, E., & Weinshall, D. (2017). Outta Control: Laws of Semantic Change and Inherent Biases in Word Representation Models. In Conference on Empirical Methods in Natural Language Processing (pp. 1147–1156). Retrieved from http://aclweb.org/anthology/D17-1119 ↩
30. Szymanski, T. (2017). Temporal Word Analogies : Identifying Lexical Replacement with Diachronic Word Embeddings. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 448–453). ↩
31. Rosin, G., Radinsky, K., & Adar, E. (2017). Learning Word Relatedness over Time. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from https://arxiv.org/pdf/1707.08081.pdf ↩
32. Kutuzov, A., Velldal, E., & Øvrelid, L. (2017). Temporal dynamics of semantic relations in word embeddings: an application to predicting armed conflict participants. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://arxiv.org/abs/1707.08660 ↩
33. Levy, O., & Goldberg, Y. (2014). Neural Word Embedding as Implicit Matrix Factorization. Advances in Neural Information Processing Systems (NIPS), 2177–2185. Retrieved from http://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization ↩
34. Arora, S., Li, Y., Liang, Y., Ma, T., & Risteski, A. (2016). A Latent Variable Model Approach to PMI-based Word Embeddings. TACL, 4, 385–399. Retrieved from https://transacl.org/ojs/index.php/tacl/article/viewFile/742/204 ↩
35. Gittens, A., Achlioptas, D., & Mahoney, M. W. (2017). Skip-Gram – Zipf + Uniform = Vector Additivity. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 69–76). https://doi.org/10.18653/v1/P17-1007 ↩
36. Mimno, D., & Thompson, L. (2017). The strange geometry of skip-gram with negative sampling. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp. 2863–2868). ↩
37. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. NIPS. ↩
38. Yu, M., & Dredze, M. (2015). Learning Composition Models for Phrase Embeddings. Transactions of the ACL, 3, 227–242. ↩
39. Hashimoto, K., & Tsuruoka, Y. (2016). Adaptive Joint Learning of Compositional and Non-Compositional Phrase Embeddings. ACL, 205–215. Retrieved from http://arxiv.org/abs/1603.06067 ↩
40. Lu, W., & Zheng, V. W. (2017). A Simple Regularization-based Algorithm for Learning Cross-Domain Word Embeddings. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp. 2888–2894). ↩
41. Faruqui, M., Dodge, J., Jauhar, S. K., Dyer, C., Hovy, E., & Smith, N. A. (2015). Retrofitting Word Vectors to Semantic Lexicons. In NAACL 2015. ↩
42. Mrkšić, N., Vulić, I., Séaghdha, D. Ó., Leviant, I., Reichart, R., Gašić, M., … Young, S. (2017). Semantic Specialisation of Distributional Word Vector Spaces using Monolingual and Cross-Lingual Constraints. TACL. Retrieved from http://arxiv.org/abs/1706.00374 ↩
43. Ruder, S., Vulić, I., & Søgaard, A. (2017). A Survey of Cross-lingual Word Embedding Models Sebastian. arXiv preprint arXiv:1706.04902. Retrieved from http://arxiv.org/abs/1706.04902 ↩
44. Levy, O., & Goldberg, Y. (2014). Dependency-Based Word Embeddings. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), 302–308. https://doi.org/10.3115/v1/P14-2050 ↩
45. Köhn, A. (2015). What’s in an Embedding? Analyzing Word Embeddings through Multilingual Evaluation. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 17-21 September 2015, (2014), 2067–2073. ↩
46. Melamud, O., McClosky, D., Patwardhan, S., & Bansal, M. (2016). The Role of Context Types and Dimensionality in Learning Word Embeddings. In Proceedings of NAACL-HLT 2016 (pp. 1030–1040). Retrieved from http://arxiv.org/abs/1601.00893 ↩
47. Bastings, J., Titov, I., Aziz, W., Marcheggiani, D., & Sima’an, K. (2017). Graph Convolutional Encoders for Syntax-aware Neural Machine Translation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ↩
48. Marcheggiani, D., & Titov, I. (2017). Encoding Sentences with Graph Convolutional Networks for Semantic Role Labeling. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ↩
49. Mikolov, T., Corrado, G., Chen, K., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. Proceedings of the International Conference on Learning Representations (ICLR 2013), 1–12. ↩
50. Vania, C., & Lopez, A. (2017). From Characters to Words to in Between: Do We Capture Morphology? In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 2016–2027). ↩
51. You, S., Ding, D., Canini, K., Pfeifer, J., & Gupta, M. (2017). Deep Lattice Networks and Partial Monotonic Functions. In 31st Conference on Neural Information Processing Systems (NIPS 2017). Retrieved from http://arxiv.org/abs/1709.06680 ↩
52. Nickel, M., & Kiela, D. (2017). Poincaré Embeddings for Learning Hierarchical Representations. arXiv Preprint arXiv:1705.08039. Retrieved from http://arxiv.org/abs/1705.08039 ↩
53. Niebler, T., Becker, M., Pölitz, C., & Hotho, A. (2017). Learning Semantic Relatedness From Human Feedback Using Metric Learning. In Proceedings of ISWC 2017. Retrieved from http://arxiv.org/abs/1705.07425 ↩
54. Wu, L., Fisch, A., Chopra, S., Adams, K., Bordes, A., & Weston, J. (2017). StarSpace: Embed All The Things! arXiv preprint arXiv:1709.03856. ↩
55. Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. In AAAI 31 (pp. 4444–4451). Retrieved from http://arxiv.org/abs/1612.03975 ↩
56. Tissier, J., Gravier, C., & Habrard, A. (2017). Dict2Vec : Learning Word Embeddings using Lexical Dictionaries. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://aclweb.org/anthology/D17-1024