这里是 WEN(Word Embedding News)|词嵌入新鲜事。

作为起步,它将基于 Sebastian Ruder NLP News 的每月筛选,聚焦词嵌入领域。对涉及内容在本人阅读后的基础上进行总结、评论。不简单复制,力求做到小而精。

关于作者:张正,坐标巴黎,上班NLP,下班词嵌入。

没想到词嵌入新鲜事第二期就要改变起步策略:之前说“它将基于 Sebastian Ruder NLP News [6] 的筛选,聚焦词嵌入领域”,结果前脚说完,Sebastian 就在最新一期 NLP News 中说:

Overall, I’ve realized that trying to provide a comprehensive mix of everything that has been going on is not sustainable for me. So I’ll try to refocus ‍with this newsletter and to prioritize covering fewer things in-depth.

非常理解他的选择,一个人想要紧跟 NLP 各个领域的最新发展,对时间和精力都是巨大的挑战,专注于某几个领域对个人来说是更好的选择。

这件事对词嵌入新鲜事的直接影响是,我不能再从这单一信息源做筛选深挖了。塞翁失马,焉知非福,我一方面“被迫”需要搜集的信息源、一方面对内容的选择编排有了更大的自主性。希望一步一步不断学习、优化,做得更好。

好了,下面是词嵌入新鲜事 2020 六月刊。

6 月里最最最重要的新鲜事是 MOJITO。除此之外,词嵌入领域,本期重点关注三个组织:

  • ACL:词嵌入研究趋势

  • OpenAI:GPT3 来了

  • AI2:NLP Highlights 推荐

ACL 2020 之词嵌入研究趋势

ACL 2020 发榜不久,官方于 6 月 4 日公布了相关统计数据。

https://acl2020.org/blog/general-conference-statistics/

单看数据,词嵌入研究工作通常所属的 Semantics: Lexical 中稿率与 Discourse and Pragmatics 并列倒数第一,17.9%,远低于 22.7% 的总平均值。

如果再搭配 Trends of ACL 的动态图,观察 word-level semantics 变化趋势,打击倍增。

https://public.flourish.studio/visualisation/2431551/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

当然,Semantics:Lexical 并不直接等同于词嵌入研究,随着 word embedding 在 NLP 中的广泛应用,及 language modelling 对词嵌入研究方向的推动,我们这里宽泛意义上的“词嵌入研究”越来越多地存在于不同的 track 中。

比如,在 ACL 2020 词嵌入长文汇总分类中,仅长文就 37 篇,远多于 Semantics:Lexcial 总录取数 17 篇。

GPT 之野望:大力真能出奇迹?

这个月词嵌入领域最大的新闻一定是 GPT-3,我也跟个风,从心态、技术及商业三个角度谈谈它的影响。

这是一个极度容易让人“心态爆炸”的模型

CloseAI(不好意思打错了,我是说 OpenAI)不久前“释出”(之所以打引号是因为目前我们只能看不能用)了 GPT-3 模型。

在 language model 竞赛中,它也就“又大了一点点”吧:1750 亿参数、31 位作者、72 页论文 [7] ,训练下来大约花了 1200 万刀 [1](望向脚边机箱里的 2080Ti:“要认清自己的能力,不要总想着在词嵌入上搞个大新闻,EPIC Games 每周限免他不香吗?”)。

这是一个对“大力出奇迹”有着坚定信心的技术实践

调侃完毕,我们来简单梳理下 GPT 贯穿始终的目的和其从 1 到 3 一路走来的发展脉络:

总体上看,GPT 的目的一直非常明确,就是想证明“大力出奇迹”的猜想。即在大的数据集上做无监督训练,是不是当数据大到一定程度时,就不需要在具体且繁多的下游任务上做监督、微调之类的事情了?

具体来看:

2018 年 6 月 GPT-1:大量数据(约 5GB 文本)上无监督训练,然后针对具体任务在小的有监督数据集上做微调;关键词:“scalable, task-agnostic system”;8 个 GPU 上训练一个月;预训练模型(1.1 亿参数)可下载 [8];

https://openai.com/blog/language-unsupervised/

2019 年 2 月 GPT-2:大量数据(约 40GB 文本)上无监督训练,然后针对具体任务在小的有监督数据集上做微调,尝试在一些任务上不微调(即使结果离 SOTA 还远);关键词“without task-specific training”;据说在 256 个 Google Cloud TPU v3 上训练,256 刀每小时,训练时长未知 [2];预训练模型(15 亿参数)最终公开可下载 [9] ;

https://openai.com/blog/better-language-models/

2020 年 5 月 GPT-3:大量数据(499B tokens)上无监督训练,不微调就超越 SOTA;关键词 “zero-shot, one-shot, few-shot”;训练据说话费 1200 万刀;1750 亿参数,将会开放付费 API [10] 。

72 页论文我既没精力也没心力读下来,因此推荐这篇总结博文:

https://anotherdatum.com/gpt-3.html?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

简单来讲,GPT-3 一定程度上证明了大力真的可以出奇迹,无需 fine-tuning 就能在下游任务中“大显神威”。GPT-3 的关注点在 zero-shot、one-shot 和 few-shot 学习,它证明了一个足够大的模型在训练时可以获得更宽泛的 NLP “技能”和模式识别的能力,这些能力使它在推断时可以迅速地适应或识别出下游任务。

说点感性上的感受:词嵌入、语义等的核心我认为是 context,context 可以翻译成“上下文”,这个翻译用来理解 word2vec 或 language modeling 等都非常直观。当然 context 也可以翻译为“语境”,语境是一个更宏大的词,是一种对更宽泛环境的理解能力。

对于人来说,能感知并理解语境需要强大的能力,往往基于广泛的阅读,但人的阅读能力总是有极限的。GPT 想证明的事情,像是人类对基于广泛阅读的语境理解能力的极限探索。

比起技术的成熟,它在商业上还是个“萌新”

还好 GPT-3 也不是样样都行,至少它在商业上还是个“萌新”,这多多少少给我们早已“爆炸”的心态带来了些许安慰。

先来看看 OpenAI 几个商业上的时间点:

  • 2015 年 10 月 创立;非盈利

  • 2018 年 2 月 Musk 退出董事会

  • 2019 年 3 月 成立 OpenAI LP [3],他们自己所谓的 “a hybrid of a for-profit and nonprofit”,这不重要,重要的是他们开始需要为投资人的钱负责了

  • 2019 年 7 月 微软投资 10 亿刀 [4]

拿这个时间线对照 GPT 时间线,或许有助于我们从另一个角度理解 GPT 的一些选择:

比如 GPT-2 刚官宣时的争议。众所周知,GPT-2 的完整模型一开始是没有被公开的,官方博客 [11] 的解释是:

Due to our concerns about malicious applications of the technology, we are not releasing the trained model. [5]

因为怕这个强大的模型被滥用,官方决定公布一个较小的模型(CloseAI 的外号就是这么来的)。

我们看下 GPT-2 推出的时间,2019年2月。OpenAI 一个月后就改变架构、成立以盈利为目的 OpenAI LP,5 个月后获得微软投资。

我们有理由相信 GPT-2 公布时、甚至训练时 OpenAI 非盈利的组织架构就已经快玩儿不转了。不公布模型,一方面是作为非营利组织心系天下、有社会责任感的“最后的倔强”;

另一方面也为下一步作为需要盈利的公司,给投资人有个交代、争取商业合作、获得融资等提供了想象空间(毕竟,因为如果直接开源,GPT-2 的商业价值就极其有限了)。

到了 GPT-3 的时代,OpenAI 选择将其作为一个付费 API(或者说一种服务)来让大家使用,这是 OpenAI LP 获得微软投资后的一步重要商业化实践。背靠微软这棵大树,用 Azure 云计算技术训练模型(GPT-2 时代用的还是谷歌家的 TPU),基于 Azure 提供 API 服务,甚至连注册 API 的线上问卷也用的是 Microsoft Forms。

个人认为商业化是非常好的事情,对AI真正落地会产生积极影响。如果把金钱看作全球普遍接受的、有统一标准的评价方法,那 GPT-3 在 NLP 任务上斩获无数  SOTA 后,下一关,就是看它在盈利能力上,是否同样可以获得 SOTA 了。

BTW,目前这个 API 服务还未上线,感兴趣的朋友可以通过填写这个线上问卷加入 OpenAI API Waitlist。

https://forms.office.com/Pages/ResponsePage.aspx?id=VsqMpNrmTkioFJyEllK8sx3ELsv0PEhHphhNz30FttVUNkYwTlNPMVI1V0lXNjExMlExUlc4SE5YSS4u

AI2之跨语言词嵌入播客

说完 OpenAI 再来说说另一家“厂牌” Allen Institute for AI,aka AI2。

AI2 有一个非常好的播客叫 NLP Highlights,主持人是 Matt Gardner,Pradeep Dasigi 和 Waleed Ammar。NLP Highlights 值得听的原因是主持人都是内行,所以不用担心会听到记者采访式的外行问题。

他们第 112 期节目邀请来自 UC Berkeley 的 Steven Cao 聊了聊多语语境词嵌入的对齐(alignment of multilingual contextual word embeddings)问题。这期播客的重点不是受访者,反而是主持人对这一领域的观点。

https://soundcloud.com/nlp-highlights/112-alignment-of-multilingual-contextual-representations-with-steven-cao

在 ACL 2020 词嵌入长文汇总及分类中我们就说到,跨语言语境词嵌入的相关研究是目前的热点之一。

我认为其中一个原因是,传统跨语言词嵌入的方法已经很成体系了,当语境词嵌入来了后,大家不免都会思索如何把以前各种各样的方法用过来。在 GPT 等语言模型研究越来越复杂的大环境下,跨语言语境词嵌入研究才刚刚开始,可以试的点子非常多,并没有很复杂(说白了就是性价比高)。

Steven Cao的这篇文章就是这样,“旧瓶装新酒”,上 NLP Highlights 绝对是勇气可嘉。

https://arxiv.org/pdf/2002.03518.pdf

个人认为 NLP Highlights 的精华经常是在主持人的发言:

  • 首先是主持人的转述。不管受访者说得多高端玄妙、抑或云里雾里。主持人总能准确的转述成“人话”,方便听众理解。

  • 然后就是提问。这个博客有时候就像在线 review,问的问题很要害。

比如在这一期里,在了解到作者用 IBM model 获得一对一的词对来做词嵌入对齐的监督。主持人的问题便是,如果一个词组在另一个语言里对应的是一个词,你这个一对一怎么生成?

作者举例,比如 “would like to” 在德语里对应一个词 X(不懂德语,就用 X 代替吧),那么这里的一对一发现实际上是 “like” 对 X。因为是语境词嵌入,因此此处的 “like” 可能某种程度上已经包含了整个词组的含义。

主持人紧跟着就质疑,那对齐在词级别上做会不会不是一个好主意,尤其对于语境词嵌入,因为不同语言中未必能在词级别上找到一对一的语境对应。后面又提到作者的方法之所以效果好,也可能是作者用的平行语料基本上是基于逐词翻译的,跟数据有很大关系。

这集博客的核心讨论点围绕在为什么要在词级别上做,这是非常值得讨论的问题,不能因为以前传统词嵌入词级别上的对齐工作很多,就自然而然觉得语境词嵌入也要在词级别上做。

可能从主持的角度来说主持人不应该太强势或过于主导,但是从学术探讨的角度来说,这个博客就像 open live review,非常有趣。

除此之外,我个人在本月也终于完成了 word2vec 的第三篇介绍,word2vec 算是告一段落了。

以上是词嵌入新鲜事六月刊 (总第二期),麻烦给我的读者来一杯 mojito。

Stay 微醺. Stay Foolish.

参考链接

[1] https://venturebeat.com/2020/06/01/ai-machine-learning-openai-gpt-3-size-isnt-everything/

[2] https://www.theregister.com/2019/02/14/open_ai_language_bot/

[3] https://openai.com/blog/openai-lp/

[4] https://openai.com/blog/microsoft/

[5] https://openai.com/blog/better-language-models/

6] http://newsletter.ruder.io

[7] https://arxiv.org/abs/2005.14165

[8] https://github.com/openai/finetune-transformer-lm

[9] https://github.com/openai/gpt-2-output-dataset

[10] https://forms.office.com/Pages/ResponsePage.aspx?id=VsqMpNrmTkioFJyEllK8sx3ELsv0PEhHphhNz30FttVUNkYwTlNPMVI1V0lXNjExMlExUlc4SE5YSS4u

[11] https://openai.com/blog/better-language-models/

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

Word Embedding News|词嵌入新鲜事:六月刊:GPT-3来了相关推荐

  1. Word Embedding News | 词嵌入新鲜事:COVID-19特刊

    这里是 WEN(Word Embedding News)|词嵌入新鲜事. 作为起步,它将基于 Sebastian Ruder NLP News 的每月筛选,聚焦词嵌入领域.对涉及内容在个人阅读后的基础 ...

  2. 文本的表示-词嵌入(word embedding)

    文本的理解 文本是常用的序列化数据类型之一.文本数据可以看作是一个字符序列或词的序列.对大多数问题,我们都将文本看作词序列. 深度学习序列模型(如RNN及其变体)能够较好的对序列化数据建模. 深度学习 ...

  3. Pytorch Note40 词嵌入(word embedding)

    Pytorch Note40 词嵌入(word embedding) 文章目录 Pytorch Note40 词嵌入(word embedding) 词嵌入 PyTorch 实现 Skip-Gram ...

  4. Word Embedding与analogy reasoning(词嵌入与类比推理的过程)

    1. 引入 Word Embedding是"词嵌入"的意思,这是语言表示的一种方式.它可以让算法理解一些类似的词. 简单理解,就是词向量,代替one-hot编码做词向量.词嵌入比o ...

  5. 1_文本处理与词嵌入

    文章目录 一.前提 二.Text to Sequence(文本处理) 2.1 Tokenization(分词) 2.2 Build Dictionary(建立一个字典) 2.3 One-Hot Enc ...

  6. 深度学习实战-词嵌入计算文本相似性

    使用词嵌入计算文本相似性 文章目录 使用词嵌入计算文本相似性 简介 词嵌入 预训练词嵌入查看文本相似性 Word2vec的数学特性 可视化词嵌入 词嵌入中发现实体类 类内部语义距离 可视化国家数据 补 ...

  7. NLP数据预处理与词嵌入

    NLP数据预处理与词嵌入 NLP数据预处理 读入语料库 首先准备一个语料库,实际上就是一个 txt 文件,这里用的是小说 time machine ,该语料库比较短小,仅有 ~3000 行,~3000 ...

  8. 【吴恩达深度学习笔记】5.2自然语言处理与词嵌入Natural Language Processing and Word Embeddings

    第五门课 序列模型(Sequence Models) 2.1词汇表征(Word Representation) 词嵌入(word embeddings)是语言表示的一种方式,可以让算法自动的理解一些类 ...

  9. NLP深入学习——什么是词向量和句向量(Word Embedding and Sentence Embedding)

    词向量(Word Embedding) 词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向 ...

最新文章

  1. Go 语言编程 — 错误处理
  2. python中字符串单引号、双引号、三引号_Python:字符串单引号(‘)、双引号(“)、三单引号(”’)和三双引号(“””)的区别...
  3. TYVJ P1069 cowtour 看不懂题意
  4. 提审马甲包被拒问题记录
  5. Ubuntu下python升级pip(ImportError: cannot import name 'main')
  6. tns 连接超时_ORA-12170:TNS:连接超时
  7. Jumping Monkey 并查集,反向思维
  8. 由存储过程直接生成类文件
  9. 回归专题 | regression
  10. 函数的傅立叶展开掐死我吧_关于文章《傅里叶分析之掐死教程》的再一点小思考...
  11. Android USB串口开发
  12. PHP、Python 上榜最慢的现代编程语言
  13. 最“好”的编程语言 PHP 真的无药可救了吗?
  14. python四边形转矩形_python opencv minAreaRect 生成最小外接矩形的方法
  15. MATLAB深度学习layer、options参数浅析与文章推荐
  16. 一文看懂数字孪生,工信部权威白皮书
  17. python使用matplotlib可视化线图(line plot)、使用semilogy函数将Y轴数据处理为对数坐标(logarithmic scale in Matplotlib)
  18. 订阅消息 data.thing1.value is emtpy
  19. IOS 调用微信扫码二维码
  20. mysql 格林时间转换_oracle中将格林威治时间转化为一般时间

热门文章

  1. python epoll 并发_Python语言之python并发原理(阻塞、非阻塞、epoll)
  2. lm80认证_中国能效标识GB30255、GB38450和GB37478认证要求讲解
  3. 2018多校1 hdu6298 6300 6308
  4. 建智能工厂,可从这6个方面着手!
  5. 第1章python基础语法1
  6. tomcat问题记录-线程池引发的问题
  7. mysql错误1300怎么解决_pt-osc 变更时遇到 “MySQL error 1300” 报错问题解决
  8. 选择嵌套_Python if语句嵌套(入门必读)
  9. dell主板40针开机针脚_电脑主板各种接口的介绍最新版
  10. 计算机中隐藏的文件找不到了怎么办,我的计算机找不到隐藏文件,是怎么回事啊...