为了加速将自然语言处理(NLP)应用到更多的语言,Facebook 开源了增强版 LASER 库,成为第一个成功地与 NLP 社区分享的大型多语种句子表示工具。该工具目前可以使用90多种语言,涉及28种不同的字符表。

LASER 通过将所有语言都嵌入在一个共享空间来实现这点(而不是不同语言使用着不同的模型)。Facebook 同时开源的还有免费提供的多语言编码器和PyTorch代码,以及包括100多种语言的多语言测试集。

LASER 实现了从一种语言(如英语)到其他几种语言(包括训练数据极为有限的语言)进行 NLP 零样本迁移的大门,是第一个使用单个模型处理各种语言的库(其中包括低资源语言,如卡拜尔语、维吾尔语,以及吴语等方言)。有朝一日,这项工作可以帮助 Facebook 或其他公司推出些特定的 NLP 功能,例如可以将同一语言的电影评论分正面和负面,然后用其他100多种语言进行发布。

LASER 功能亮点

LASER 为 XNLI 语料库(注:语料库一词在语言学上意指大量的文本)14 种语言中的 13 种带来了更高的零样本跨语言自然语言推理准确率,在跨语言文档分类、并行语料库挖掘、多语言相似性(即使是低资源语言)方面也有很好的表现。

LASER 还拥有以下优势:

  • 极快的性能,能在 GPU 上每秒处理多达 2000 个句子。

  • 句子编码器是在 PyTorch 中实现的,只需很少的外部依赖。

  • 资源有限的语言可以从多种语言的联合训练中受益。

  • 该模型支持在一个句子中使用多种语言。

  • 随着新语言的加入,系统会学习识别其语系特征,从而使相关性能有所提高。

通用、语言无关的句子嵌入

LASER 的句子向量表示对输入语言和 NLP 任务是通用的。该工具将任何语言的句子映射到高维空间中的一个点,为的是任何语言中的相同语句最终会出现在同一邻域中。该表示可以被视为语义向量空间中的一种通用语言。Facebook 观察到,该空间中的距离与句子的语义接近度非常相关。(见下图,图左显示的是单语嵌入空间,图右说明了 LASER 的方法——将所有语言嵌入到同一共享空间。)

LASER 的方法建立在与神经机器翻译相同的基础技术之上:编码器/解码器方法,也称为序列到序列处理。Facebook 为所有输入语言使用一个共享编码器,并使用共享解码器生成输出语言。编码器是五层双向 LSTM(长短期记忆)网络。与神经机器翻译相比,Facebook 不使用注意机制,而是使用1024维固定大小的向量来表示输入句子。它是通过对 BiLSTM 的最后状态进行最大池化来获得的。这使得句子表示能够被比较并直接输入到分类器。下图说明的是 LASER 的结构。

零样本、跨语言的自然语言推理

该模型在跨语言自然语言推理(NLI)中取得好的成绩,而这项任务的表现是一个强有力的指标,代表着模型可以表示句子的意义。关于零样本设置,可以在英语上训练 NLI 分类器,然后在没有微调或目标语言资源的情况下将其应用于所有目标语言。14种语言中的8种,零样本性能在英语表现的5%以内,其中包括俄语,中文和越南语等。此外,也在斯瓦希里语和乌尔都语等低资源语言上取得好的成绩。在最后,14种语言中,LASER 有13种语言的表现优于所有以前的零样本迁移方法。

与之前需要句子为英语的方法相比,该系统是完全可以多语言的,并且支持不同语言的前提和假设的组合。下表显示了 LASER 如何能够确定不同语言的 XNLI 语料库中句子之间的关系,而以前的方法只考虑了同一语言的前提和假设。

此外,相同的句子编码器也被用于挖掘大量单语文本中的并行数据,只需要计算出所有句子间的距离,并选择距离最小的一对句子(语言对)。这在共享 BUCC 任务上的表现远远超过了现有水平。(该方法的详细描述可见论文:https://arxiv.org/abs/1812.10464)

一样的方法可以用在使用任何语言对,来挖掘90多种语言的并行数据。预计这将改善许多依赖于并行训练数据的 NLP 应用程序,包括低资源语言的神经机器翻译。

未来的应用

LASER 库也可用于其他相关任务。比如多语言语义空间的属性,就可用于对同种语言或 LASER 现支持的其他93种语言做出句子的解释、或是搜索相似含义的句子。Facebook 表示将继续改进模型、新增更多的语言。

原文地址:https://www.oschina.net/news/103889/laser-multilingual-sentence-embeddings

Facebook 开源增强版 LASER,可使用90多种语言相关推荐

  1. Facebook 开源增强版 LASER 库:可实现 93 种语言的零样本迁移...

    雷锋网 AI 科技评论按:去年 12 月份,Facebook 在论文中提出了一种可学习 93 种语言的联合多语言句子表示的架构,该架构仅使用一个编码器,就可以在不做任何修改的情况下实现跨语言迁移,为自 ...

  2. Facebook 开源增强版 LASER 库:可实现 93 种语言的零样本迁移

    雷锋网 AI 科技评论按:去年 12 月份,Facebook 在论文中提出了一种可学习 93 种语言的联合多语言句子表示的架构,该架构仅使用一个编码器,就可以在不做任何修改的情况下实现跨语言迁移,为自 ...

  3. Facebook增强版LASER开源:零样本迁移学习,支持93种语言

    来源| Facebook AI 研究院 译者 | Linstancy 责编 | 琥珀 出品 | AI 科技大本营(ID:rgznai100) [导语]为了加速自然语言处理 (NLP) 在更多语言上实现 ...

  4. facebook开源的prophet时间序列预测工具---识别多种周期性、趋势性(线性,logistic)、节假日效应,以及部分异常值

    facebook开源的prophet时间序列预测工具---识别多种周期性.趋势性(线性,logistic).节假日效应,以及部分异常值 参考文章: (1)facebook开源的prophet时间序列预 ...

  5. Facebook 开源安卓版 React Native,开发者可将相同代码用于网页和 iOS 应用开发

    转自:http://mt.sohu.com/20150915/n421177212.shtml Facebook 创建了React Java 库,这样,Facebook 的工程团队就可以用相同的代码给 ...

  6. Facebook开源 PyTorch版 fairseq,准确性最高、速度比循环神经网络快9倍

    今年5月,Facebook AI研究院(FAIR)发表了他们的研究成果fairseq,在fairseq中,他们使用了一种新型的卷积神经网络来做语言翻译,比循环神经网络的速度快了9倍,而且准确性也是现有 ...

  7. 蚂蚁开源增强版 SpringBoot,都有哪些骚能力?

    点击上方蓝色"方志朋",选择"设为星标" 回复"666"获取独家整理的学习资料! SOFABoot 是蚂蚁金服开源的基于 Spring Bo ...

  8. 蚂蚁金服开源增强版 Spring Boot 的研发框架!

    点击上方蓝色"方志朋",选择"设为星标" 回复"666"获取独家整理的学习资料! 来源:gitee.com/sofastack/sofa-b ...

  9. 蚂蚁金服开源增强版Spring Boot 的研发框架!

    点击上方蓝色"方志朋",选择"设为星标" 回复"666"获取独家整理的学习资料! SOFABoot 是蚂蚁金服开源的基于 Spring Bo ...

最新文章

  1. Linux shell运行py文件提示command not found
  2. 10W学习笔记——查询之联接
  3. 吴恩达 coursera AI 第一课总结+作业答案
  4. Java基础—反射—简单介绍
  5. MapReduce Job本地提交过程源码跟踪及分析
  6. Nginx----进阶
  7. java如何去掉html标签_Java后端去掉HTML标签获取纯文本-Fun言
  8. shell下的常用语句
  9. as android.mk 变色,FFmpeg4Android:AS中使用NDK
  10. Illustrator矢量图形软件2022Mac版
  11. Single Number 只出现一次的数字 python实现 - ...
  12. pythoncharm设置翻译器_pyCharm 设置调试输出窗口中文显示方式(字符码转换)
  13. python编程出现:expected an indented block错误。
  14. python关于二手房的课程论文_用Python对二手房信息数据清洗及简单分析
  15. python提取关键词分类_用Py做文本分析5:关键词提取
  16. java 处理word,excel,pdf -javacode
  17. 选择启动虚拟机后,出现不能为虚拟电脑打开一个新任务的报错
  18. 疯狂的大柚柚带你玩转MSP-ESP430G2(基础篇)——(二)MSP-ESP430G2 语言
  19. 沃尔玛卡批量绑卡绑定软件工具助手
  20. 认证服务:注册和登录

热门文章

  1. python自定义安装哪些不需要_python setup.py配置,用于在自定义目录中安装文件
  2. matlab 矩阵引用,MATLAB矩阵生成、引用
  3. 好用的python表白神器_Python|520表白神器
  4. python json loads 中文乱码_python实现智能语音天气预报
  5. 礼品盒子插画素材丨节日设计加上它之后价值翻倍!
  6. 品牌家居清洁之妙法产品平面海报设计模板
  7. mysql order by子查询_sql子查询 order by失效问题
  8. c++ 14新的语法特性之返回类型推导
  9. QT创建指定文件夹方法(已封装)
  10. Uninterruptible Sleep(不可中断的睡眠)