点击上方,选择星标置顶,每天给你送干货

阅读大概需要4分钟

跟随小博主,每天进步一丢丢

鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。

没错,就是 Hugging Face (抱抱脸)标星 26.9k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1008 种模型,正式涉足机器翻译领域。

模型涵盖 140 种不同语言组合,中文翻英文,英文译法语,法语翻阿拉伯语……还能一对多翻译。

就像这样:

抱抱脸创始人 Clement Delangue 表示:

全世界有那么多人在使用我们的开源项目,越来越多使用不同语言的人聚集在NLP社区。

这让我们意识到,应该在模型中提供更多其他语言的接入,同时也提供翻译。

1008种机器翻译模型

据抱抱脸介绍,这1000+模型,是研究人员使用无监督学习和 OPUS 数据集训练的。

OPUS 项目来自赫尔辛基大学及其全球合作伙伴,旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。

部分模型

并且,抱抱脸也在 Transformer 项目中增加了喜闻乐见的 Seq2Seq 模型。

比如谷歌 AI 的 T5,Facebook 的 BART

使用方法,一如既往的简单。

比如用 opus-mt-en-ROMANCE 这个模型同时进行英语翻法语、英语翻葡萄牙语和英语翻西班牙语,一个 API 就搞定了。

就有网友评价道:节约时间的利器。

关于 Hugging Face Transformer

抱抱脸的 Transformer Python 库目前已有超过 50 万 pip 安装量,SQuAD排行榜上的最佳语言模型们通通被收编其中。

比如谷歌 AI 的 BERT、XLNet,Facebook AI 的 RoBERTa,OpenAI 的 GPT-2。

使用简单,只需一个 import。

支持 TensorFlow 2.0 和 PyTorch 之间的深度互操作。

还有在线 Demo 供你实时调戏。

这样的万星项目,NLPer 用了都说好。

这就用起来?

传送门

GitHub 项目:
https://github.com/huggingface/transformers

作者系网易新闻·网易号“各有态度”签约作者

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

【github】一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新:涵盖140种语言组合...相关推荐

  1. 一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

    2020-05-18 16:20:21 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了. 没错,就是 Hugging Fa ...

  2. 一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新:涵盖140种语言组合

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了. 没错,就是 Hugging Face (抱抱脸)标星 26.9k 的 T ...

  3. 【重磅来袭】斯坦福开源Python版NLP库Stanza:涵盖66种语言!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 对于斯坦福 NLP 库,我们一定不会陌生,但是这一库主要基于 Java.近日,Ch ...

  4. Manning大神牵头,斯坦福开源Python版NLP库Stanza:涵盖66种语言

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 转自:机器之心 对于斯坦福 NLP 库,我们一定不会陌生,但是这一库主要基于 Java ...

  5. github issue 搜索_回顾 2020 年 GitHub 的大事件,你知道多少?

    作者:HelloGitHub-小鱼干 这里是 HelloGitHub 出品的年度盘点系列,本期我们将盘点 GitHub 在 2020 发生的大事件,回顾一下今年 GitHub 给我们带来了那些惊喜.故 ...

  6. 一口气发布十大建网利器,华为打算煲出怎样的5G味道?

    受疫情影响停摆一年的世界移动通信大会(MWC)终于回来了. 4G时代有人形容运营商的状况,是"一碗汤.汤一碗,倒过来叮当响,倒过去响叮当,每倒一次,行业价值下降一次".而5G的到来 ...

  7. Linux五种IO模型性能分析

    转载:http://blog.csdn.net/jay900323/article/details/18141217     Linux五种IO模型性能分析 目录(?)[-] 概念理解 Linux下的 ...

  8. 一种语音识别模型的训练方法及装置与流程

    本发明涉及语音识别研究领域,尤其涉及一种语音识别模型的训练方法及装置. 背景技术: 随着计算机技术和人工智能技术的发展,让计算能听.能说,是未来人机交互的重要发展方向,其中语音成为最被看好的人机交互方 ...

  9. android 使用系统下载并更新版本,安卓系统更新升级的种方法

    最近有网友问小编"安卓系统怎么升级?",针对该问题,笔者也在网上查找了下相关资料,不过并没有找到什么有价值的相关介绍,多数都是介绍如何自动升级.或者下载升级版包等等方法,对于一些常 ...

  10. Github Star 4.6K,3.5M超超轻量中英文OCR模型开源,火了!

    导读 如果你是OCR方向的工程师,你一定需要知道这个OCR开源项目:PaddleOCR 先看下PaddleOCR自今年开源以来,短短几个月在GitHub上的表现: 7月,8.6M超轻量模型发布,Git ...

最新文章

  1. 【linux】shell中浮点数运算的加、减、乘、除
  2. 洛谷—— P1605 迷宫
  3. asp.net mvc 简易上传功能
  4. Just $h$-index HDU - 6278(主席树找区间大于等于k的个数)
  5. 四大主流芯片架构(X86、ARM、RISC-V和MIPS)
  6. python input 与raw_input函数的区别
  7. 深度学习TF—12.Auto-Encoders(AE)与Varational Auto Encoder(VAE)实战
  8. 笔记 3 文件的特殊属性,权限
  9. andriod studio 自带模拟器设置开发者模式
  10. 搞懂JDBC这一篇就够了!!!
  11. 你还在用截图工具,获取视频中的图片?
  12. CVPR 2022 | 阿里华科提出:针对场景文本检测的视觉语言模型预训练
  13. PaddleX 在windows10使用paddle_inference部署C#打包dll全教程
  14. 深度学习(自然语言处理)RNN、LSTM、TextCNN
  15. 【Ubuntu】虚拟机屏幕大小共享文件
  16. shell脚本——特殊符号
  17. Axure RP 9基础教程(四)-文件及文件设置
  18. android ant批量打包
  19. 转载 学写钢笔字应该注意些什么
  20. Java代码签名证书申请和使用指南

热门文章

  1. JAVA------华为----------句子逆序
  2. leetcode 杨辉三角 III
  3. C++VS2019中新建自定义模板与删除自定义模板
  4. C++实现包含空格、标点、字符、数字的字符串的逆序输出,并且还可以实现一句语言中每个单词的倒序输出
  5. 判断二进制半整数_牛客网
  6. [No000072]Windows环境变量列表
  7. 关于浏览器的兼容性问题
  8. [转]在这新站如何在一天内被Google和百度收录
  9. Install SQL Server 2008 Setup failure
  10. 避免“被忽略” 如何向上司“喜传捷报”?