真全!GitHub上出现了一个353种语言资源的汇总
来源:AI科技评论本文约1200字,建议阅读5分钟随着AI技术的迅猛发展,机器翻译技术的出现让拯救濒危语言成为可能。
据联合国科教文组织统计
世上现存的7000+种语言,超过四百种濒临灭绝
全世界平均每两个星期就有一门语言彻底消失……
于是,有人看不下去了
他们在GitHub上开发了一个项目
专门对353种语言信息做了汇总及科普
并整理了20个可免费下载的平行语料资源库
他们说,要为保护全球濒危语言贡献一份力量
1 为什么要做这个项目?
研究显示,全球有近2500种语言处于濒危状态,在联合国绘制的《全球濒危语言分布图》中,代表着危机的红色标记几乎布满世界各地,濒危语言资源的保护工作迫在眉睫。
如图,排名前三位的国家分别是印度、美国和印度尼西亚,这些国家各有一百多种语言面临消亡的危险。
令人欣喜的是,随着AI技术的迅猛发展,机器翻译技术的出现让拯救濒危语言成为可能。
目前,有很多研究机构和非盈利组织都在做濒危语言的挽救工作,他们通过收集整理和汇总濒危语言的信息,让濒危语言以数字化的形式保存下来。很多机器翻译研究团队也展开了面向低资源语言的机器翻译技术研究,比如,有很多机构通过单语、双语等各种形式的平行数据,构建低资源语言机器翻译引擎,这也是对语言保护的一种特殊方式。
如上图所示,以我国为例,我国的濒危语言众多,但在国家大力保护下,许多仍处于留存状态(绿色部分),但也有大量语言濒临灭绝(红色部分),亟待拯救。
但是,即使是用上AI的力量,也只有200-300种语言能够呈现出来,还有很大一部分语言没有被数字化。因此,对濒危语言的留存与保护,是我们必须理性面对而不可回避的现实问题。
2 是什么样的资源?
目前,这个项目由小牛翻译团队发起,其中包含353种语言的ISO 639代码、语系、语族、书写字母、中文名称等信息,类似于一部“语言词典”,涵盖了世界上大部分的多数民族语言以及大量的少数民族语言。为方便使用者便捷地找到想要了解的语言信息,项目贴心地列出了语言的中英文名称。
值得一提的是,“语言词典”中包括还斯瓦西里语、乌尔都语等低资源语言,这不仅是对语言的科普,也是对保护濒危语言做出的一份贡献。
3 彩蛋
此外,他们还将来自CCMT、 WMT、 NIST、 IWSLT、WAT等机器翻译会议或机构的语言资源以及自行整理的20个多语/双语平行语料库(包括语料库所支持的语言、领域、数据量)的语言资源进行汇总,并从语种、语料库规模以及数据所属领域进行总结,并提供了资源的获取网址,便于研究者获取所需语种数据。
在这些语言中,包括一些尚未充分研究的语言,如达罗毗荼语系(Dravidian languages)泰米尔语(Tamil)(印度南部、斯里兰卡和新加坡语言)、泰卢固语(Telugu)和马拉雅拉姆语(Malayalam)(印度南部语言),以及尼日尔-刚果语系(Niger–Congo languages)斯瓦希里语(Swahili)和约鲁巴语(Yoruba)(非洲语言),可供人们开展语言研究、训练翻译模型、开发多语机器翻译系统之用。
如果你有兴趣,欢迎来访:
https://github.com/NiuTrans/LanguageCodes
编辑:文婧
真全!GitHub上出现了一个353种语言资源的汇总相关推荐
- 我在 GitHub 上看到了一个丧心病狂的开源项目!治好了我的拖延症
有人说,写作是少数可随时间推移而不过时的技能之一. 但实际情况是,尽管许多人在写作这条道路都做出了尝试,可最终坚持下来的只有极少部分人.在这当中,导致他们放弃或停止写作的最大一个原因就是:拖!延!症! ...
- 川大优秀毕业生在GitHub上建了一个项目《深度学习500问》,还未完结就获赞无数
近年来,深度学习在语音.图像.自然语言处理等领域都取得了非常不错的成果,自然而然地成为技术人员争相学习的热点. 为了帮助正在学习深度学习的伙伴们,川大的一名优秀毕业生,在GitHub上创建了一个项目: ...
- 我在 GitHub 上看到了一个丧心病狂的开源项目!
有人说,写作是少数可随时间推移而不过时的技能之一. 但实际情况是,尽管许多人在写作这条道路都做出了尝试,可最终坚持下来的只有极少部分人.在这当中,导致他们放弃或停止写作的最大一个原因就是:拖!延!症! ...
- github上创建了一个rtklib improve开源项目
文章目录 开源目的 目前的工作 使用 写在最后 - 欢迎加入 开源目的 鉴于rtklib的巨大的时间更新间隔,作者在github上fork了一个仓库,初步用于以下目的, 修复代码中的bug/issue ...
- 【githubdailyshare】微软最近在 GitHub 上开源了一个 AI 音乐项目,基于深度学习,可自动完成音乐创作
微软最近在 GitHub 上开源了一个 AI 音乐项目:Muzic,基于深度学习,可自动完成音乐创作. 创作过程主要分为两步,一是音乐理解(符号分类.声音识别),二是音乐合成(歌曲歌词创作.音乐旋律生 ...
- 使用git在本地电脑与远程GitHub/gitlub库中clone别人的github上的远程仓库代码,找资源
使用git在本地电脑与远程GitHub/gitlub库中clone别人的github上的远程仓库代码,找资源 1.在自己电脑创建本地仓库 先下载个Git 打开git bash,找一个存放所有git项目 ...
- PodfileKit将github上常见的iOS(Swift)第三方框架进行了汇总,并且将框架进行了分类,为用户管理第三方框架提供了方便。
PodfileKit ======================== Easy Podfile ! PodfileKit将github上常见的iOS(Swift)第三方框架进行了汇总,并且将框架进行 ...
- GitHub 上开源了一个很邪恶的项目!女生勿近,18香警告...
这是一个奇葩项目,涂鸦画画,不管你画的什么,系统都会自动为你补全成为一个 丁丁!是的你没有看错,就是你们脑海中想到的那个丁丁! 试玩了一下,随便画了一个圈圈,然后就出来了(你可以理解为是一个蛋)-- ...
- GitHub上开源了一个自制表情包项目
世界上本没有表情包,脑洞大的人多了,便有了表情包,如今,大家伙聊天都离不开表情包,但是手头上很多时候表情包根本不够用,所以市面上就有很有App.小程序可以帮助你制作专属你的表情包 而程序员在这方面就有 ...
最新文章
- Xmas is coming....
- 哈啰程序员吐槽:试用期带5个人创造了部门历史最高成绩,结果却被辞退
- Couchbase 介绍 - 更好的 Cache 系统
- Spring(三)——HelloSpring、IOC创建对象的方式、属性注入、自动装配、使用注解开发
- VTK:几何对象之Frustum
- Android 4.4.2 动态添加JNI库方法记录 (一 JNI库层)
- linux 性能监视命令
- 【kali】kali设置burpsuite抓包dvwa
- 啥是佩奇?爷爷,我用Python给你画一个
- css-适配布局类型-流式布局-响应式布局
- php上js实现ajax请求,原生JS如何实现Ajax通过POST方式与PHP进行交互的方法
- bzoj1051: [HAOI2006]受欢迎的牛(tarjan强连通分量)
- 从0到60%:中国在环球指数当中的崛起
- ftp服务器的作用及意义,FTP服务器的作用
- 老男孩教育教育46期 LIHAO
- Katalon Recorder安装及使用
- 文字格斗游戏2.0(随机数值)
- 苹果套路直播计算机隐藏版,套路计算器app,套路计算器隐藏官网版app预约 v1.0 - 浏览器家园...
- IoT物联网设备数据安全解决方案
- 如何通过启启宝盒打造你自己的“水井”