最近,有一份自然语言处理 (NLP) 进展合辑,一发布就受到了同性交友网站用户的疯狂标星,已经连续3天高居GitHub热门榜首位。

合集里面包括,20多种NLP任务前赴后继的研究成果,以及用到的数据集。

这是来自爱尔兰的Sebastian Ruder,倾力汇总而成。

他在爱尔兰国立大学 (戈尔韦) 读博。另一个身份,是AI创业公司Aylien的研究人员。

塞巴斯蒂安说,NLP近来发展太快了,即便作为局内人,也很难顺畅地跟进这个领域里发生的事。

无微不至的仓库

要找到最常用的数据集,要了解自己研究的问题有了哪些新进展,还是很费力的。

所以,他就在GitHub上面建了一个仓库,追踪各种自然语言任务的研究成果,还有对应的数据集。

这是一间整齐的仓库,任务是按字母顺序排列——

· CCG supertagging
· Chunking
· Constituency parsing
· Coreference resolution
· Dependency parsing
· Dialog
· Domain adaptation
· Language modelling
· Machine translation
· Multi-task learning
· Multimodal
· Named entity recognition
· Natural language inference
· Part-of-speech tagging
· Question answering
· Semantic textual similarity
· Sentiment analysis
· Semantic parsing
· Semantic role labeling
· Summarization
· Text classification

作为一个情绪型选手,我点开了情绪分析 (Sentiment Analysis) 的页面。

这里的数据集很亲切,比如IMDb,电影评分网站的数据。

再比如,“ (姑且称为) 美国的大众点评”,Yelp的店铺评论数据集。

每个数据集下面,都有相关研究的列表,以及所用模型的准确度

当然,情绪的二分类 (Binary Classification) ,以及细粒度分类 (Fine-Grained Classification) ,作为两种问题,列表也是分开的。

这人文关怀,无微不至。

未解之谜

塞巴斯蒂安还说了,上面列出的那些,是已经开始追踪的NLP任务。

还有一些任务,被他加入了心愿单——

· Bilingual dictionary induction
· Discourse parsing
· Entity Linking
· Information extraction
· Keyphrase extraction
· Knowledge base population (KBP)
· More dialogue tasks
· Relation extraction
· Semi-supervised learning

这些问题的进展,在他那里还是未解之谜。

深知以一己之力难以将这部分内容补充完整,程序员还给了详细的参与步骤,希望广大NLP战士,可以互相取暖。

去看一看

塞巴斯蒂安给NLP的爱,很深沉了。

他的博客,各位同行或许也很眼熟了。

变身前:Sebastianruder.com
变身后:Ruder.io

没有收藏的话,现在可以收藏一下。

当然,这里也要手动贴上NLP仓库的地址:

https://github.com/sebastianruder/NLP-progress

且去走一遭。

原文发布时间为:2018-06-27

本文作者:方栗子

本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

这份NLP研究进展汇总请收好,GitHub连续3天最火的都是它相关推荐

  1. 想了解推荐系统最新研究进展?请收好这16篇论文

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  2. 2019 到目前为止的深度学习研究进展汇总

    本文为 AI 研习社编译的技术博客,原标题 : Best Deep Learning Research of 2019 So Far 作者 | ODSC - Open Data Science 翻译 ...

  3. 大学学什么课会用到matlab,高校蹭课?这份蹭课攻略请收好!| 内附福利

    原标题:高校蹭课?这份蹭课攻略请收好!| 内附福利 蹭课? 只能蹭自己学校的课? NO! 你是否想过 有一天去蹭其他学校的课? 拥有一个蹭课的心 却不知道从何蹭起? ☑ 就让小编手把手教你 如何蹭到自 ...

  4. 干货!这里有一份神经网络入门指导,请收下!

    图片来源于网络 翻译 | 林椿眄 编辑 | Donna 本周,我们为您准备了一份数据科学家Ben Gorman撰写的神经网络指导.这份指导包含了他具体的学习思路,包括所遇到的难点以及多种详细的解决方法 ...

  5. cvpr 深度估计_干货 | 2019 到目前为止的深度学习研究进展汇总

    本文为 AI 研习社编译的技术博客,原标题 : Best Deep Learning Research of 2019 So Far 作者 | ODSC - Open Data Science 翻译 ...

  6. 互联网下半场:数字化能力才是生存之道!这份数字化转型书单请收好

    在席卷全球的数字化浪潮下,政企机构纷纷拥抱数字化转型,期望通过数字化转型来提升效率.降低成本并改善用户体验,进而提供价值更高的产品或服务.特别是随着"互联网下半场"论点的提出,互联 ...

  7. 大屏难看怎么办?这份大屏制作教程请收好

    大屏是数据可视化的常用形式,但在制作时,常常会"把思路想清楚了.数据也准备好了,但就是在制作时磨蹭了很久"- 那么如何用最简单高效的方式,设计出一张好看的大屏呢?大师兄我总结出了这 ...

  8. 【机器学习】这份分类决策树算法介绍请收好!

    摘要: 决策树在机器学习算法中是一个相对简单的算法,如何不能进行适当的剪枝就容易造成模型的过拟合.决策树算法也是当前很多集成学习算法的基础,集成算法的效果往往比单独使用决策树算法效果更好. 关键词: ...

  9. 【高防服务器租用】这里有一份服务器租用攻略,请收好!

    随着网络的普及,不论是企业还是个人用户都开始去租用服务器在线上推广自己的产品或企业了.但是很多用户在网站建设后选购服务器的时候却犯了难,由于对服务器性能与特性不是很了解,导致很多人租用服务器后发现并不 ...

最新文章

  1. Harvard's CS50
  2. 源码安装gcc各种情况的解决
  3. Android布局管理器-使用FrameLayout帧布局管理器显示层叠的正方形以及前景照片
  4. Sharepoint 2007 用代码聚合所有子网站文章 (populating data sources in code)
  5. java 监控usb端口插拔_如何监控某种类型的USB设备的插拔?
  6. GDCM:DICOM文件转储到Siemens Base64
  7. python 实现HMAC_SHA1算法
  8. codeforces 977A-C语言解题报告
  9. mysql group_concat null_MySQL教程之concat以及group_concat的用法
  10. hdu 1728 逃离迷宫(dFS+优先队列)
  11. MYSQL数据库使用手册
  12. pg数据库创建触发器
  13. 为 Kodi 自制遥控器
  14. 技术分享 | DNS解析不生效的原因及解决方法
  15. 20160119001 “饿了么”的艰难城市扩张之路
  16. 开通共享毛巾机小程序
  17. adapt和adopt的区别_如何一句话分清adapt ,adopt 和adept
  18. java中 enum什么意思_Java中枚举Enum的使用详解
  19. Android 点击Url(短信链接)打开App 的调研与实现
  20. 程序退出代码0xC0000005,你的程序崩溃了吗?

热门文章

  1. 查看照片的指定位置的像素点值,并在照片中绘制一条指定像素颜色的线段
  2. 获得jmp esp地址
  3. plsql developer无监听程序_微信小程序支持分享到朋友圈啦!技术解读跟我来
  4. uva 12589——Learning Vector
  5. ZOj 2104——Let the Balloon Rise
  6. C++ 拷贝构造函数与赋值构造函数调用时机初步01
  7. struct stat结构体简介
  8. 【微机原理与接口技术】具体芯片(1)并行接口8255A(1):全局观
  9. 08-图9 关键活动 (30 分
  10. 关于非阻塞的recv的时候返回的处理