明敏 发自 凹非寺
量子位 | 公众号 QbitAI

说出你的研究思路,就能给你推荐合适的数据集:

当然还可自己按需检索,同时标出不同数据集的热度:

更厉害的是能直接帮你分析数据集。

语料中是否包含仇恨言论、性别歧视语料等,所占比例是多少,通通都能告诉你。

以上,是一个名叫DataLab的通用数据处理平台。

它包含1715个数据集,提供数据诊断、数据搜索、全局分析、标准化处理4方面的功能。

不仅可以帮助用户分析数据的特征,还能对不同数据集进行标准化处理。

其幕后打造者之一为卡内基梅隆大学博士后刘鹏飞,他博士毕业于复旦大学。

方便,方便,还是方便

其实对于很多人来说,构建模型往往在数据集阶段就会被卡住。

现在网络上的数据集虽然一抓一大把,但质量参差不齐。

而且很多新入门的童鞋也对于自己应该用什么样的数据集,非常迷茫。

那么,一个覆盖数据集范围广、还能进行分析的平台,或许能帮助你找到心仪的数据集。

基于这样的背景下,刘鹏飞所在团队就搞了个DataLab。

就拿找数据集来说吧,在DataLab上你不仅可以按照模型的需求来筛选合适数据集,还能看看哪些数据集最受欢迎、哪些下载量最多、哪些访问量最多。

毕竟“大家说好才是真的好”,这句话在哪也受用嘛。

再来看标准化处理上。

DataLab提供86个功能,可以将不同的数据集标准化处理为统一格式。

如果你构建模型时不知道该用什么样的数据集,还能直接问DataLab。

比如当你输入研究思路:

我想训练一个可以识别啤酒评论中包含的积极和消极情绪的模型。

DataLab就能给出20个数据集任君选择,每一个点进去还有更加详细的介绍。

除了提供数据集分析和处理功能,DataLab还可以根据现有的数据为大家提供一些全球视野的分析。

比如它能展现全球不同国家AI本地化技术积累的情况。

其开发者刘鹏表示,数据,尤其是标注数据是训练一个AI系统的关键。所以很多时候,数据集的积累可以体现技术壁垒。

从DataLab上的大数据分析可以看出,美国在语言数据集上的优势巨大,因为很多现有公开、流行的数据集都是以英文为主。

相较之下,中文数据集的积累情况就不够好。

同时,这一平台也能对全球不同研究机构在不同任务数据集上的表现进行排名。

从下表中可以看到,CMU、微软亚研院、JHU、UW几个机构位居前四,清华大学在国内排名最高。

不过平台开发者也提醒大家,平台上的数据统计有可能因为用户提交数据不全而导致结果不准确/考虑不周全,仅作为参考之一。

用户也可以在DataLab官网进行数据纠正。

复旦校友领衔打造

DataLab由卡内基梅隆大学语言技术研究所(LTI)博士后刘鹏飞领衔打造。

刘鹏飞于2019年在复旦大学计算机系获得博士学位,师从邱锡鹏教授、黄萱菁教授。

研究兴趣包括NLP模型可解释性、迁移学习、任务学习等。

博士期间,他包揽了各种计算机领域的奖学金,包括IBM博士奖学金、微软学者奖学金、腾讯人工智能奖学金、百度奖学金。

谈到打造DataLab这一平台的初衷,刘鹏飞向量子位表示:

机器学习领域有太多技术需要被标准化和统一,也需要技术被折叠,不然就会造成一种资源过剩带来的浪费。

他提到,UC伯克利大学的明星实验室RISELab曾打造出很多新颖的技术工具,比如高性能分布式执行框架Ray。

其掌舵人Ion Stoica教授在一次分享中提到“统一是它们成功的关键”。

DataLab这次的工作其实也是如此。

它的意义在于提供了一个“数据+操作”的统一框架,让未来很多事情都可以转化成两件事:

  1. 定义/引入一个新的数据类型;

  2. 定义/引入一个新的数据操作(比如现在火热的Prompt Learning,本质上就是重构数据)。

由此,研究者和开发者就可以有一个统一的入口去进行他们需要的各种数据分析与操作。

在DataLab里,不同数据类型、操作类型都被标准化,其目的就是让用户在前人已经解决的事情上不要再浪费时间,而是使用已经有的技术去探索新的技术发展。

当然,如果再深入一点,刘鹏飞表示创建DataLab还源于一股内在驱动力:

如何让自己做的事情能够在推动人类社会生产力发展上扮演一些重要的角色。

事实上,刘鹏飞也不是第一次为开发者、研究人员们打造便利的“小工具”了。

比如帮助开发者提出创新学术idea的辅助工具ExplainaBoard

还有可自动生成论文评审结果的Demo网站ReviewAdvisor,只需要上传PDF论文,即可自动生成评审结果。

哦对了,刘鹏飞还会在知乎上分享自己在NLP方面的一些研究心得。

比如这篇《近代自然语言处理技术发展的“第四范式”》就曾在网上引起过不小的反响。

感兴趣的童鞋,欢迎移步大佬知乎围观~

DataLab地址:
http://datalab.nlpedia.ai/

GitHub地址:
https://github.com/ExpressAI/DataLab/

刘鹏飞知乎:
https://www.zhihu.com/people/liu-peng-fei-65-23/posts

给研究思路就能推荐数据集,还能分析语料“毒性”,CMU博士后等人推出NLP数据处理神器...相关推荐

  1. 华中科技大学期刊分类办法_紧跟国际前沿,拓展研究思路,立足国内实践,提升科研能力 —— 记国际期刊学术论文写作与发表研修班...

    为进一步增进国内高校外语教师对国际学术研究前沿和发展趋势的了解,提升其选题挖掘.研究设计.国际期刊学术论文写作与发表能力,外语教学与研究出版社联合武汉理工大学于2020年12月5-6日在武汉及线上同步 ...

  2. SoyNet:大豆叶部病害分类(研究思路清晰)

    1.研究思路 提出了一种计算机视觉方法来解决这些挑战.提议的方法包括两个模块.第一个模块通过减去复杂背景从整个图像中提取叶子部分.第二个模块介绍了一种深度学习卷积神经网络(CNN),SoyNet,用于 ...

  3. 快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本

    嘿,记得给"机器学习与推荐算法"添加星标 作者:高崇铭 单位:中国科学技术大学博士生,快手实习 在沉淀了一段时间后,我们推出了数据集KuaiRec的2.0版本.这是由我们中科大何向 ...

  4. 新闻推荐数据集MIND介绍

    目录 新闻推荐数据集介绍 MIND数据集简介 MIND数据集的构造 MIND数据集里的一个标签样本形式 MIND数据集里的news MIND数据集的划分 MIND数据集的具体数值 MIND数据集与以前 ...

  5. 显著性检测研究思路和方法

    显著性检测最近几年成了研究热点,从计算机视觉三大会议(ICCV, CVPR, ECCV)上的文章数量就可以看出,大概每届会议都有10来篇的样子,一个这么小的topic,10来篇数量已经很多了.如果你看 ...

  6. 组蛋白ChIP-seq研究思路及应用案例分享

    往期推文中我们分享了不少ChIP-seq的项目文章,今天和大家聊聊ChIP-seq的研究思路和应用案例. ChIP-seq技术将染色质免疫共沉淀与二代测序结合,高效地在全基因组范围内检测与组蛋白.转录 ...

  7. 厦大AI研究院今日揭牌成立:数学系校友陈纯院士领衔,最亮眼的是「交叉」研究思路...

    牧北 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又一老牌高校推出AI研究院. 今日(10月10日),厦门大学举行揭牌仪式,正式推出厦门大学人工智能研究院. 中国工程院院士.厦大数学系校友 ...

  8. 易基因|多组学关联研究怎么做? DNA甲基化组+转录组+宏基因组+16S研究思路

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 本期我们以一篇多组学研究揭示DNA甲基化在植物促生菌-植物-微生物互作关系中作用的文献案例来讲解多组学研究如何做,并对多组学研究分析方法 ...

  9. 百趣代谢组学资讯:机制探索不发愁,浅看真菌防治靶点代谢组学研究思路

    文章标题:Energy metabolism as the target of3-phenyllactic acid against Rhizopus oryzae 发表期刊:Internationa ...

最新文章

  1. python大神-Python 大神 kennethreitz 又搞事了
  2. java多线程生产者与消费者问题_java多线程实现生产者与消费者问题
  3. drbd实现mysql地热备_heartheartbeat+drbd+mysql主库热备
  4. GridView 通用分页
  5. python随机产生10个随机数_python(random模块)取10以内的随机数
  6. 安装nginx之前的组件
  7. 小强的HTML5移动开发之路(14)——Video标签详解
  8. 绝对估值法和相对估值法
  9. 毕业设计总结与展望、致谢-“完工总结会”-08
  10. oracle时分秒修改值_oracle优化(一) oracle数据库使用 TIMESTAMP(6)类型保存年月日时分秒...
  11. 我的世界正版服务器客户端,我的世界1.11.2
  12. 关于羊了个羊,我真的是娘了个娘。
  13. switch组件设置大小
  14. Linux系统ln -s命令,详解Linux ln 命令
  15. HC32L110(一) HC32L110 芯片介绍和Win10下DAP-Link, ST-Link, J-Link方式的烧录
  16. 【验证工具类-ValidateUtil-java】
  17. 3.24 使用海绵工具制作变异的白虎 [原创Ps教程]
  18. 教程: nodejs 做微信公众号开发,回复 xml 消息
  19. Kaggle淋巴结病理切片有无癌细胞鉴别建模:Logistic+SVM+RandomForest+CNN
  20. 计算机毕业设计ssm汽车售后服务管理系统

热门文章

  1. 用Java获取文件的MD5校验和
  2. 如何在Vim中复制到剪贴板?
  3. 如何删除未推送的git commit?
  4. 如何使用Mockito模拟void方法
  5. 使用React Router以编程方式导航
  6. 什么是正确的JSON内容类型?
  7. 删除目录下大量小文件和清空大文件
  8. 模板引擎--handlebars
  9. Linux命令学习记录(六)
  10. 项目管理和产品管理绉议