鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

用别人的轮子,开自己的路。

在这个产品快速迭代的时代,搜索、调用别人的代码避免重复造轮子,已是开发常态。

但是搜索代码这件事,并不是百度一下就能解决的。

搜索引擎们往往答非所问,难以理解程序猿们的需求。

现在,GitHub觉得,机器学习可以改善这个问题。不仅要让AI搜代码,还要搞出一套评估标准。

于是,CodeSearchNet挑战赛上线了。

这一上线,就是日入200星的节奏,目前已经登上了趋势榜第四的位置。

CodeSearchNet挑战赛

CodeSearchNet挑战赛是GitHub和Weights&Biases携手推出的一项新赛事,旨在推动语义代码搜索的相关研究。

虽然与其他的信息检索任务相关联,但代码中使用的语言通常是缩写,并且具有高度技术性,也就是说,在这项任务中,代码语言和自然语言之间存在鸿沟

所以,像GLUE这样的基准测试显然不太适合用来评估这一任务。

CodeSearchNet为NLP社区提供了一个新的平台,包含:

  • 大量的相关数据说明

  • 一系列基线模型的开源代码,以及预训练权重

  • 基线评估指标和实用程序

  • 一个新的排行榜

挑战赛包括99种自然语言查询(query),以及大约4000个专家注释,这些注释,来自GitHub为挑战赛发布的CodeSearchNet语料库。

语料库 + 模型

CodeSearchNet语料库的数据取自GitHub上的开源项目,经过了充分的预处理。

其中包含了约600万种函数,取自Go,Java,JavaScript,PHP,Python和Ruby这六种编程语言的开源代码。

还包含了通过机械抓取、预处理相关函数文档,自动生成的类似查询的自然语言,适用于200万种函数。

数据集已经开放下载,大小约20GB。

GitHub还计划在未来几个月继续扩展评估数据集,容纳进更多编程语言,查询和注释。并且,他们也希望这一数据集能在其他NLP任务中得到应用。

GitHub的目标,是将其打造成代码数据集界的ImageNet。

同时开源的,还有基准模型。

为了评估代码搜索模型,GitHub从bing上收集了高点击率的搜索查询文字,将其与StaQC(数据集:StackOverflow-Question-Code-Dataset)查询相结合,生成了99个与代码相关的查询。

而后,使用标准的Elasticsearch(开源搜索引擎)安装,并用基线模型从CodeSearchNet语料库中为每个查询搜索10个可能的结果。

最后,GitHub要求程序员,数据科学家和机器学习研究人员以 [0,3] 的评价标准来注释搜索结果与查询的相关性,0表示完全不相关,3表示完全符合。

精心制作,必属良品。GitHub也指出,在他们的新数据集中训练搜索方法,能显著提高特定项目搜索查询的性能。

现在,排行榜上还只有GitHub“自己人”,那么,来挑战一下吗?

传送门

CodeSearchNet挑战赛简介:

GitHub地址:

论文地址:

大会启幕!预见智能科技新未来

量子位MEET 2020智能未来大会启幕,将携手优秀AI企业、杰出科研人员呈现一场高质量行业盛会!详情可点击图片:

榜单征集!三大奖项,锁定AI Top玩家

2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

热榜第四:GitHub开源代码数据集界ImageNet,推出代码搜索挑战赛相关推荐

  1. GitHub热榜第四!这套Python机器学习课,免费获取还易吸收 | 资源

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 刚刚,又一个机器学习人气课程冲上GitHub热榜,一天之内新增了近700 star,一下子登上热榜第四. 这套课程名为A Machine L ...

  2. Apollo 5.0,GitHub热榜第四

    雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI Apollo 5.0有多火? 看GitHub最新热榜就行了,在全球最大的开发者社区,目前迭代新版本的Apollo,已经冲至第4. 目前总获 ...

  3. 中国博士开发可交互全球疫情地图,登上柳叶刀,GitHub已有4500星成为热榜第四...

    郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一个多月前,当你被困在家里无法出门的时候,可能每天早上第一件事就是看看疫情地图,看看昨天又新增确诊了多少. 现在,中国的疫情逐渐褪去,海外 ...

  4. 热榜第一!GitHub 标星 5.6w,如何用 Python 实现所有算法?

    转自 | 大数据文摘 编译 | 周素云.蒋宝尚 学会了 Python 基础知识,想进阶一下,那就来点算法吧!毕竟编程语言只是工具,结构算法才是灵魂. 新手如何入门 Python 算法? 几位印度小哥在 ...

  5. 热榜第一!GitHub 标星 5.6w,用 Python 实现所有算法!

    转自 | 大数据文摘 编译 | 周素云.蒋宝尚 学会了 Python 基础知识,想进阶一下,那就来点算法吧!毕竟编程语言只是工具,结构算法才是灵魂. 新手如何入门 Python 算法? 几位印度小哥在 ...

  6. GitHub开源:一键生成前后端代码神器

    目录 1.技术架构 2.微服务架构图 3.业务应用 本篇博客将为朋友们分享一款神器:JeecgBoot. JeecgBoot 是一款基于代码生成器的低代码开发平台,零代码开发.采用前后端分离架构:Sp ...

  7. GitHub 热榜:天才黑客开源新项目,不到 1000 行代码,1400 Star!

    点击上方"Github爱好者社区",选择星标 回复"资料",获取小编整理的一份资料 来自机器之心 在深度学习时代,谷歌.Facebook.百度等科技巨头开源了多 ...

  8. GitHub 热榜:这款开源神器可帮您将文本转换为手写文字,并下载为 PDF 格式文件!...

    今天给大家推荐一个非常有意思的开源工具 -- Text-to-handwriting. 该开源工具是一名来自印度塔内的大学生 Saurabh Daware 开源,他花费了 3 个小时编写了这么一款自动 ...

  9. GitHub 热榜:歪果小姐姐教你用纯代码画画,真细腻!

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 转自量子位 HTML 不是编程语言,但这并不妨碍精通它的大佬玩出花来. 普通的前端,用 ...

最新文章

  1. 最简单的设置按钮的鼠标悬停效果
  2. KUR-Couriers
  3. 【图像处理】——特征匹配(SIFT特征检测器+FLANN特征匹配方法+KNN近邻最优匹配筛选)——cv.xfeatures2d.SIFT_create()sift.detectAndCompute
  4. 将数字转化为液晶显示屏的样子
  5. [css] 请说说颜色中#F00的每一位分别表示什么?为什么会有三位和六位的表示呢?
  6. jQuery实现的向下推送图文信息滚动效果
  7. c索引超出了数组界限_关于MATLAB逻辑数组索引的二三事(二)
  8. 如何爬取了知乎用户信息,并做了简单的分析
  9. Why I am here--细谈如何Hadoop重写分块函数,改变分块规则
  10. PowerDesigner逆向工程,从SQL Server数据库生成Physical Model
  11. PDF转ONENOTE的方法
  12. 回首13我们奋斗在14的路上
  13. 使用Ps为图像批量制作水印
  14. 排序负数排在左边非负数排在右边
  15. 自然语言处理 第二期
  16. PDF文件怎么在线拆分?教你在线拆分方法
  17. 第1-2课:算法设计常用思想之贪婪法
  18. Spring Kafka消费模式(single, batch)及确认模式(自动、手动)示例
  19. MySQL--分组查询(group by)
  20. Lattice:1、MachXO系列CPLD器件专业名词(缩略语及器件介绍)

热门文章

  1. 自用Java爬虫工具JAVA-CURL已开源
  2. PowerDesigner反向生成物理数据模型
  3. Python 学习日记5
  4. centos iptables 防火墙配置
  5. 兔子--eclipse设置编码格式
  6. LNMP安装常见问题集锦(一)
  7. [转]div 让文字或图片居中
  8. 分布式日志收集系统--Chukwa
  9. Linux Shell脚本入门--wc命令
  10. HTML5 利用canvas API 展示阴影效果