视学算法报道

编辑:张倩

帮大模型找 bug 还能赚钱,去试试?

「找到一项任务,越大的模型反而表现越差,你就有机会拿走 10 万美元的奖金。」这是纽约大学的几位研究人员组织的一项另类竞赛。

随着语言模型变得越来越大(参数数量、使用的计算量和数据集大小都变大),它们的表现似乎也原来越好,这被称为自然语言的 Scaling Law。

但是,这些模型也有自己的缺陷,比如存在偏见、可能产生看似合理实则错误的信息。这项竞赛的目的就是要找到一些大模型不擅长的例子。

组织者将这些现象称为 inverse scaling。这样的例子似乎并不常见,但确实也能找到了一些。比如在问答任务中,如果在提问的同时加上你的信仰,大模型会更容易受到影响。其他可能的例子还包括模仿 prompt 中的错误 / bug 或重复常见的错误概念。这些例子能让我们了解当前语言模型预训练和缩放范式的潜在问题,还可以为改进预训练数据集和目标提供灵感。

比赛共有两轮,第一轮截止时间是 2022 年 8 月 27 日,第二轮截止时间是 2022 年 10 月 27 日。

参赛者需要做到以下几点:

  • 确定一个疑似显示了 inverse scaling 的任务;

  • 为该任务构建包含 300 多个示例的数据集;

  • 使用 Colab notebooks,用 GPT-3/OPT 测试你的数据集的 inverse scaling。

提交的作品将根据 AnthropicAI(一家非营利 AI 安全研究公司)提供的一系列私人模型进行评估,奖项将由一个匿名评审团决定。

其中,一等奖一名,奖金为 10 万美元;二等奖五名,奖金 2 万美元;三等奖 10 名,奖金为 5000 美元。总奖金池为 25 万美元。

比赛结束后,组织方将撰写一份结果调查报告,并发布一个包含已接受任务的基准,获奖者将被邀请为论文的共同作者。

更多详细内容参见 GitHub:

项目链接:https://github.com/inverse-scaling/prize

© THE END

转载请联系原公众号获得授权

点个在看 paper不断!

模型越大表现越差,这个比赛悬赏25万美元找大模型不擅长的任务,去试试?...相关推荐

  1. “AI+大数据”风起,ActionIQ 获1300万美元A轮融资,红杉领投

    根据VB消息,营销分析大数据公司 ActionIQ刚刚完成 1300 万美元的 A 轮融资,领投方为红杉资本,此前投资方FirstMark Capital.Amplify Partners以及 Bow ...

  2. 大数据早报:甲骨文公司投资4300万美元在总部建高中 18项全球互联网领先科技成果公布中国占6成 (12.6)

    数据早知道,上36dsj看早报! 来源36大数据,作者:奥兰多 『融资』用大数据+AI帮助患者解决 "找医生难"问题,「妙寻医生」获数百万元天使轮融资 近日,寻医平台妙寻医生已完成 ...

  3. 大数据早报:甲骨文公司投资4300万美元在总部建高中 18项全球互联网领先科技成果公布中国占6成 (12.6)...

    数据早知道,上36dsj看早报! 来源36大数据,作者:奥兰多 『融资』用大数据+AI帮助患者解决 "找医生难"问题,「妙寻医生」获数百万元天使轮融资 近日,寻医平台妙寻医生已完成 ...

  4. 小米人形机器人“铁大”学会敲架子鼓;​大疆 Mini 3 将上市;4990万美元,巴菲特旗下公司将开发军用自动驾驶车辆……...

    本周,有哪些AI新鲜事? 产业界 小米机器人铁大学会敲架子鼓,未来软硬件还需加强 今年8月,小米的人形机器人CyberOne正式亮相,小名叫铁大.它是一个比较轻量级的机器人,1.77米的身高,只有54 ...

  5. 大数据旅游网站Hopper获新一轮1600万美元融资

    基于大数据的旅游网站 Hopper 获新一轮 1600 万美元的融资,由 BDC 投资. 2012年,这家秘密开发了 5年 的旅游网站曾经宣布完成 B 轮融资,获得 1200 万美元投资,当时的投资方 ...

  6. 唯品会2017年双11大促技术保障实践,全域提供25万QPS服务能力

    作者简介: 刘惊惊,唯品会业务架构部高级架构师,负责唯品会电商平台的用户系统,营销系统和库存系统的架构设计工作.2016年加入唯品会,参与了唯品会电商系统的大重构,负责多个核心系统的梳理和大促准备.  ...

  7. 法国大数据分析协作初创企业Dataiku获1400万美元风险投资

    10月25日消息,法国大数据分析协作初创企业Dataiku宣布获得1400万美元风险投资,本轮融资由总部位于纽约的风投公司FirstMark Capital领投.据创投时报了解,Dataiku将利用本 ...

  8. 史上十大最昂贵笔记本电脑:最高售价100万美元

    笔记本是当代社会的必需品.真无法想象没有笔记本的世界会是一副什么鬼样子.笔记本除了功能.外形设计外,最让人关注的还是价格.国外媒体近日就盘点了当今世界最贵的10款笔记本. Luvaglio 英国奢侈品 ...

  9. 比特币在全球大类资产中表现最差 “造富神话”破灭,明年会更惨?

    2022年开年至今,比特币遭遇断崖式下跌,其他虚拟货币也几乎全军覆没.在全球大类资产表现中,比特币以64.79%的跌幅位列倒数第一,而在去年则以57.16%的涨幅排名正数第一. 短短一年光景,币圈风云 ...

最新文章

  1. 第一章 OSI参考模型
  2. 技术向:一文读懂卷积神经网络CNN
  3. FastDFS的配置、部署与API使用解读(8)FastDFS多种文件上传接口详解(转)
  4. udp多线程 java_UDP实现多线程通信
  5. 买房应该少出首付,多贷款
  6. 我们相信加密! 教程
  7. Hadoop平台优化综述(一)
  8. 使用html和css的一些经验
  9. 学习python 3 入门知识
  10. TCP Ports list (3498 ports in list)
  11. CSDN-Markdown语法集锦
  12. vmware 运行xp 蓝屏
  13. 非转基因保护品种覆盖南北 北方旱作国稻种芯-517功能苦瓜稻
  14. 概率论与数理统计浙江大学笔记和课后答案
  15. Linux下的数学工具Maxima 简明教程(上)
  16. 如何将单线程爬虫改成多线程
  17. Navicat迁移表数据 一
  18. html css 奥运五环,用css写一个有趣的奥运五环~。
  19. ps制作人物抠图,给人物自拍照进行精细抠图
  20. linux怎么读取光盘文件,linux怎么读取光盘里的文件?

热门文章

  1. 五大创新型AI软件公司,下一个AI独角兽就是你!
  2. 基于opencv+python实现数独
  3. 计算机科学与技术职业规划怎么写,计算机科学与技术专业职业生涯规划书范文...
  4. SpringCloud工程搭建之Fegin为消费者提供封装(可选)
  5. 均质机工作原理动画_玉林均质机原理组图
  6. 苹果电脑可以进行数据恢复吗
  7. 【进阶技术】一篇文章搞掂:Spring Cloud Stream
  8. I2C接口配置ES7243录音芯片,MCU(STM32)收不到I2C ACK的问题
  9. 列举html的基本标签6个,head标签 - HTML | 绿叶学习网
  10. 求复数之积。利用结构变量求解两个复数之积。