今天,OpenAI在官方博客上丢出了7个研究过程中发现的未解决问题。

OpenAI希望这些问题能够成为新手入坑AI的一种有趣而有意义的方式,也帮助从业者提升技能。

OpenAI版AI界七大未解之谜,现在正式揭晓——

1. Slitherin’

难度指数:☆☆

实现并解决贪吃蛇的多玩家版克隆作为Gym环境。

环境:场地很大,里面有多条蛇,蛇通过吃随机出现的水果生长,一条蛇在与另一条蛇、自己或墙壁相撞时即死亡,当所有的蛇都死了,游戏结束。

智能体:使用自己选择的自我对弈的RL算法解决环境问题。你需要尝试各种方法克服自我对弈的不稳定性。

检查学习行为:智能体是否学会了适时捕捉食物并避开其他蛇类?是否学会了攻击、陷害、或者联合起来对付竞争对手?

2. 分布式强化学习中的参数平均

难度指数:☆☆☆

这指的是探究参数平均方案对RL算法中样本复杂度和通信量影响。一种简单的解决方法是平均每个更新的每个worker的梯度,但也可以通过独立地更新worker、减少平均参数节省通信带宽。

这样做还有一个好处:在任何给定的时间内,我们都有不同参数的智能体,可能出现更好的探测行为。另一种可能是使用EASGD这样的算法,它可以在每次更新时将参数部分结合在一起。

3. 通过生成模型完成的不同游戏中的迁移学习

难度指数:☆☆☆

这个流程如下:

训练11个Atari游戏的策略。从每个游戏的策略中,生成1万个轨迹,每个轨迹包含1000步行动。

将一个生成模型(如论文Attention Is All You Need提出的Transformer)与10个游戏产生的轨迹相匹配。

然后,在第11场比赛中微调上述模型。

你的目标是量化10场比赛预训练时的好处。这个模型需要什么程度的训练才能发挥作用?当第11个游戏的数据量减少10x时,效果的大小如何变化?如果缩小100x呢?

4. 线性注意Transformer

难度指数:☆☆☆

Transformer模型使用的是softmax中的软注意力(soft attention)。如果可以使用线性注意力(linear attention),我们就能将得到的模型用于强化学习。

具体来说,在复杂环境下使用Transformer部署RL不切实际,但运行一个具有快速权重(fast weight)的RNN可行。

你的目标是接受任何语言建模任务,训练Transformer,然后找到一种在不增加参数总数情况下,用具有不同超参数的线性注意Transformer获取每个字符/字的相同位元的方法。

先给你泼盆冷水:这可能是无法实现的。再给你一个潜在的有用提示,与使用softmax注意力相比,线性注意转化器很可能需要更高的维度key/value向量,这能在不显著增加参数数量的情况下完成。

5. 已学习数据的扩充

难度指数:☆☆☆

可以用学习过的数据VAE执行“已学习数据的扩充”。

我们首先可能需要在输入数据上训练一个VAE,然后将每个训练点编码到一个潜在的空间,之后在其中应用一个简单(如高斯)扰动,最后解码回到观察的空间。用这种方法是否能得到更好的泛化,目前还是一个谜题。

这种数据扩充的一个潜在优势是,它可能包含视角变换、场景光纤变化等很多非线性转换。

6. 强化学习中的正则化

难度指数:☆☆☆☆

这指的是实验性研究和定性解释不同正则化方法对RL算法的影响。

在监督学习中,正则化对于优化模型和防止过拟合具有极其重要的意义,其中包含一些效果很赞的方法,如dropout、批标准化和L2正则化等。

然而,在策略梯度和Q-learning等强化学习算法上,研究人员还没有找到合适的正则化方法。顺便说一下,人们在RL中使用的模型要比在监督学习中使用的模型小得多,因为大模型表现更差。

7. Olympiad Inequality问题的自动解决方案

难度指数:☆☆☆☆☆

Olympiad Inequality问题很容易表达,但解决这个问题往往需要巧妙的手法。

建立一个关于Olympiad Inequality问题的数据集,编写一个可以解决大部分问题的程序。目前还不清楚机器学习在这里是否有用,但你可以用一个学习的策略减少分支因素。

深度丨AI界的七大未解之谜:OpenAI丢出一组AI研究课题相关推荐

  1. AI界的七大未解之谜:OpenAI丢出一组AI研究课题

    来源:三体智讯 今天,OpenAI在官方博客上丢出了7个研究过程中发现的未解决问题. OpenAI希望这些问题能够成为新手入坑AI的一种有趣而有意义的方式,也帮助从业者提升技能. OpenAI版AI界 ...

  2. 触觉是怎么产生的?清华大学破解诺奖成果未解之谜,登上Nature

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 当你刷手机.和别人握手,或者踩到一块硌脚的石头时,有没有想过: 我们的身体究竟是如何感受到相关的力的? 更具体一点的说,这些物理刺激是如何转化成生 ...

  3. 2017互联网十大未解之谜,你能回答几个?

    0关注「实验楼」,每天分享一个项目教程 互联网行业发生许多重大事件,比如微信小程序上线.顺丰菜鸟互撕.共享单车接连倒闭.乐视危机发酵.无人超市崛起.求职少年李文星之死.京东腾讯入股唯品会等.在互联网的 ...

  4. 难道这又是个未解之谜?--- 关于DLL中使用ADODATASET出错的问题

    难道这又是个未解之谜?--- 关于DLL中使用ADODATASET出错的问题 Delphi / Windows SDK/API http://www.delphi2007.net/DelphiAPI/ ...

  5. where显示null行_Python 之 MySql“未解之谜”14-- 都是 NULL 惹的祸(下)

    最近在网上看到 MySql 关于 NULL 的文章 有几个值得争议的观点,我们一起看看 ● 准备工作 MySql 版本 5.7,InnoDB 存储引擎, 表 test 数据量 10 w, 其中 a , ...

  6. 一个常见的物理现象,直今还是未解之谜!

    全世界只有3.14 % 的人关注了 爆炸吧知识 在我们的日常生活中存在着很多有趣的物理现象, 科学家对这些现象进行深入研究后,可以通过这些现象延伸,从而在前沿科技发展上得到很大的帮助,甚至去解决宇宙中 ...

  7. hibernate 复合主键 根据主键删除_Python 之 MySql“未解之谜”11--主键 id 那些事

    主键 id 用自增和 uuid 有什么区别? ● uuid 有 16 个字节,比 int(4 byte)和 bigint(8 byte)占用更多存储空间 有大量数据的时候 uuid 主键不会像自增主键 ...

  8. 山东科技大学c语言完全题库,“山东科技大学十大未解之谜”之完全解答

    "山东科技大学十大未解之谜"之完全解答 (2012-04-24 13:53:36) 标签: 娱乐 当我还是一枚小正太刚刚进入山科大的时候,我就看到过这些未解之谜,现在每每看到童鞋们 ...

  9. 很多未解之谜终于有答案了——2018年JVM生态系统报告出炉

    在Java开发者中,一直存在着很多鄙视链.如: IntelliJ → Eclipse → NetBeans Unix → Linux → Mac OS→ Windows → DOS Emacs → V ...

最新文章

  1. Nginx+uWSGI+Django原理
  2. java处理视频_Java使用FFmpeg处理视频[视频直播三]
  3. 【7.9 讲座直播】纳米孔靶向测序技术在新型冠状病毒与常见呼吸道病毒快速诊断中的应用...
  4. 文献学习(part6)--Clustering ensemble based on sample’s stability
  5. mysql更新一条语句_MySQL一条更新语句是如何执行的
  6. scala不可变和可变_Scala使期货变得轻松
  7. 计算机九大核心课程,九大变化,透析IB(国际文凭)课程发展趋势
  8. 调用百度音频,文字转音频
  9. 软件测试前景会被ai取代吗_软件测试人员可能很快会被AI程序取代
  10. 下载sqlserver2012 试用_大肥虫助手下载-大肥虫助手 安卓版v7.0.4
  11. 基于SpringBoot的毕业设计选题系统
  12. 为什么直到YOY小黄仓的出现,我们的消费积分才能最大利用呢?
  13. 双六(挑战程序设计竞赛)
  14. OpenMP编程(4)—sections、single指令
  15. 让 GitHub 上这几个小游戏帮你找回童真
  16. u盘安linux、win等系统
  17. 论文笔记 | Does Policy Uncertainty Affect Mergers and Acquisitions
  18. 深入Java Servlets网络编程 西安电子科技大学出版社
  19. 运营半年多视频号涨粉13万,如何真正挖掘视频号的潜力
  20. 胸大肌(03):杠铃卧推

热门文章

  1. 论坛报名 | 人工智能与疫情精准防控
  2. 牛顿迭代法的可视化详解
  3. 独家 | 为什么大多数分析工作都以失败告终
  4. 解密「天池」:如何做好一场万人AI竞赛的「大后方」?
  5. 笔试分享 | 带你解读校招人工智能笔试题
  6. 独家 | 数据管理在零售、医疗、制造、娱乐、建筑等行业的应用
  7. AI大师张钹领衔,清华AI研究院推出知识计算开放平台
  8. 征集 | 国家标准《信息安全技术 健康医疗信息安全指南》征求意见
  9. 年薪百万的华为「天才少年」:谢凌曦分享「进阶」之路,选题最重要!
  10. 中科院博士整理的机器学习算法知识手册 | 附PDF下载