OpenAI和DeepMind的研究人员使用的新算法从人类反馈中学习,他们希望这样做能使人工智能更安全。

两家公司均为强化学习的专家,强化学习是机器学习的一个领域,其基本思想是,如果代理在特定的环境里采取正确的行动完成了任务就给予奖励。该目标是通过一种算法来指定的,代理经过程序后就会追逐奖励,例如游戏中的获胜点。

强化学习在训练机器如何玩如Doom或Pong等游戏或通过模拟驾驶自主驾驶汽车等案例中取得了成功。强化学习是探索代理行为的一个有效的方法,但如果硬编码算法错了或产生不良影响的话,这种方法可能也有危险。

arXiv上发表的一篇论文描述了一种有助于防止此类问题的新方法。首先,代理在其环境中执行随机动作。预测的奖励则是基于人类的判断,而且奖励被反馈到强化学习算法中,以改变代理的行为。

系统在人类指导下制定最佳行动及学习目标

研究人员将这种算法用于训练一个弯曲的灯柱往后仰。代理的两个视频然后再交给人观看,观看者选择哪一个的后仰动作更佳一些。

经过一段时间后,代理就逐渐学习了如何根据奖励函数最有效地解释人类的判断来学习目标。强化学习算法用于指导代理的行为,并可以持续在人类的批准下进行改进。

网上可找到相关的视频。(https://www.youtube.com/watch?v=oC7Cw3fu3gU)

人类评估者花掉的时间不足一个小时。但要完成做饭或发送电子邮件等更复杂的任务就会需要更多的人类反馈,从财务的角度来看则是昂贵的。

文章的作者之一达里奥·阿莫德(Dario Amodei)是OpenAI的一名研究人员,他表示,未来研究的重点会放在减少监督方面。

他告诉记者,“泛泛而言,名为半监督学习的技术在这一块可能有帮助。另一种可能性是提供更信息密集的反馈形式,如语言,或是让人类在屏幕上具体指出表示良好行为的部分。更多的信息密集反馈可能会让人类在更短的时间内更多地与算法进行沟通。“

上述研究人员在其他模拟机器人任务和Atari游戏里测试了他们的算法,结果显示机器有时可以实现超人式的性能。但这在很大程度上取决于人类评估者的判断。

OpenAI在一篇博文里表示,“我们算法的性能只能和人类评估者对于什么是正确行为的直觉一样好,所以,如果人类对一个任务没有很好的把握,那他们可能提供不了太多有用的反馈。”

阿莫德表示,目前的结果仅局限于非常简单的环境。但这种方法大有可能对有些很难学习的任务有用,这些任务的奖励功能很难量化,例如驾驶、组织事件、写作或技术支持的提供。

原文发布时间为:2017年6月14日 
本文作者:作者:杨昀煦
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

OpenAI及DeepMind两团队令未来的AI机器更安全相关推荐

  1. 机器学习:DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

    请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别? - 周博磊的回答 - 知乎 https://www.zhihu.com/question/316626294/answer/62 ...

  2. OpenAI刚融资100亿,DeepMind CEO急了?呼吁AI圈减少科研竞赛!

    DeepMind一直是谷歌的骄傲. 作为谷歌母公司Alphabet的子公司,DeepMind是世界领先的人工智能实验室之一.成立13年,它交出的成绩单,十分亮眼. 不得不说,DeepMind在算法上是 ...

  3. DeepMind研究团队使用Sawyer进行连续离散混合学习研究和验证

    机器人学中的基本问题既涉及离散变量,如控制模式或档位切换的选择,也涉及连续变量,如速度设定点和控制增益.它们通常很难解决,因为哪些算法或控制策略最适合并不总是很明显.而当前许多先进的方法,经过优化后也 ...

  4. 能“预测未来”的AI来了!谷歌DeepMind推Dreamer,训练时间减半

    12月13日消息,据外媒报道,谷歌DeepMind和多伦多大学的研究人员在NeurIPS 2019会议上介绍了AI "Dreamer",可以通过已知世界模型在新环境中对视觉图像的运 ...

  5. 真有意思,AI高引论文排行榜:OpenAI和DeepMind未进前十,旷视排第二?

    文|丰色 发自 凹非寺 源|量子位 哪些机构或国家(地区)发表的AI研究是最具影响力的? 为了弄清这个问题,美国Zeta Alpha平台统计了2020-2022三年之间全世界引用次数前100的AI论文 ...

  6. 聚观早报 | OpenAI 没有上市计划;马斯克称未来房价下跌将加速

    今日要闻:OpenAI 没有上市计划:马斯克称未来房价下跌将加速:Coinbase被SEC起诉,股价闪崩:库克:苹果正密切关注ChatGPT等:推特正致力于开发视频直播产品 OpenAI没有上市计划 ...

  7. ChatGPT横空出世,让人们看到了AI的更大创造力,聚光灯再度打到了OpenAI的身上

    预告了一整年的GPT-4迟迟没来,人们猜想OpenAI是不是要跳票了,更何况他们之前的得意之作DALL-E也被开源Stable Diffusion打了个措手不及,再不来点深水炸弹业界地位危矣. 不过, ...

  8. DeepMind | 手撕MuZero算法「AI核心算法」

    注:耕智能,深耕AI脱水干货 作者: 饼干Japson   报道:深度强化学习实验室 转载请联系作者 前言 1 算法简介 1.1 背景 1.2 理解算法思想 2 模型图文讲解 2.1 MuZero中模 ...

  9. 超越AlphaZero,DeepMind新算法MuZero登顶Nature | AI日报

    超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...

最新文章

  1. java中的abstract和interface差异
  2. 什么是java泛型_java泛型背后是什么
  3. 2019年6月26 突然想到的代码优化
  4. java编程思想学习(1):抽象
  5. 虚拟化Hadoop集群的部署和管理 - 基本操作
  6. jbutton可以设置id吗_Java Swing简单控件实例(JButton,JLabel,JMenuBar,JComboBo)
  7. 【项目实战】基于 springboot + mybatis + mysql 的电脑商城项目(附源码)
  8. 算法工程师面试九之隐马尔可夫模型
  9. oracle同义词问题,ORACLE同义词总结(下)
  10. 动态域名解析服务(花生壳)
  11. 【小程序】微信小程序自定义导航栏及其封装
  12. think php 导出excel,Thinkphp5导出excel
  13. 异贝,移动互联网技术,为中小微实体企业联盟、线上链接、线上线下自定义营销方案推送。案例42
  14. ffmpeg实现画中画
  15. the quieter you become,the more you could see.
  16. 计算机二级抽题规律,计算机二级考试抽题规律计算机二级考试题及答案.doc
  17. HCIP H12-221 题库 71-120题 讲解
  18. 有哪些你觉得能借助学习以自我提升的网站推荐?
  19. Java程序员高效开发必备的5大工具,IDEA黑色主题让程序员爽翻!
  20. CSS动画- 两固定点之间实现曲线运动

热门文章

  1. 读书:儒林外史第一回
  2. spring26-1: bean的实例方式
  3. mybaits二十四:缓存原理示意图
  4. buildroot mysql
  5. java中final关键字的用法
  6. 用户体验思考之UI面试
  7. Linux 查看Pyhont的解释器大小
  8. python 只取年月日 字符串_Python的数据类型
  9. Discuz!UCenter创始人密码重置方法
  10. OpenGL学习笔记(2) 画一个正方形