妄想偏见(Delusional Bias)(1)

目录

妄想偏见(Delusional Bias)(1)

1. What is Delusional Bias?

2. When?

3. Why?

4. Consequence

5. How to eliminate Delusional Bias?


本文为我对妄想偏见的理解,妄想偏见是NIPS2018的文章《Non-delusional Q-learning and value-iteration》 首次提出的,指出了值函数迭代方法中采用函数近似器(或其他形式DP)时所产生的固有问题——妄想偏见。妄想偏见这一概念非常绕,而且文章也比较难,我将分为多次博客来详细介绍。

1. What is Delusional Bias?

Q-learning(或其它形式DP)当采用函数近似时会出现妄想偏见:更新基于相互不一致的值(approximate Q-learning suffers from delusional bias, in which updates are based on mutually inconsistent values)。

2. When?

当近似结构限制了可表示的贪婪policy的类别时,会产生妄想偏见(Delusional bias arises when the approximation architecture limits the class of expressible greedy policies)

3. Why?

不一致性出现是因为状态动作对(s,a)的Q-更新基于下一状态下所有动作的最大值估计,而忽略了如此考虑的动作(包括在s选择动作a)可能无法通过源于近似器产生的一组可允许策略共同实现这一个事实(This inconsistency arises because the Q-update for a stateaction pair, (s,a), is based on the maximum value estimate over all actions at the next state, which ignores the fact that the actions so-considered (including the choice of a at s) might not be jointly realizable given the set of admissible policies derived from the approximator)。

4. Consequence

无约束的更新给目标值带来错误,并导致明显的值估计错误来源:Q-learning很容易根据贪心策略类无法实现的动作选择来备份value。妄想偏见是一个固有问题,它会影响Q-update与受约束策略类的交互,这是更具表现力的近似器、更大的训练集和更多的计算所不能解决。

5. How to eliminate Delusional Bias?

policy-consistent backup operator: 不只是为每个状态动作对简单查找一个单独的future value,而是查找一个候选value集合(每一个都有一组相关的策略保证(commitment)来证明它)。这些方法通过对生成的值进行策略一致性的显示约束来补充值迭代和Q-learning的基于value的性质,并使用这些值从允许的策略类中选择策略(These methods complement the value-based nature of value iteration and Q-learning with explicit constraints on the policies consistent with generated values, and use the values to select policies from the admissible policy class)。方法被证明了在具有策略约束的表格情况下(将妄想error与近似误差隔离开),算法会收敛到可允许策略类的最佳策略,并且当贪婪策略类具有有限VC维时,信息集的数量是多项式有界的,因此在表格情况下,算法具有多项式时间迭代复杂度。缺陷:一致性的备份可能导致信息集激增,因此建议将搜索试探法集中在有前景的信息集上,并建议在一批训练数据中强加(或近似)策略一致性的方法,以努力使近似器趋向更好的估计。

我自己画的妄想偏见思维导图:

参考文献:

[1] Lu T , Schuurmans D , Boutilier C . Non-delusional Q-learning and value-iteration[C]// NIPS 2018. 2018.

妄想偏见Delusion Bias相关推荐

  1. 深度学习先驱 Yann LeCun 被骂到封推!AI 偏见真该甩锅数据集?

    整理 | 夕颜 出品 | CSDN(ID:CSDNnews) 最近,人工智能领域又发生了一次热热闹闹的争论,随后演变成一场偏离轨道的争吵,目前以 Yann 道歉封推暂告一段落......        ...

  2. 机器学习实战代码注释svm_使用经典机器学习模型动手进行毒性分类并最大程度地减少注释的意外偏见...

    机器学习实战代码注释svm In this blog, I will try to explain a Toxicity polarity problem solution implementatio ...

  3. 2019年CS224N课程笔记-Lecture 19:Safety, Bias, and Fairness

    资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=19 毒性/toxicity->戾气程度 正课内容 对于现实中的这种香蕉我们倾向于不提黄色( ...

  4. 算法偏见是什么_为什么我们需要神经网络中的偏见

    算法偏见是什么 The term "bias" has a lot of pejorative connotations. When we think of it, we see ...

  5. 我从吴恩达 AI For Everyone 中学到的十个重要 AI 观

    作者 | LeeMeng 整理 | NewBeeNLP 写在前面 在这个人机共存的年代,每个人都应该去尝试了解并运用人工智慧这个超能力,思考自己未来在这个变化快速的世界的定位  曾经领导Google ...

  6. 第一篇学术演讲准备两个月,去了谷歌却做不了深度学习,听Facebook田渊栋谈人生挑战与选择...

    视学算法转载 来源:从零道一 (公众号ID:goto0011) 第一次 15 分钟的演讲准备了两个月.毕业就进谷歌却只能当螺丝钉.从研究员到研究经理面临角色转换-- 在最近的一次访谈中,Faceboo ...

  7. 神经符号系统、因果推理、跨学科交互,李飞飞、Judea Pearl等16名学者共同探讨AI未来...

    来源:机器之心 本文约7600字,建议阅读15分钟 李飞飞.Judea Pearl等16名学者共同探讨AI未来. 2019年 Gary Marcus 和 Yoshua Bengio 就 AI 技术发展 ...

  8. 我从吴恩达AI For Everyone中学到的10个重要AI观

    作者:NewBeeNLP 本文约3500字,建议阅读10分钟 本文作者与你分享吴恩达课中最值得记住的10个AI观,希望能让你学到些东西. 写在前面 [ 导读 ]在这个人机共存的年代,每个人都应该去尝试 ...

  9. 近期热门领域新鲜数据集汇总!

    来源:程序媛的日常 本文长度为2721字,建议阅读4分钟 本文为你分享一些新颖的数据集,涵盖了阅读理解.对话系统.新闻摘要等热门领域. 今天想跟大家分享一些近期看到的比较新颖的数据集.随着很多基础设置 ...

最新文章

  1. ceph编译_Ceph编译:L版本及其之后的版本
  2. C/S框架-WebService部署图
  3. 【目标检测】cvpr21_Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
  4. (软件工程)用例说明模板
  5. Spring Cloud微服务下的权限架构调研
  6. windows下pyhton_vitrualenv虚拟环境pycharm如何创建django项目
  7. mysql 连接 监控_监控mysql上客户端的连接数
  8. sklearn实践之——计算回归模型的四大评价指标(explained_variance_score、mean_absolute_error、mean_squared_error、r2_score)
  9. mysql80110_M1938工作室出品N801苹果CMSV10高级自适应模板
  10. linux里卸载mysql数据库,Linux下卸载MySQL数据库
  11. 硬件编码相关知识(H264,H265)
  12. 计算机学院转会,2020年英超冬窗转会汇总,你主队的操作让你满意吗?
  13. 微信小程序-预研总结(PPT分享)
  14. 微服务架构深度解析与最佳实践 - 第五部分:七个应对策略之性能、一致性与高可用
  15. 2024清华大学计算机考研信息汇总
  16. 编译原理习题(含答案)——1 绪论——哈工大陈鄞配套版本
  17. Helen Of Troy 海伦特洛伊(新木马屠城记)
  18. promise 中的异常捕获_Promise异常捕获
  19. 洛谷 小木棍(暴力+剪剪剪剪枝)
  20. 追求稳定的人,终究会被时代淘汰。人生被只顾低头拉车,更要抬头看路。

热门文章

  1. 文件读取fs—Web后端上机实验2
  2. VTM下载、配置、使用
  3. b宝塔 centos端口更改_BT宝塔面板修改默认8888端口的方法
  4. 微信扫码登录网站实现案例(无需授权)
  5. chrome浏览器network报错:ERR_CERT_AUTHORITY_INVALID
  6. 使用 ULN2003 驱动 28BYJ-48 步进电机
  7. Java毕设项目我爱短视频管理系统(java+VUE+Mybatis+Maven+Mysql)
  8. 朋友做跨境电商月入八万+?生活永远充满惊喜!
  9. 解决Android studio 的 Connecting to the emulator
  10. #Java学习#习题二