LEARNING INVARIANT REPRESENTATIONS FOR REINFORCEMENT LEARNING WITHOUT RECONSTRUCTION

技术LEARNING INVARIANT REPRESENTATIONS FOR REINFORCEMENT LEARNING WITHOUT RECONSTRUCTION LEARNING INVAR

无重构强化学习的学习不变表示

发表时间:,文章要点:2021(ICLR 2021)本文想说的是,在状态中其实有很多与任务无关的事情,如果我们用重建这样的方式去做,还是会被考虑的。本文提出用互模拟度量来表示,使潜在空间中的状态间距离等于互模拟度量。具体来说,互模拟度量的思想是,两个状态之间的距离应该是奖励和状态转换之间的差异,所以如果不考虑其他事情,它自然不会包含与任务无关的表示。具体来说,互模拟度量被定义为。

具体到算法上,有一个编码器把状态带入潜在空间,然后基于潜在空间的状态对其进行训练和强化,比如SAC。这个互模拟度量用于训练编码器,直到算法丢失。

这里,z是通过编码器后潜在空间中的状态,r是奖励,p是状态转移。如果是随机跃迁,则考虑高斯分布。这意味着我从缓冲区中寻找两个状态,然后使这两个状态之间的距离与R和p之间的间隙相同。

其实这里的动态P也是要训练的,相当于基于模型的方法,这样就可以计算出j中的P。总的来说,总结:提出了一种表示方法,不考虑与任务无关的事情,提高了稳定性和泛化能力。有道理,但是你要连续训练三个东西,不是很容易训练的。另外里面写了几个定理,感觉和实验关系不大。如果我在疑问:,用目标检测、语义分割、实例分割等技术直接排除无关对象,是会更直接还是很难判断某件事是否无关,所以很难做到?

如果一个对象在训练编码器时被认为是无关的,然后在测试环境中对象实际上是相关的,那么编码器的通用性是不是直接丧失了?

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/62058.html

(0)

相关推荐

  • 笑的种类,笑的学问和笑的种类有多少

    技术笑的种类,笑的学问和笑的种类有多少笑 心理学家们现在发现笑的种类:笑是人类与他人交流的最古老的方式之一,而在此之前,笑只被看作是人类幽默感的体现。人类笑是为了和别人团结一致或者嘲笑他们,要么用笑和别人调情。我们中的每

    生活 2021年10月20日
  • redis缓存出现异常怎么处理(redis缓存遇到的问题及解决方法)

    技术如何解决Redis缓存异常的问题这篇文章将为大家详细讲解有关如何解决Redis缓存异常的问题,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。缓存雪崩缓存雪崩是指缓存同一时间大面积的失

    攻略 2021年12月17日
  • 手机分屏怎么弄,手机分屏模式怎么切换两面全屏

    技术手机分屏怎么弄,手机分屏模式怎么切换两面全屏方法/步骤分步阅读1/5
    分屏切换为全屏
    点击分屏线中间的按钮手机分屏怎么弄,向上或向下滑动,即可将想放大的界面变成全屏。
    2
    /5
    互换分屏位置
    点击分屏线中间的按钮,点

    生活 2021年10月27日
  • java线程相关知识点有哪些

    技术java线程相关知识点有哪些这篇文章主要讲解了“java线程相关知识点有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“java线程相关知识点有哪些”吧!cas c

    攻略 2021年11月24日
  • php的结构函数是什么(php定义和函数有什么区别)

    技术php中system函数有什么用小编给大家分享一下php中system函数有什么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

    攻略 2021年12月19日
  • thinkphp怎么开启api(thinkphp命令行怎么设置)

    技术thinkphp大d方法怎么使用这篇文章主要介绍“thinkphp大d方法怎么使用”,在日常操作中,相信很多人在thinkphp大d方法怎么使用问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家

    攻略 2021年12月16日