LEARNING INVARIANT REPRESENTATIONS FOR REINFORCEMENT LEARNING WITHOUT RECONSTRUCTION

技术LEARNING INVARIANT REPRESENTATIONS FOR REINFORCEMENT LEARNING WITHOUT RECONSTRUCTION LEARNING INVAR

无重构强化学习的学习不变表示

发表时间:,文章要点:2021(ICLR 2021)本文想说的是,在状态中其实有很多与任务无关的事情,如果我们用重建这样的方式去做,还是会被考虑的。本文提出用互模拟度量来表示,使潜在空间中的状态间距离等于互模拟度量。具体来说,互模拟度量的思想是,两个状态之间的距离应该是奖励和状态转换之间的差异,所以如果不考虑其他事情,它自然不会包含与任务无关的表示。具体来说,互模拟度量被定义为。

具体到算法上,有一个编码器把状态带入潜在空间,然后基于潜在空间的状态对其进行训练和强化,比如SAC。这个互模拟度量用于训练编码器,直到算法丢失。

这里,z是通过编码器后潜在空间中的状态,r是奖励,p是状态转移。如果是随机跃迁,则考虑高斯分布。这意味着我从缓冲区中寻找两个状态,然后使这两个状态之间的距离与R和p之间的间隙相同。

其实这里的动态P也是要训练的,相当于基于模型的方法,这样就可以计算出j中的P。总的来说,总结:提出了一种表示方法,不考虑与任务无关的事情,提高了稳定性和泛化能力。有道理,但是你要连续训练三个东西,不是很容易训练的。另外里面写了几个定理,感觉和实验关系不大。如果我在疑问:,用目标检测、语义分割、实例分割等技术直接排除无关对象,是会更直接还是很难判断某件事是否无关,所以很难做到?

如果一个对象在训练编码器时被认为是无关的,然后在测试环境中对象实际上是相关的,那么编码器的通用性是不是直接丧失了?

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/62058.html

(0)

相关推荐

  • 如何用python实现简单的文本情感分析

    技术如何用python实现简单的文本情感分析如何用python实现简单的文本情感分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。很久没在公

    攻略 2021年11月15日
  • Java数据结构---稀疏数组

    技术Java数据结构---稀疏数组 Java数据结构---稀疏数组稀疏数值的基础概念(图示)◆当一个数组中大部分元素为0,或者为同一值的数组时,可以使用稀疏数组来保存该数组。◆稀疏数组的处理方式是:◆记

    礼包 2021年11月25日
  • 如何理解mysql的锁机制

    技术如何理解mysql的锁机制本篇文章为大家展示了如何理解mysql的锁机制,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 锁0.1 锁机制当前MySQL已经支持 ISAM, M

    攻略 2021年11月16日
  • activity和singletask(task和activity有什么区别)

    技术Activity的singleTask有什么作用本篇内容主要讲解“Activity的singleTask有什么作用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Activ

    攻略 2021年12月18日
  • 如何使用VarifocalNet制定候选框排序的最佳方案

    技术如何用VarifocalNet进行对候选框排序的最优方案今天就跟大家聊聊有关如何用VarifocalNet进行对候选框排序的最优方案,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这

    攻略 2021年12月23日
  • python如何对列表内数据求和(python如何对列表每一项求和)

    技术Python怎么实现多维列表求和本篇内容介绍了“Python怎么实现多维列表求和”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够

    攻略 2021年12月17日