LEARNING INVARIANT REPRESENTATIONS FOR REINFORCEMENT LEARNING WITHOUT RECONSTRUCTION-柠檬ai自媒体

无重构强化学习的学习不变表示

发表时间：,文章要点：2021(ICLR 2021)本文想说的是，在状态中其实有很多与任务无关的事情，如果我们用重建这样的方式去做，还是会被考虑的。本文提出用互模拟度量来表示，使潜在空间中的状态间距离等于互模拟度量。具体来说，互模拟度量的思想是，两个状态之间的距离应该是奖励和状态转换之间的差异，所以如果不考虑其他事情，它自然不会包含与任务无关的表示。具体来说，互模拟度量被定义为。

具体到算法上，有一个编码器把状态带入潜在空间，然后基于潜在空间的状态对其进行训练和强化，比如SAC。这个互模拟度量用于训练编码器，直到算法丢失。

这里，z是通过编码器后潜在空间中的状态，r是奖励，p是状态转移。如果是随机跃迁，则考虑高斯分布。这意味着我从缓冲区中寻找两个状态，然后使这两个状态之间的距离与R和p之间的间隙相同。

其实这里的动态P也是要训练的，相当于基于模型的方法，这样就可以计算出j中的P。总的来说，总结：提出了一种表示方法，不考虑与任务无关的事情，提高了稳定性和泛化能力。有道理，但是你要连续训练三个东西，不是很容易训练的。另外里面写了几个定理，感觉和实验关系不大。如果我在疑问：,用目标检测、语义分割、实例分割等技术直接排除无关对象，是会更直接还是很难判断某件事是否无关，所以很难做到？

如果一个对象在训练编码器时被认为是无关的，然后在测试环境中对象实际上是相关的，那么编码器的通用性是不是直接丧失了？

内容来源网络，如有侵权，联系删除，本文地址：https://www.230890.com/zhan/62058.html

LEARNING INVARIANT REPRESENTATIONS FOR REINFORCEMENT LEARNING WITHOUT RECONSTRUCTION

相关推荐

如何用python实现简单的文本情感分析

Java数据结构---稀疏数组

如何理解mysql的锁机制

activity和singletask(task和activity有什么区别)

如何使用VarifocalNet制定候选框排序的最佳方案

python如何对列表内数据求和(python如何对列表每一项求和)

分享到：