【RL】

2024-07-12 13:23| 来源: 网络整理| 查看: 265

1. 生成policy上的差异：一个随机，一个确定 Value-Base 中的 action-value估计值最终会收敛到对应的true values（通常是不同的有限数，可以转化为0到1之间的概率），因此通常会获得一个确定的策略（deterministic policy） Policy-Based不会收敛到一个确定性的值，另外他们会趋向于生成optimal stochastic policy。如果optimal policy是deterministic的，那么optimal action对应的性能函数将远大于suboptimal actions对应的性能函数，性能函数的大小代表了概率的大小

随即策略的优点：在很多问题中的最优策略是随机策略（stochastic policy）。（如石头剪刀布游戏，如果确定的策略对应着总出石头，随机策略对应随机出石头、剪刀或布，那么随机策略更容易获胜）

2. 一个连续，一个离散 Value-Base，对于连续动作空间问题，虽然可以将动作空间离散化处理，但离散间距的选取不易确定。过大的离散间距会导致算法取不到最优action，会在这附近徘徊，过小的离散间距会使得action的维度增大，会和高维度动作空间一样导致维度灾难，影响算法的速度。 Policy-Based适用于连续的动作空间，在连续的动作空间中，可以不用计算每个动作的概率，而是通过Gaussian distribution （正态分布）选择action。

3. 在Value-Base中，value function 的微小变化对策略的影响很大，可能直接决定了这个action是否被选取而Policy-Based避免了此缺点

参考：

https://blog.csdn.net/LagrangeSK/article/details/82865578

【本文地址】

公司简介

联系我们