ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
# V 函数(模型可用时学习优化) 如果事先知道模型,则智能体可以执行**策略搜索**以找到最大化值函数的最优策略。当模型可用时,智能体使用值函数,该函数可以朴素地定义为未来状态的奖励总和: ![](https://img.kancloud.cn/2a/83/2a8307eb7f7fbc7e1dcc98ffbe2de72b_1960x430.png) 因此,使用策略`p`选择操作的时间步`t`的值将是: ![](https://img.kancloud.cn/97/52/9752bdd111eaca98113f92d3ca6be26c_2230x210.png) `V`是值,`R`是奖励,值函数估计在未来最多`n`个时间步长。 当智能体使用这种方法估计奖励时,它会平等地将所有行为视为奖励。在极点推车示例中,如果民意调查在步骤 50 处进行,则它将把直到第 50 步的所有步骤视为对跌倒的同等责任。因此,不是添加未来奖励,而是估计未来奖励的加权总和。通常,权重是提高到时间步长的折扣率。如果贴现率为零,则值函数变为上面讨论的幼稚函数,并且如果贴现率的值接近 1,例如 0.9 或 0.92,则与当前奖励相比,未来奖励的影响较小。 因此,现在行动`a`的时间步`t`的值将是: ![](https://img.kancloud.cn/9c/f4/9cf45434e50a954ce0da682e51b5dd43_4640x250.png) `V`是值,`R`是奖励,`r`是折扣率。 **V 函数和 Q 函数之间的关系:** `V*(s)`是状态`s`下的最优值函数,其给出最大奖励,并且`Q*(s,a)`是状态`s`下的最佳 Q 函数,其通过选择动作`a`给出最大期望奖励。 因此,`V*(s)`是所有可能动作中所有最优 Q 函数`Q*(s,a)`的最大值: ![](https://img.kancloud.cn/ad/94/ad9448f5f39b020b37d757bed3ab096f_2460x300.png)