多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
# RL 算法的探索与开发 在没有模型的情况下,智能体在每一步都要探索或利用。 **探索**意味着智能体选择一个未知动作来找出奖励和模型。 **剥削**意味着智能体选择最知名的行动来获得最大奖励。如果智能体总是决定利用它,那么它可能会陷入局部最优值。因此,有时智能体会绕过学到的策略来探索未知的行为。同样,如果智能体总是决定探索,那么它可能无法找到最优策略。因此,在探索和开发之间取得平衡非常重要。在我们的代码中,我们通过使用概率`p`来选择随机动作和概率`1-p`来选择最优动作来实现这一点。