RL 算法的探索与开发 · 精通 TensorFlow 1.x

# RL 算法的探索与开发在没有模型的情况下，智能体在每一步都要探索或利用。 **探索**意味着智能体选择一个未知动作来找出奖励和模型。 **剥削**意味着智能体选择最知名的行动来获得最大奖励。如果智能体总是决定利用它，那么它可能会陷入局部最优值。因此，有时智能体会绕过学到的策略来探索未知的行为。同样，如果智能体总是决定探索，那么它可能无法找到最优策略。因此，在探索和开发之间取得平衡非常重要。在我们的代码中，我们通过使用概率`p`来选择随机动作和概率`1-p`来选择最优动作来实现这一点。