🔥码云GVP开源项目 12k star Uniapp+ElementUI 功能强大 支持多语言、二开方便! 广告
# Q 函数(在模型不可用时学习优化) 如果模型不可用,则智能体通过反复试验来学习模型和最优策略。当模型不可用时,智能体使用 Q 函数,其定义如下: ![](https://img.kancloud.cn/ec/12/ec12598180e2ff664e974ce36ffa9bb0_1210x200.png) 如果状态 s 处的智能体选择动作 a,则 Q 函数基本上将状态和动作对映射到表示预期总奖励的实数。