多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
# Q 函数(在模型不可用时学习优化) 如果模型不可用,则智能体通过反复试验来学习模型和最优策略。当模型不可用时,智能体使用 Q 函数,其定义如下: ![](https://img.kancloud.cn/ec/12/ec12598180e2ff664e974ce36ffa9bb0_1210x200.png) 如果状态 s 处的智能体选择动作 a,则 Q 函数基本上将状态和动作对映射到表示预期总奖励的实数。