强化学习中的策略是什么?
最后更新:2025年2月13日
1. 概述
在本教程中,我们将研究强化学习中策略的概念。
在本文结束时,我们将熟悉强化学习的基本概念及其基于策略的方法。
2. 策略的定义
强化学习是机器学习的一个分支,致力于训练智能体在环境中运行,以在追求某些目标的过程中最大化其效用。
其基本思想,Russell 阐述是,智能是智能体与其环境之间交互的涌现属性。该属性通过指导智能体的选择来引导其行为,从而执行某些任务。
我们可以说,类似地,智能是智能体根据其目标选择适当策略的能力。策略是所有可能行为的一个面向目标的子集,它与“策略”的概念相关联。
因此,策略是智能体为实现目标而使用的策略。策略规定了智能体在给定智能体状态和环境的情况下所采取的行动。
3. 策略的数学定义
使用形式术语,我们根据其引用的马尔可夫决策过程来定义策略 。马尔可夫决策过程是一种元组,形式为
,结构如下。
第一个元素是一个集合 ,包含智能体的内部状态。所有可能的状态共同构成智能体的所谓状态空间。在智能体模拟的网格世界中,
通常由智能体在棋盘上的位置加上,如果需要,一些参数组成。
第二个元素是一个集合 ,包含智能体的行动。这些行动对应于智能体相对于环境可以采取的可能行为。所有行动的集合共同构成该智能体的行动空间。
一个动作也会导致智能体状态的改变。这由矩阵 表示,它包含从一个状态转换到另一个状态的概率。它的元素,
,包含对于所有可能的动作
和状态对
的概率
。
第四个元素 构成了智能体的奖励函数。它将智能体的状态作为输入,并输出一个对应于智能体奖励的实数。
我们现在可以正式定义策略,我们用 表示。**一个策略
包含了智能体应该对每个可能状态
采取的建议动作**。
4. 强化学习中的策略示例
现在让我们来看一个实际场景中的策略示例,以便更好地理解它的运作方式。在这个例子中,一个智能体必须从环境中觅食以满足其饥饿感。然后,它根据它吃的果实获得奖励
智能体的内部状态对应于它在棋盘上的位置,在这种情况下, 和
。 在这个例子中,动作空间由四种可能的行为组成:
。概率矩阵
包含所有状态对
,针对
中的所有动作。它是伯努利分布的,如下所示
奖励函数 的定义如下。如果它位于一个空单元格中,代理会收到 -1 的负奖励,以模拟饥饿的效果。相反,如果代理位于包含水果的单元格中,在本例中,梨位于
,苹果位于
,那么它将分别收到 +5 和 +10 的奖励。
因此,奖励函数 看起来像这样
模拟将运行任意有限数量的时间步,但如果代理到达任何水果,则提前终止。
5. 策略的评估
代理然后考虑两种策略 和
。如果我们稍微简化符号,我们可以将策略表示为从代理在
状态开始时的一系列动作。
代理随后需要在两种策略之间进行选择。通过计算它们上的效用函数 ,代理获得
策略评估表明,效用通过 最大化,因此代理将其选择为该任务的策略。
6. 结论
在本文中,我们研究了强化学习代理的策略概念。我们还研究了其应用的一个例子。