Baeldung Pro – CS – NPI EA (类别 = Baeldung 关于计算机科学)
announcement - icon

通过超简洁的 Baeldung Pro 体验学习

>> 会员和 Baeldung Pro.

没有广告,深色模式,并免费获得 6 个月的 IntelliJ Idea Ultimate,供您入门。

1. 概述

在本教程中,我们将研究强化学习中策略的概念。

在本文结束时,我们将熟悉强化学习的基本概念及其基于策略的方法。

2. 策略的定义

强化学习机器学习的一个分支,致力于训练智能体在环境中运行,以在追求某些目标的过程中最大化其效用。

其基本思想,Russell 阐述是,智能是智能体与其环境之间交互的涌现属性。该属性通过指导智能体的选择来引导其行为,从而执行某些任务。

我们可以说,类似地,智能是智能体根据其目标选择适当策略的能力。策略是所有可能行为的一个面向目标的子集,它与“策略”的概念相关联。

因此,策略是智能体为实现目标而使用的策略。策略规定了智能体在给定智能体状态和环境的情况下所采取的行动。

3. 策略的数学定义

使用形式术语,我们根据其引用的马尔可夫决策过程来定义策略 \pi。马尔可夫决策过程是一种元组,形式为 (S, A, P, R),结构如下。

第一个元素是一个集合 S,包含智能体的内部状态。所有可能的状态共同构成智能体的所谓状态空间。在智能体模拟的网格世界中,S 通常由智能体在棋盘上的位置加上,如果需要,一些参数组成。

第二个元素是一个集合 A,包含智能体的行动。这些行动对应于智能体相对于环境可以采取的可能行为。所有行动的集合共同构成该智能体的行动空间

一个动作也会导致智能体状态的改变。这由矩阵 P 表示,它包含从一个状态转换到另一个状态的概率。它的元素,P_a(s,s'),包含对于所有可能的动作 a\in A 和状态对 (s, s') 的概率 Pr(s' | s, a)

第四个元素 R(s) 构成了智能体的奖励函数。它将智能体的状态作为输入,并输出一个对应于智能体奖励的实数。

我们现在可以正式定义策略,我们用 \pi(s) 表示。**一个策略 \pi(s) 包含了智能体应该对每个可能状态 s\in S 采取的建议动作**。

4. 强化学习中的策略示例

现在让我们来看一个实际场景中的策略示例,以便更好地理解它的运作方式。在这个例子中,一个智能体必须从环境中觅食以满足其饥饿感。然后,它根据它吃的果实获得奖励

example 1

智能体的内部状态对应于它在棋盘上的位置,在这种情况下,s_t = (x,y)s_0 = (1,1)。 在这个例子中,动作空间由四种可能的行为组成:A = \text{up, down, left, right}。概率矩阵 P 包含所有状态对 (s, s'),针对 A 中的所有动作。它是伯努利分布的,如下所示

P_{\text{down}}( (1,1), (1,2) ) = 1; P_{\text{down}}( (1,1), (1,3) ) = 0; ... ; P_{\text{up}}( (4,4), (4,3) ) = 1

奖励函数 R 的定义如下。如果它位于一个空单元格中,代理会收到 -1 的负奖励,以模拟饥饿的效果。相反,如果代理位于包含水果的单元格中,在本例中,梨位于 (3,2),苹果位于 (4,4),那么它将分别收到 +5 和 +10 的奖励。

因此,奖励函数 R 看起来像这样

  • R(\text{No fruit}) = -1
  • R(\text{Pear}) = +5
  • R(\text{Apple}) = +10

模拟将运行任意有限数量的时间步,但如果代理到达任何水果,则提前终止。

5. 策略的评估

代理然后考虑两种策略 \pi_1\pi_2。如果我们稍微简化符号,我们可以将策略表示为从代理在 s_0 状态开始时的一系列动作。

  1. \pi_1 = \text{down, right, right} \to \text{Pear}
  2. \pi_2 = \text{right, right, right, down, down, down} \to \text{Apple}
2-1

代理随后需要在两种策略之间进行选择。通过计算它们上的效用函数 U,代理获得

  • U(\pi_1) = -1-1+5 = +3
  • U(\pi_2) = -1-1-1-1-1+10 = +5
3-1

策略评估表明,效用通过 \pi_2 最大化,因此代理将其选择为该任务的策略。

6. 结论

在本文中,我们研究了强化学习代理的策略概念。我们还研究了其应用的一个例子。

2 条评论
最早
最新
内联反馈
查看所有评论
© .