벨만 방정식 (Bellman Expectation, Bellman Optimality)
강화학습 공부를 하며 중요했던 개념 중 하나인 벨만 방정식 (Bellman Equation) 에 대해 정리하였다. Bellman Expectation Equation은 주어진 policy에 대해서, 상태 가치 함수 V와 행동 가치 함수 Q를 정의하고 계산하는데에 사용되는 식이다. $$ V^\pi(s) = \mathbb{E}_\pi \left[ R_{t+1} + \gamma V^\pi(S_{t+1}) \mid S_t = s \right] $$$$ Q^\pi(s, a) = \mathbb{E}_\pi \left[ R_{t+1} + \gamma Q^\pi(S_{t+1}, A_{t+1}) \mid S_t = s, A_t = a \right] $$ 각 상태 혹은 행동의 가치는, 그 다음 state의 reward와 ..
2024.06.18