본문 바로가기

Programming/AI

3. Markov Decision Processes ( MDP )

Markov Decision Processes ( MDP )

이제 Markov Reward Processes 에 행동(action) 개념을 추가하면, Markov Decision Processes 가 완성된다.
개념적으로 특정 상태에서 특정 action 을 행하면, 환경이 다른 상태로 전이된다고 볼 수 있다.
그림 : MDP 

검은색으로 채워진 작은 원이 action 이다.

Transition Probabilities

Reward Processes 에서 에 action 조건이 붙어 가 된다.
그림의 예에서 행동(a)를 하면, 두 개의 전이 확률이 있다.
특정 행동을 했을 때 다음 상태(s') 로 변경될 확률이다.

정책 ( )

Probability Distribution of Actions at a state
특정 상태(s) 에서 특정 정책을 수행할 확률이다.
위 그림에서 action 이 하나만 존재하므로
도 하나만 있다. 확률값은 미정

Expected value of the next Reward

행동(action)을 취하고 다음 상태에서 받을 보상(reward) 의 기대값 을 다음과 같이 표시한다.
같이 대문자 R 을 사용해서 다음에 나올 '수렴하는 보상의 합'과 혼동하기 쉽다.
는 하나의 reward 의 기대값 이고,
Return () 는 정책(policy) 에 따라 모든 행동(action) 을 했을 때 받을 reward 들의 합이다.
혼동을 방지하기 위해 David Silver 의 자료에서는 Return 을 대문자 R대신 G 를 사용한 것 같다.

MP, MRP, MDP

Markov Processes 에 Reward 개념을 추가하면
Markov Reward Process 가 된다.
Markov Reward Processes 에 action 개념을 추가하면
Markov Decision Process 가 된다.


'Programming > AI' 카테고리의 다른 글

5. QLearning  (0) 2017.12.19
4. TD(시간차 학습)  (0) 2017.12.19
2. Markov Reward Processes  (0) 2017.12.18
1. Markov Processes ( Markov Chain )  (0) 2017.12.18