Markov Decision Processes ( MDP )
이제 Markov Reward Processes 에 행동(action) 개념을 추가하면, Markov Decision Processes 가 완성된다.
개념적으로 특정 상태에서 특정 action 을 행하면, 환경이 다른 상태로 전이된다고 볼 수 있다.
그림 : MDP
검은색으로 채워진 작은 원이 action 이다.
Transition Probabilities
Reward Processes 에서 에 action 조건이 붙어 가 된다.
그림의 예에서 행동(a)를 하면, 두 개의 전이 확률이 있다.
특정 행동을 했을 때 다음 상태(s') 로 변경될 확률이다.
정책 ( )
Probability Distribution of Actions at a state
특정 상태(s) 에서 특정 정책을 수행할 확률이다.
위 그림에서 action 이 하나만 존재하므로
도 하나만 있다. 확률값은 미정
Expected value of the next Reward
행동(action)을 취하고 다음 상태에서 받을 보상(reward) 의 기대값 을 다음과 같이 표시한다.
같이 대문자 R 을 사용해서 다음에 나올 '수렴하는 보상의 합'과 혼동하기 쉽다.
는 하나의 reward 의 기대값 이고,
Return () 는 정책(policy) 에 따라 모든 행동(action) 을 했을 때 받을 reward 들의 합이다.
혼동을 방지하기 위해 David Silver 의 자료에서는 Return 을 대문자 R대신 G 를 사용한 것 같다.
MP, MRP, MDP
Markov Processes 에 Reward 개념을 추가하면
Markov Reward Process 가 된다.
Markov Reward Processes 에 action 개념을 추가하면
Markov Decision Process 가 된다.
'Programming > AI' 카테고리의 다른 글
5. QLearning (0) | 2017.12.19 |
---|---|
4. TD(시간차 학습) (0) | 2017.12.19 |
2. Markov Reward Processes (0) | 2017.12.18 |
1. Markov Processes ( Markov Chain ) (0) | 2017.12.18 |