본문 바로가기

Programming/AI

5. QLearning 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677// R[6][6] = Reward Matrix 보상 행렬#define MROW 6#define MLOW 4/*double R[MROW][MLOW] = { // double R[MROW][MLOW] = { // -> Action{ -1, -1, -1, -1, 0, -1 }, // { -1, -1, 0, -1 }, // 0 1 2 3 4 5 6{ -1, -1, -1, 0, -1, 100 }, // { -1, 0, -1, 100 }, // s 1{ -1.. 더보기
4. TD(시간차 학습) 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475int main(int argc, char **argv){ int i, j = 0; int LineCnt = atoi(argv[2]) - 3; FILE *fp = fopen(argv[1], "r"); if (fp == NULL) { printf("File not exists\n"); exit(0); } //Read the number of states from the file int stateNum ; fscanf(fp,"%d",&stateNum); //R.. 더보기
3. Markov Decision Processes ( MDP ) Markov Decision Processes ( MDP ) 이제 Markov Reward Processes 에 행동(action) 개념을 추가하면, Markov Decision Processes 가 완성된다. 개념적으로 특정 상태에서 특정 action 을 행하면, 환경이 다른 상태로 전이된다고 볼 수 있다. 그림 : MDP 검은색으로 채워진 작은 원이 action 이다. Transition Probabilities Reward Processes 에서 에 action 조건이 붙어 가 된다. 그림의 예에서 행동(a)를 하면, 두 개의 전이 확률이 있다. 특정 행동을 했을 때 다음 상태(s') 로 변경될 확률이다. 정책 ( ) Probability Distribution of Actions at a stat.. 더보기
2. Markov Reward Processes Markov Reward Processes 앞선 Markov Processes 에 보상 개념을 추가 할 수 있다. 다음 그림에서 각 상태에 보상을 할당한 것을 볼 수 있다. 그림 : reward 포함 Reimfocement Learning 의 agent 가 각 상태에 있을 경우 받을 수 있는 보상이라고 생각할 수 있다. 보상 개념이 추가된 markov processes 를 markov reward processes 라고 한다. 특정 상태의 보상으로 표시한다. 출처 https://doonething.gitbooks.io/rl/content/ 더보기
1. Markov Processes ( Markov Chain ) Markov Processes ( Markov Chain ) Markov State Markov Process 의 구성 요소이며, 그림과 같이 Markov State 들을 선으로 연결 한다. 그림 : 간략화한 Markov Processes Reinforcement Learning 에서 환경의 상태(State)를 Markov State 로 볼 수 있다. 또한 환경은 Markov State 들 중에 하나의 상태로 존재한다. 따라서 '환경' 은 동시에 두 '상태' 로 존재할 수 없다. 상태 전이 확률 ( Transition Probabilities ) 환경(MDP)의 상태가 다른 상태로 변화될 확률을 의미한다. s 에서 s' 로 전이될 확률을 수식으로 아래와 같다. Markov Transition Matrix.. 더보기