들어가며기초는 중요하다. 복잡하고 어려운 최신 AI 논문들을 읽으면서, 이해가 잘 되지 않고 익힘이 느리다면 기초가 부족한 경우가 많다. 대학교 3학년, 처음으로 (비교적) 최신 논문을 읽어보며 벽을 느꼈었던 기억이 아직도 새록새록하다. 그렇기에 정말 기초부터 다시 정리하기 위해 강화학습 포스트를 써 볼 계획이다. 그 처음은 모든 강화학습 알고리즘의 기초가 되는 Markov Decision Process(MDP)이다. Markov PropertyMDP의 정확한 정의는 찾아봐도 잘 나오지 않는다. Markov Property라는 게 있는데, 이 특성(Property)을 따르는 의사 결정 과정(Decision Process)이란다. Markov Property는 쉽게 말하자면 "바로 다음 올 미래를 예측하기..