뚜써의 공간

  • 홈

Markov Decision Process 1

RL(1): Markov Decision Process(MDP)

들어가며기초는 중요하다. 복잡하고 어려운 최신 AI 논문들을 읽으면서, 이해가 잘 되지 않고 익힘이 느리다면 기초가 부족한 경우가 많다. 대학교 3학년, 처음으로 (비교적) 최신 논문을 읽어보며 벽을 느꼈었던 기억이 아직도 새록새록하다. 그렇기에 정말 기초부터 다시 정리하기 위해 강화학습 포스트를 써 볼 계획이다. 그 처음은 모든 강화학습 알고리즘의 기초가 되는 Markov Decision Process(MDP)이다. Markov PropertyMDP의 정확한 정의는 찾아봐도 잘 나오지 않는다. Markov Property라는 게 있는데, 이 특성(Property)을 따르는 의사 결정 과정(Decision Process)이란다. Markov Property는 쉽게 말하자면 "바로 다음 올 미래를 예측하기..

AI/RL 2024.11.01
이전
1
다음
더보기
프로필사진

PS, AI 공부하는 대학생입니다.

  • 전체 (187)
    • 알고리즘 공부 (185)
      • 코드업 기초 100제 (98)
      • 백준 (87)
    • AI (1)
      • RL (1)
    • Paper Review (1)
      • Imitation Learning (1)

Tag

동적계획법, 11053, 슬라이딩 윈도우, 10844, 백준, 11727, 2×n 타일링, 정수 삼각형, 파이썬, dp, 2156, dynamic programming, 가장 긴 증가하는 부분 수열, Longest Increasing Subsequence, 2193, BOJ, Markov Decision Process, 14501, 9461, Python,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바