인공능지 & 머선러닝/Reinforce Learning1 강화학습 기본정리 MDP (Markov Decision Process) RL이 적용되는 environment를 modeling한 것 현재 상태만이 다음 상태에 영향을 주는 Markov property(memory less property)를 가짐 MDP의 구성요소 ----- MP (Markov Process) ----- State (s): 상태 State transition probability (P): state에서 다음 state로 이동할때 어떤 state로 이동하게 될지 나타내는 확률 Episode: 종단 state가 있을때 시작 state에서 종단 state까지 가는데 가능한 시나리오 ----- MRP (Markov Reward Process) ----- Reward (R.. 2020. 12. 7. 이전 1 다음