컴퓨터공학47 강화 학습 2. Markov Decision Process(MDP) and Dynamic Programming(DP) 서론 Markov Decision Process(MDP)는 강화학습에서 문제 정의할 때 많이 사용되는 기법이다. Dynamic Programming는 MDP에서 정의한 수식들을 풀어내기 위한 방법을 말한다. The Markov chain Markov property & Markov chain Markov Decision Process(MDP)에 대해 알기 전에 Markov property와 Markov chain에 대해 알아야 한다. Markov property란 미래는 과거가 아닌 현재에만 의존하는 조건이다. Markov chain은 다음 상태를 예측하기 위해 이전 상태가 아닌 현재 상태에만 의존하는 확률 모델로 미래는 과거로부터 조건부 독립임을 말하는 모델들을 말한다. 이때, Markov chain은.. 2023. 3. 27. 강화 학습 1.기본 개념 서론 강화학습은 머신러닝과 다른 길로 발전을 하다, AI라는 큰 분야로 통합이 되면서 합쳐진 분야이다. 그렇기에 대충 이야기할 때는 머신러닝이 강화학습의 일부분처럼 말한다.(물론 머신러닝은 데이터에 대한 모델 교육을 위한 다양한 기술을 포함하는 광범위한 분야이며 강화 학습은 이러한 기술 중 하나입니다.) 하지만 실제 공부를 하게 되면 따로따로 공부하게 된다. 머신러닝의 대부분의 분야와 차이가 있기에 무엇을 우선 공부해도 상관은 없지만 보통은 머신러닝을 먼저 공부를 한다. 머신러닝(기계학습, Machine Learning, ML) 머신러닝이란 데이터에서 자동으로 프로그램 학습하는 프로그램이다. ML 알고리즘은 샘플 데이터를 기반으로 예제를 일반화하여 중요한 작업을 수행하는 방법을 파악하여 수학적 모델을 구.. 2023. 3. 11. 이전 1 ··· 3 4 5 6 다음 반응형