검수요청.png검수요청.png

"모델 프리 강화학습"의 두 판 사이의 차이

위키원
이동: 둘러보기, 검색
(새 문서: '''모델 프리 강화학습'''은 == 개요 == {{각주}} == 참고자료 == * == 같이 보기 == * {{인공지능 기술|검토 필요}})
 
1번째 줄: 1번째 줄:
'''모델 프리 강화학습'''은  
+
'''모델 프리 강화학습'''(model-free reinforcement learning)마르코프 과정에서 모델이 주어지지 않았을 때 최적의 정책 함수를 찾아내는 방법이다.
  
 
== 개요 ==  
 
== 개요 ==  
 +
모델 프리 강화학습은 환경이 어떻게 동작되는지 알지 못한 상태에서 수동적으로 다음 번 상태와 보상을 얻게 되는 강화학습이다. 다시 말해서 주어진 상태에서 어떤 행동을 수행하고, 수동적으로 환경을 알려 주는 다음 번 상태를 얻게 되는 것이다. 게임을 생각하면 이해가 쉬운데, 상태를 모니터 스크린으로, 행동은 키보드 입력에 해당한다고 생각해 보자. 우리가 모니터를 보고 어떤 행동을 하게 되면 어떤 화면이 다음 번에 나타나고, 게임 스코어 등으로 보상을 받을 수 있다. 이러한 모델 프리 강화학습은 [[모델 기반 강화학습]]에 비해 몇 가지 구별되는 특징이 있는데, 그 대표적인 것이 바로 탐사(exploration)이다. 모델 프리 강화학습에서, 우리는 더 이상 환경이 어떻게 동작하는지 알지 못한다. 그렇기 때문에 직접 해 보고 그 결과를 통해 정책 함수를 점차 학습시켜야 한다. 현재까지 알고 있는 사실을 좀 더 파고들어서 더 좋은 결과를 얻으려고 하는 것을 개척(exploitation), 새로운 것들을 시도하는 것을 탐사(exploation)라고 하고, 이 둘 사이를 잘 조정하는 것을 개척과 탐사의 트레이드오프(exploitation and exploration tradeoff)라고 한다. 즉, 직접 해 보고 난 후에야 결과를 알 수 있는 것이 모델 프리 강화학습이다.<ref>카카오 정책사업 연구, 〈[https://brunch.co.kr/@kakao-it/73 (카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀]〉,  《브런치》, 2017-06-23 </ref>
  
 
{{각주}}
 
{{각주}}
  
 
== 참고자료 ==
 
== 참고자료 ==
*
+
* 카카오 정책사업 연구, 〈[https://brunch.co.kr/@kakao-it/73 (카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀]〉,  《브런치》, 2017-06-23
  
 
== 같이 보기 ==
 
== 같이 보기 ==
*  
+
* [[강화학습]]
 +
* [[모델 기반 강화학습]]
  
 
{{인공지능 기술|검토 필요}}
 
{{인공지능 기술|검토 필요}}

2020년 8월 25일 (화) 17:56 판

모델 프리 강화학습(model-free reinforcement learning)은 마르코프 과정에서 모델이 주어지지 않았을 때 최적의 정책 함수를 찾아내는 방법이다.

개요

모델 프리 강화학습은 환경이 어떻게 동작되는지 알지 못한 상태에서 수동적으로 다음 번 상태와 보상을 얻게 되는 강화학습이다. 다시 말해서 주어진 상태에서 어떤 행동을 수행하고, 수동적으로 환경을 알려 주는 다음 번 상태를 얻게 되는 것이다. 게임을 생각하면 이해가 쉬운데, 상태를 모니터 스크린으로, 행동은 키보드 입력에 해당한다고 생각해 보자. 우리가 모니터를 보고 어떤 행동을 하게 되면 어떤 화면이 다음 번에 나타나고, 게임 스코어 등으로 보상을 받을 수 있다. 이러한 모델 프리 강화학습은 모델 기반 강화학습에 비해 몇 가지 구별되는 특징이 있는데, 그 대표적인 것이 바로 탐사(exploration)이다. 모델 프리 강화학습에서, 우리는 더 이상 환경이 어떻게 동작하는지 알지 못한다. 그렇기 때문에 직접 해 보고 그 결과를 통해 정책 함수를 점차 학습시켜야 한다. 현재까지 알고 있는 사실을 좀 더 파고들어서 더 좋은 결과를 얻으려고 하는 것을 개척(exploitation), 새로운 것들을 시도하는 것을 탐사(exploation)라고 하고, 이 둘 사이를 잘 조정하는 것을 개척과 탐사의 트레이드오프(exploitation and exploration tradeoff)라고 한다. 즉, 직접 해 보고 난 후에야 결과를 알 수 있는 것이 모델 프리 강화학습이다.[1]

각주

  1. 카카오 정책사업 연구, 〈(카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀〉, 《브런치》, 2017-06-23

참고자료

같이 보기


  검수요청.png검수요청.png 이 모델 프리 강화학습 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.