"모델 프리 강화학습"의 두 판 사이의 차이

2020년 8월 25일 (화) 17:56 판

모델 프리 강화학습(model-free reinforcement learning)은 마르코프 과정에서 모델이 주어지지 않았을 때 최적의 정책 함수를 찾아내는 방법이다.

개요

모델 프리 강화학습은 환경이 어떻게 동작되는지 알지 못한 상태에서 수동적으로 다음 번 상태와 보상을 얻게 되는 강화학습이다. 다시 말해서 주어진 상태에서 어떤 행동을 수행하고, 수동적으로 환경을 알려 주는 다음 번 상태를 얻게 되는 것이다. 게임을 생각하면 이해가 쉬운데, 상태를 모니터 스크린으로, 행동은 키보드 입력에 해당한다고 생각해 보자. 우리가 모니터를 보고 어떤 행동을 하게 되면 어떤 화면이 다음 번에 나타나고, 게임 스코어 등으로 보상을 받을 수 있다. 이러한 모델 프리 강화학습은 모델 기반 강화학습에 비해 몇 가지 구별되는 특징이 있는데, 그 대표적인 것이 바로 탐사(exploration)이다. 모델 프리 강화학습에서, 우리는 더 이상 환경이 어떻게 동작하는지 알지 못한다. 그렇기 때문에 직접 해 보고 그 결과를 통해 정책 함수를 점차 학습시켜야 한다. 현재까지 알고 있는 사실을 좀 더 파고들어서 더 좋은 결과를 얻으려고 하는 것을 개척(exploitation), 새로운 것들을 시도하는 것을 탐사(exploation)라고 하고, 이 둘 사이를 잘 조정하는 것을 개척과 탐사의 트레이드오프(exploitation and exploration tradeoff)라고 한다. 즉, 직접 해 보고 난 후에야 결과를 알 수 있는 것이 모델 프리 강화학습이다.^[1]

각주

↑ 카카오 정책사업 연구, 〈(카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀〉, 《브런치》, 2017-06-23

참고자료

카카오 정책사업 연구, 〈(카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀〉, 《브런치》, 2017-06-23

같이 보기

이 모델 프리 강화학습 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • 답변 • 대화 • 문자 • 문자인식 • 스토리 • 음성 • 음성인식(STT) • 인공어 • 자연어 • 질문 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LMM • SARSA • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정 • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 심층믿음망 • 어니 • 에이전트 • 인공지능 학습 • 지도학습 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 관계형 네트워크(RN) • 다층퍼셉트론 • 데이터마이닝 • 방사신경망 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 카카오 정책사업 연구, 〈(카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀〉, 《브런치》, 2017-06-23

[1]

@@ 1번째 줄: / 1번째 줄: @@
-'''모델 프리 강화학습'''은
+'''모델 프리 강화학습'''(model-free reinforcement learning)은 마르코프 과정에서 모델이 주어지지 않았을 때 최적의 정책 함수를 찾아내는 방법이다.
 == 개요 ==
+모델 프리 강화학습은 환경이 어떻게 동작되는지 알지 못한 상태에서 수동적으로 다음 번 상태와 보상을 얻게 되는 강화학습이다. 다시 말해서 주어진 상태에서 어떤 행동을 수행하고, 수동적으로 환경을 알려 주는 다음 번 상태를 얻게 되는 것이다. 게임을 생각하면 이해가 쉬운데, 상태를 모니터 스크린으로, 행동은 키보드 입력에 해당한다고 생각해 보자. 우리가 모니터를 보고 어떤 행동을 하게 되면 어떤 화면이 다음 번에 나타나고, 게임 스코어 등으로 보상을 받을 수 있다. 이러한 모델 프리 강화학습은 [[모델 기반 강화학습]]에 비해 몇 가지 구별되는 특징이 있는데, 그 대표적인 것이 바로 탐사(exploration)이다. 모델 프리 강화학습에서, 우리는 더 이상 환경이 어떻게 동작하는지 알지 못한다. 그렇기 때문에 직접 해 보고 그 결과를 통해 정책 함수를 점차 학습시켜야 한다. 현재까지 알고 있는 사실을 좀 더 파고들어서 더 좋은 결과를 얻으려고 하는 것을 개척(exploitation), 새로운 것들을 시도하는 것을 탐사(exploation)라고 하고, 이 둘 사이를 잘 조정하는 것을 개척과 탐사의 트레이드오프(exploitation and exploration tradeoff)라고 한다. 즉, 직접 해 보고 난 후에야 결과를 알 수 있는 것이 모델 프리 강화학습이다.<ref>카카오 정책사업 연구, 〈[https://brunch.co.kr/@kakao-it/73 (카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀]〉,  《브런치》, 2017-06-23 </ref>
 {{각주}}
 == 참고자료 ==
-*
+* 카카오 정책사업 연구, 〈[https://brunch.co.kr/@kakao-it/73 (카카오AI리포트)알파고를 탄생시킨 강화학습의 비밀]〉,  《브런치》, 2017-06-23
 == 같이 보기 ==
-*
+* [[강화학습]]
+* [[모델 기반 강화학습]]
 {{인공지능 기술|검토 필요}}

위키원

이름공간

변수

보기

더 보기

검색

"모델 프리 강화학습"의 두 판 사이의 차이

2020년 8월 25일 (화) 17:56 판

목차

개요

각주

참고자료

같이 보기