"모델 기반 강화학습"의 두 판 사이의 차이

2020년 8월 24일 (월) 17:58 판

모델 기반 강화학습은 상호작용에 기반한 모델을 구성한 다음, 이 모델을 사용하여 실제 환경이 아닌 생성된 모델에 적용하여 학습하는 강화학습의 종류 중 하나이다.

개요

모델을 학습하는 것은 실제 환경에서 행동을 실행하고 피드백을 수집하는 것으로 구성된다. 이것을 경험이라고 부른다. 그래서 각각의 상태와 행동에 대해 환경은 새로운 상태와 보상을 제공하게 된다. 이 경험의 집합에 기초하여 모델을 추론하려고 노력한다. 이것은 다름아닌 감독된 학습 문제이다. 그리고 가능한 감독된 학습 기법 중 하나를 사용하여 이 문제를 해결하는데, 그것은 퇴행이나 신경망 같은 것이 될 수 있다. 모델은 감독되는 학습 기법에 따라 테이블 조회, 신경 네트워크 등으로 표현될 것이다. 이러한 점에서 모델 기반 강화학습과 모델 프리 강화학습은 차별점이 있다. 모델 프리 강화학습은 경험을 위해 직접 학습하며, 이는 실제 세계에서 동작을 수행한다. 그런 다음 긍정적이든 부정적이든 환경으로부터 보상을 수집하고, 가치 기능을 갱신한다. 이처럼 모델 프리 강화학습은 배우기 위해 실제 환경에서 작용한다는 점이 모델 기반 강화학습과의 주요 차이점이다. 반대로 모델 기반 알고리즘은 학습 단계에서 실제 환경과의 상호작용 횟수를 줄인다. 이 모델의 목적은 상호작용에 기반한 모델을 구성한 다음, 이 모델을 사용하여 실제 환경이 아닌 생성된 모델에 적용하여 해당 모델에 의해 결과가 반환되는 추가 에피소드를 시뮬레이션하는 것이다. 이 방법은 학습을 재개하기 위해 환경이 반응하기를 기다릴 필요도 없고 환경을 일부 상태로 재설정할 필요도 없기 때문에 학습 속도를 높일 수 있는 장점이 있다. 그러나 부정적인 면에서는 모델이 부정확하다면 현실과 완전히 다른 것을 배워야 한다는 위험이 있다.^[1]

알고리즘

분석적 기울기 계산

역학 및 비용 함수의 형태에 대한 가정은 LQR 프레임워크에서와 같이 국지적으로 최적의 제어를 위한 폐쇄형 솔루션을 산출할 수 있기 때문에 편리하다. 이러한 가정이 타당하지 않더라도, 회귀-수평 제어는 근사치 역학에서 유입된 작은 오류를 설명할 수 있다. 마찬가지로 가우스 프로세스로 파라메타된 동적 모델에는 정책 개선에 사용할 수 있는 분석적 그라데이션이 있다. 또한 이러한 간단한 파라메트리제션을 통해 도출된 제어기를 사용하여 보다 복잡한 비선형 정책을 교육하기 위한 지침 샘플을 제공할 수 있다.

샘플링 기반 계획

비선형 동적 모델의 완전히 일반적인 경우, 우리는 국소 최적성의 보증을 상실하고 샘플링 작용 시퀀스에 의존해야 한다. 이 접근법의 가장 간단한 버전인 무작위 사격은 고정된 분포에서 후보 행동을 샘플링하고, 모델 아래에서 그것들을 평가하고, 가장 유망하다고 여겨지는 행동을 선택하는 것을 포함한다. 보다 정교한 변형 모델들은 교차 엔트로피 방법(CEM, PlaNet, PETS 및 시각적 선견지명에 사용)이나 경로 적분 최적 제어(최근 모델 기반의 손재주 조작 작업에서 사용)에서처럼 샘플링 분포를 반복적으로 조정한다. 그러나 이산 작용 설정에서는 반복적으로 하나의 경유지 궤적을 정밀하게 하기보다는 트리 구조를 검색하는 것이 더 일반적이다. 일반적인 트리 기반 검색 알고리즘에는 최근 게임 플레이에서 인상적인 결과를 뒷받침하는 MCTS와 반복적인 너비 검색이 있다. 연속 및 이산 영역 모두에서 샘플링 기반 계획은 구조화된 물리 기반 객체 중심 이전 버전과 결합될 수 있다.

모델 기반 데이터 생성

많은 머신러닝 성공 사례에서 중요한 디테일이 트레이닝 세트의 크기를 인위적으로 늘리는 수단이다. 정책 최적화를 위한 수동 데이터 확대 절차를 정의하기는 어렵지만, 우리는 예측 모델을 합성 데이터를 생성하는 학습된 방법으로 유사하게 볼 수 있다. 그러한 조합의 원래 제안은 모델 학습, 모델 하에서의 데이터 생성, 모델 데이터를 이용한 정책 학습을 번갈아 하는 서튼(Sutton)의 다이나(Dyna) 알고리즘에서 나온다. 이 전략은 iLQG, 모델 앙상블 및 메타 학습과 결합되었으며, 이미지 관찰로 확장될 뿐만 아니라 이론적 분석에 적합하다. 모델 기반 데이터 생성의 목표는 모델을 사용하여 시간 차이 학습에 대한 목표값 추정치를 개선하는 것이다.

다이나 알고리즘

알고리즘은 Q와 모델을 초기화하는 것으로 시작하여 메인 루프로 들어간다. 현재 상태에서 시작하고, 정책에 따라 조치를 선택하고, 실제 환경에서 조치를 실행하고, 보상 $R$ 과 새로운 상태 $S$ 를 관찰한다. 그리고 $R$ 과 $S'$ 를 사용할 수 있게 되면 $Q(S,A)$ 와 모델을 업데이트한다. $S'$ 는 현재 상태가 된다는 점에 유의해야 한다. 알고리즘이 계획 단계에 접어들면 n번 반복하는 두 번째 루프를 입력하는데, 이 루프 안에서 알고리즘은 무작위로 상태와 관련 동작을 선택한다. 그리고 모델에 적용하여 모델로부터 보상과 새로운 상태를 얻은 다음 외부 루프에서와 같이 $Q(S,A)$ 를 업데이트한다.^[1]

  $\mathrm {Initialize} \ Q(s,a)\ \mathrm {and} \ Model(s,a)\ \mathrm {for\ all} \ s\in S\ \mathrm {and} \ a\in A(s)$ 
   $\mathrm {Do\ forever:}$ 
    $\mathrm {(a)} \ S\leftarrow \mathrm {current\ (nonterminal)\ state}$ 
    $\mathrm {(b)} \ A\leftarrow \varepsilon \mathrm {-grredy} (S,Q)$ 
    $\mathrm {(c)} \ \mathrm {Execute\ action} \ A;\mathrm {observe\ resultant\ reward,} \ R,\ \mathrm {and\ state,} \ S'$ 
    $\mathrm {(d)} \ Q(S,A)\ \leftarrow Q(S,A)\ +a\left[R+\gamma max_{a}\ Q(S',a)-Q(S,A)\right]$ 
    $\mathrm {(e)} \ Model(S,A)\ \leftarrow R,S'\ \mathrm {assuming\ deterministic\ environment}$ 
    $\mathrm {(f)} \ \mathrm {Repeat} n\mathrm {times:}$ 
          $S\leftarrow \mathrm {random\ previously\ observed\ state}$

가치 동등성 예측

모델 기반과 모델 프리 범주화에 깔끔하게 들어맞지 않는 최종 기법은 모델의 예측이 실제 상태를 닮도록 감독하지 않고 모델 기반 강화학습과 유사한 연산을 통합하는 것이다. 대신, 모델에 따른 계획은 예측된 누적 보상에서만 실제 환경의 궤적을 일치시키도록 제한된다. 이러한 가치평등한 모델은 기존의 모델 기반 계획이 어렵다는 것이 입증된 고차원 관찰 공간에 효과적이라는 것을 보여 주었다.^[2]

각주

↑ ^1.0 ^1.1 Ziad SALLOUM, 〈Model Based Reinforcement Learning A top view of how Model Based Reinforcement Learning works.〉, 《Towards Data Science》, 2019-05-21
↑ Michael Janner, 〈Model-Based Reinforcement Learning: Theory and Practice〉, 《BAIR》, 2019-12-12

참고자료

Ziad SALLOUM, 〈Model Based Reinforcement Learning A top view of how Model Based Reinforcement Learning works.〉, 《Towards Data Science》, 2019-05-21
Michael Janner, 〈Model-Based Reinforcement Learning: Theory and Practice〉, 《BAIR》, 2019-12-12

같이 보기

이 모델 기반 강화학습 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • 답변 • 대화 • 문자 • 문자인식 • 스토리 • 음성 • 음성인식(STT) • 인공어 • 자연어 • 질문 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LMM • SARSA • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정 • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 심층믿음망 • 어니 • 에이전트 • 인공지능 학습 • 지도학습 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 관계형 네트워크(RN) • 다층퍼셉트론 • 데이터마이닝 • 방사신경망 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[.ED.88.AC.EC.9B.8C.EC.A6.88.EB.8D.B0.EC.9D.B4.ED.84.B0-1] 1.0 ^1.1 Ziad SALLOUM, 〈Model Based Reinforcement Learning A top view of how Model Based Reinforcement Learning works.〉, 《Towards Data Science》, 2019-05-21

[2] Michael Janner, 〈Model-Based Reinforcement Learning: Theory and Practice〉, 《BAIR》, 2019-12-12

[1]

[2]

@@ 1번째 줄: / 1번째 줄: @@
-'''모델 기반 강화학습'''은
+'''모델 기반 강화학습'''은 상호작용에 기반한 모델을 구성한 다음, 이 모델을 사용하여 실제 환경이 아닌 생성된 모델에 적용하여 학습하는 [[강화학습]]의 종류 중 하나이다.
 == 개요 ==
+모델을 학습하는 것은 실제 환경에서 행동을 실행하고 피드백을 수집하는 것으로 구성된다. 이것을 경험이라고 부른다. 그래서 각각의 상태와 행동에 대해 환경은 새로운 상태와 보상을 제공하게 된다. 이 경험의 집합에 기초하여 모델을 추론하려고 노력한다. 이것은 다름아닌 감독된 학습 문제이다. 그리고 가능한 감독된 학습 기법 중 하나를 사용하여 이 문제를 해결하는데, 그것은 퇴행이나 신경망 같은 것이 될 수 있다. 모델은 감독되는 학습 기법에 따라 테이블 조회, 신경 네트워크 등으로 표현될 것이다. 이러한 점에서 모델 기반 강화학습과 모델 프리 강화학습은 차별점이 있다. 모델 프리 강화학습은 경험을 위해 직접 학습하며, 이는 실제 세계에서 동작을 수행한다. 그런 다음 긍정적이든 부정적이든 환경으로부터 보상을 수집하고, 가치 기능을 갱신한다. 이처럼 모델 프리 강화학습은 배우기 위해 실제 환경에서 작용한다는 점이 모델 기반 강화학습과의 주요 차이점이다. 반대로 모델 기반 알고리즘은 학습 단계에서 실제 환경과의 상호작용 횟수를 줄인다. 이 모델의 목적은 상호작용에 기반한 모델을 구성한 다음, 이 모델을 사용하여 실제 환경이 아닌 생성된 모델에 적용하여 해당 모델에 의해 결과가 반환되는 추가 에피소드를 시뮬레이션하는 것이다. 이 방법은 학습을 재개하기 위해 환경이 반응하기를 기다릴 필요도 없고 환경을 일부 상태로 재설정할 필요도 없기 때문에 학습 속도를 높일 수 있는 장점이 있다. 그러나 부정적인 면에서는 모델이 부정확하다면 현실과 완전히 다른 것을 배워야 한다는 위험이 있다.<ref name="투워즈데이터">Ziad SALLOUM, 〈[https://towardsdatascience.com/model-based-reinforcement-learning-cb9e41ff1f0d Model Based Reinforcement Learning A top view of how Model Based Reinforcement Learning works.]〉,  《Towards Data Science》, 2019-05-21 </ref>
+== 알고리즘 ==
+=== 분석적 기울기 계산 ===
+역학 및 비용 함수의 형태에 대한 가정은 LQR [[프레임워크]]에서와 같이 국지적으로 최적의 제어를 위한 폐쇄형 솔루션을 산출할 수 있기 때문에 편리하다. 이러한 가정이 타당하지 않더라도, 회귀-수평 제어는 근사치 역학에서 유입된 작은 오류를 설명할 수 있다. 마찬가지로 가우스 프로세스로 파라메타된 동적 모델에는 정책 개선에 사용할 수 있는 분석적 그라데이션이 있다. 또한 이러한 간단한 파라메트리제션을 통해 도출된 제어기를 사용하여 보다 복잡한 비선형 정책을 교육하기 위한 지침 샘플을 제공할 수 있다.
+=== 샘플링 기반 계획 ===
+비선형 동적 모델의 완전히 일반적인 경우, 우리는 국소 최적성의 보증을 상실하고 샘플링 작용 시퀀스에 의존해야 한다. 이 접근법의 가장 간단한 버전인 무작위 사격은 고정된 분포에서 후보 행동을 샘플링하고, 모델 아래에서 그것들을 평가하고, 가장 유망하다고 여겨지는 행동을 선택하는 것을 포함한다. 보다 정교한 변형 모델들은 교차 엔트로피 방법(CEM, PlaNet, PETS 및 시각적 선견지명에 사용)이나 경로 적분 최적 제어(최근 모델 기반의 손재주 조작 작업에서 사용)에서처럼 샘플링 분포를 반복적으로 조정한다. 그러나 이산 작용 설정에서는 반복적으로 하나의 경유지 궤적을 정밀하게 하기보다는 트리 구조를 검색하는 것이 더 일반적이다. 일반적인 트리 기반 검색 알고리즘에는 최근 게임 플레이에서 인상적인 결과를 뒷받침하는 MCTS와 반복적인 너비 검색이 있다. 연속 및 이산 영역 모두에서 샘플링 기반 계획은 구조화된 물리 기반 객체 중심 이전 버전과 결합될 수 있다.
+=== 모델 기반 데이터 생성 ===
+많은 [[머신러닝]] 성공 사례에서 중요한 디테일이 트레이닝 세트의 크기를 인위적으로 늘리는 수단이다. 정책 최적화를 위한 수동 데이터 확대 절차를 정의하기는 어렵지만, 우리는 예측 모델을 합성 데이터를 생성하는 학습된 방법으로 유사하게 볼 수 있다. 그러한 조합의 원래 제안은 모델 학습, 모델 하에서의 데이터 생성, 모델 데이터를 이용한 정책 학습을 번갈아 하는 서튼(Sutton)의 다이나(Dyna) 알고리즘에서 나온다. 이 전략은 iLQG, 모델 앙상블 및 메타 학습과 결합되었으며, 이미지 관찰로 확장될 뿐만 아니라 이론적 분석에 적합하다. 모델 기반 데이터 생성의 목표는 모델을 사용하여 시간 차이 학습에 대한 목표값 추정치를 개선하는 것이다.
+;다이나 알고리즘
+알고리즘은 Q와 모델을 초기화하는 것으로 시작하여 메인 루프로 들어간다. 현재 상태에서 시작하고, 정책에 따라 조치를 선택하고, 실제 환경에서 조치를 실행하고, 보상 <math>R</math>과 새로운 상태 <math>S</math>를 관찰한다. 그리고 <math>R</math>과 <math>S'</math>를 사용할 수 있게 되면 <math>Q(S,A)</math>와 모델을 업데이트한다. <math>S'</math>는 현재 상태가 된다는 점에 유의해야 한다. 알고리즘이 계획 단계에 접어들면 n번 반복하는 두 번째 루프를 입력하는데, 이 루프 안에서 알고리즘은 무작위로 상태와 관련 동작을 선택한다. 그리고 모델에 적용하여 모델로부터 보상과 새로운 상태를 얻은 다음 외부 루프에서와 같이 <math>Q(S,A)</math>를 업데이트한다.<ref name="투워즈데이터"></ref>
+  <math> \mathrm{Initialize}\ Q(s,a)\ \mathrm{and}\ Model(s,a)\  \mathrm{for\ all}\ s \in S\  \mathrm{and}\ a \in A(s)</math>
+   <math>\mathrm{Do\ forever:} </math>
+    <math>\mathrm{(a)}\ S \leftarrow  \mathrm{current\ (nonterminal)\ state} </math>
+    <math>\mathrm{(b)}\ A \leftarrow \varepsilon \mathrm{-grredy}(S,Q)</math>
+    <math>\mathrm{(c)}\ \mathrm{Execute\ action}\ A; \mathrm{observe\ resultant\ reward,}\ R,\ \mathrm{and\ state,}\ S'</math>
+    <math>\mathrm{(d)}\ Q(S,A)\ \leftarrow Q(S,A)\ + a \left[ R + \gamma max_a\ Q(S',a) - Q(S,A) \right] </math>
+    <math>\mathrm{(e)}\ Model(S,A)\ \leftarrow R,S'\ \mathrm{assuming\ deterministic\ environment}</math>
+    <math>\mathrm{(f)}\ \mathrm{Repeat} n \mathrm{times:}</math>
+          <math>S \leftarrow \mathrm{random\ previously\ observed\ state}</math>
+=== 가치 동등성 예측 ===
+모델 기반과 모델 프리 범주화에 깔끔하게 들어맞지 않는 최종 기법은 모델의 예측이 실제 상태를 닮도록 감독하지 않고 모델 기반 강화학습과 유사한 연산을 통합하는 것이다. 대신, 모델에 따른 계획은 예측된 누적 보상에서만 실제 환경의 궤적을 일치시키도록 제한된다. 이러한 가치평등한 모델은 기존의 모델 기반 계획이 어렵다는 것이 입증된 고차원 관찰 공간에 효과적이라는 것을 보여 주었다.<ref>Michael Janner, 〈[https://bair.berkeley.edu/blog/2019/12/12/mbpo/ Model-Based Reinforcement Learning: Theory and Practice]〉,  《BAIR》, 2019-12-12 </ref>
 {{각주}}
 == 참고자료 ==
-*
+* Ziad SALLOUM, 〈[https://towardsdatascience.com/model-based-reinforcement-learning-cb9e41ff1f0d Model Based Reinforcement Learning A top view of how Model Based Reinforcement Learning works.]〉,  《Towards Data Science》, 2019-05-21
+* Michael Janner, 〈[https://bair.berkeley.edu/blog/2019/12/12/mbpo/ Model-Based Reinforcement Learning: Theory and Practice]〉,  《BAIR》, 2019-12-12
 == 같이 보기 ==
-*
+* [[강화학습]]
+* [[모델 프리 강화학습]]
 {{인공지능 기술|검토 필요}}

위키원

이름공간

변수

보기

더 보기

검색