DDPG(Deep Deterministic Policy Gradient)는 인공신경망과 강화학습을 사용하여 학습하는 알고리즘이다. DDPG 알고리즘은 모델 프리 오프-폴리시로 학습하기 때문에 잘못된 행동이 누적되어 학습에 영향을 미치는 경우를 방지하는 장점이 있다.
개요
DDPG는 DPG(Deterministic Policy Gradient)에 DQN을 결합시킨 모델 프리 오프 폴리시 액터 크리틱 알고리즘이다. DQN의 경험 반복(Experience Replay)과 저속 학습 대상 네트워크를 활용하며, 연속 액션 공간에서 동작이 가능한 DPG를 기반으로 한다.[1] 원래의 DQN은 별개의 공간에서 동작하지만, DDPG는 액터-크리틱 프레임워크(actor-critic framework)를 통해서 결정론적 정책을 학습하면서 효과를 연속 공간까지 확장시켰다. 좀 더 나은 탐색을 하기 위해서 탐색 정책은 는 을 추가함으로써 만들 수 있다.[2]
DDPG는 원래 DQN에는 없는 두 가지 기법을 더 사용한다. 첫째, 두 개의 대상 네트워크를 사용한다. 왜냐하면 훈련에 안정성을 더해 주기 때문이다. 간단히 말해서, 우리는 추정 대상으로부터 배우고 있고 대상 네트워크는 천천히 업데이트되므로 추정 대상의 안정성이 유지된다. 이는 개념적으로 이것을 어떻게 잘 할 것인가, 더 좋은 것을 찾을 때까지 잠시 시험해 보겠다고 말하는 것과 같은 것으로, 모든 동작 끝에 이 게임 전체를 어떻게 하는지 다시 배우겠다고 말하는 것과는 배치된다. 둘째, 경험 반복을 사용한다. 튜플 리스트(state, action, reward, next_state)를 저장하고, 최근의 경험으로부터만 배우는 대신에 지금까지 축적된 모든 경험을 샘플링하여 배운다.[1]
각주
참고자료
같이 보기
이 DDPG 문서는 인공지능 기술에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.
|
인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술 □■⊕, 인공지능 기업, 인공지능 인물
|
|
인공지능 기술
|
AI 워싱 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링
|
|
문자인식과 음성인식
|
ICR • OCR • OMR • TTS • 답변 • 대화 • 문자 • 문자인식 • 스토리 • 음성 • 음성인식(STT) • 인공어 • 자연어 • 질문 • 화자인식
|
|
인공지능 데이터
|
데이터라벨러 • 데이터라벨링 • 데이터셋 • 크라우드워커 • 토큰 • 토큰화
|
|
인공지능 학습
|
ADP • CoLLM • DALL-E • DDPG • DQN • LMM • SARSA • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정 • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 심층믿음망 • 어니 • 에이전트 • 인공지능 학습 • 지도학습 • 학습 • 확률적 경사하강법
|
|
인공지능 알고리즘
|
AGI • ANI • ASI • RAG • XAI • 관계형 네트워크(RN) • 다층퍼셉트론 • 데이터마이닝 • 방사신경망 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)
|
|
계산복잡도
|
NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전
|
|
인공지능 프로그램
|
BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌
|
|
인공지능 특징
|
결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론
|
|
인공지능 법적 지위
|
권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법
|
|
위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반
|
|