딥큐러닝

딥큐러닝(Deep Q-learning)은 모델을 특정하지 않는 강화학습 알고리즘이다. 소규모 데모 데이터 세트를 활용하여 비교적 적은 양의 데모 데이터에서도 학습 프로세스를 대폭 가속화하고, 우선 순위가 지정된 재생 메커니즘 덕분에 학습하는 동안 데모 데이터의 필요한 비율을 자동으로 평가할 수 있다.

개요

딥큐러닝은 일반적인 큐-러닝(Q-learning)과 다르게 매 스탭마다 $(s_{t},\ a_{t},\ r_{t},\ s_{t+1})$ 정보(experience)를 리플레이 메모리에 저장하고 학습시 균등 분포(uniform distribution)에 따라 샘플링하여 사용한다. 이 방식은 정보가 여러 번 사용될 수 있게 만들기 때문에 데이터의 효율성을 높여 준다. 또한, 연속적인 샘플 사이에는 높은 상관관계를 가지는데 샘플들을 랜덤으로 뽑아서 사용하기 때문에 분산을 줄일 수 있다.^[1] 딥마인드 시스템은 수용적 장의 효과를 모방하기 위해 타일 방식의 합성곱 필터 층을 가진 심층합성곱신경망를 사용했다. 신경망과 같은 비선형 함수 근사치를 사용하여 $Q$ 를 나타낼 때 보강학습이 불안정하거나 다양하다. 이러한 불안정성은 관찰 순서에 존재하는 상관관계, $Q$ 에 대한 소규모 업데이트로 인해 정책과 데이터 배포, Q와 목표값 간의 상관관계에서 비롯된다. 딥큐러닝의 알고리즘대로 하면 관측 순서의 상관관계가 제거되고 데이터 분포의 변화가 원활해진다. 반복 업데이트는 $Q$ 를 주기적으로만 업데이트되는 목표값으로 조정하여 목표값과의 상관관계를 더욱 감소시킨다.^[2] 또한 소규모 데이터를 활용하여 비교적 적은 양의 데모 데이터에서도 학습 프로세스를 대폭 가속화하는 알고리즘으로, 시간차 업데이트를 시연자의 큰 마진 분류와 결합하여 작동한다. 데모 데이터가 좋지 않은 경우에도 딥큐러닝이 DQN보다 빠르게 학습한다는 장점이 있다.^[3]

역사

큐-러닝은 간단하지만 꽤 강력한 알고리즘으로 에이전트의 커닝 시트를 만든다. 이는 에이전트가 정확히 어떤 조치를 수행해야 하는지 파악하는 데 도움이 된다. 하지만 시간이 흘러 연구원들은 큐-러닝의 수표지가 너무 길다는 문제에 맞닥뜨리게 된다. 상태(state) 당 10,000개의 상태와 1,000개의 상태별 행동(action)이 있는 환경을 상상해 보자. 이것은 천만 개의 세포로 이루어진 표를 만들게 되어 일을 걷잡을 수 없게 될 것이다. 이미 탐사된 상태에서 새로운 상태의 Q-값을 추론할 수 없다는 것은 분명하다. 이것은 두 가지 문제를 제시한다. 첫째, 상태 수가 증가함에 따라 해당 테이블을 저장하고 업데이트하는 데 필요한 메모리 양이 증가할 것이다. 둘째, 필요한 Q-테이블을 만들기 위해 각 상태를 탐색하는 데 필요한 시간은 비현실적일 것이다. 이 문제를 보완하기 위해 신경망과 같은 머신러닝 모델과 이 Q-값을 근사하게 비교한다는 아이디어가 나오게 되었다. 이는 딥마인드의 알고리즘 이면에 있는 아이디어로, 구글이 5억 달러에 인수하게 된 딥큐러닝이다.^[4]

각주

↑ choyi0521, 〈Deep Q-learning으로 뱀 게임 인공지능 만들기〉, 《삼성소프트웨어멤버십》, 2020-02-08
↑ Q-learning Wikipedia - https://en.wikipedia.org/wiki/Q-learning#Learning_Rate
↑ Bilal Piot 외 11인, 〈Learning from Demonstrations for Real World Reinforcement Learning〉, 《ResearchGate》
↑ ANKIT CHOUDHARY, 〈A Hands-On Introduction to Deep Q-Learning using OpenAI Gym in Python〉, 《Analytics Vidhya》, 2018-04-18

참고자료

Q-learning Wikipedia - https://en.wikipedia.org/wiki/Q-learning#Learning_Rate
Bilal Piot 외 11인, 〈Learning from Demonstrations for Real World Reinforcement Learning〉, 《ResearchGate》
ANKIT CHOUDHARY, 〈A Hands-On Introduction to Deep Q-Learning using OpenAI Gym in Python〉, 《Analytics Vidhya》, 2018-04-18
choyi0521, 〈Deep Q-learning으로 뱀 게임 인공지능 만들기〉, 《삼성소프트웨어멤버십》, 2020-02-08

같이 보기

딥러닝

이 딥큐러닝 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • STT • TTS • 답변 • 대화 • 문자인식 • 스토리 • 음성인식 • 자연어 • 질문 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LMM • SARSA • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 모델 기반 강화학습 • 모델 프리 강화학습 • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 심층믿음망 • 어니 • 에이전트 • 인공지능 학습 • 지도학습 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 관계형 네트워크(RN) • 다층퍼셉트론 • 데이터마이닝 • 방사신경망 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] yi0521, 〈Deep Q-learning으로 뱀 게임 인공지능 만들기〉, 《삼성소프트웨어멤버십》, 2020-02-08

[2] Q-learning Wikipedia - https://en.wikipedia.org/wiki/Q-learning#Learning_Rate

[3] Bilal Piot 외 11인, 〈Learning from Demonstrations for Real World Reinforcement Learning〉, 《ResearchGate》

[.EC.95.84.EB.82.A0.EB.A6.AC.ED.8B.B1.EC.8A.A4-4] ANKIT CHOUDHARY, 〈A Hands-On Introduction to Deep Q-Learning using OpenAI Gym in Python〉, 《Analytics Vidhya》, 2018-04-18

[1]

[2]

[3]

[4]

위키원

이름공간

변수

보기

더 보기

검색

딥큐러닝

목차

개요

역사

각주

참고자료

같이 보기