DQN 편집하기

이동: 둘러보기, 검색

경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 아이디(ID)으로 기록되고, 다른 장점도 있습니다.

편집을 되돌릴 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 저장해주세요.
최신판 당신의 편집
47번째 줄: 47번째 줄:
 
  <math>(max(4i+3, 4i+4), max(4i+7, 4i+8), max(4i+11, 4i+12), max(4i+15, 4i+16))</math>
 
  <math>(max(4i+3, 4i+4), max(4i+7, 4i+8), max(4i+11, 4i+12), max(4i+15, 4i+16))</math>
  
==활용==
+
==게임==
* '''게임''' : DQN 알고리즘은 STG 게임, 권투 시합, 3D 자동차 레이스를 포함한 여러 게임에서 잘 동작했다. 이 알고리즘은 49개 게임 가운데 29개의 게임에서 사람이 획득한 점수의 75%가 넘는 기록을 세우기도 했다. 그러나 이 알고리즘은 수차례 게임 세션을 진행해야지만 전략을 학습할 수 있었다. 벽돌 깨기 게임 600회를 플레이하고 나서 플레이어가 파괴해야 하는 벽돌을 뚫는 승리 전략을 학습했다. 최소한의 입력값으로 비디오 게임을 학습한 사례가 이번이 처음은 아니며, DQN은 오랜 시간 플레이 전략을 세워야 하는 몬테주마의 복수(Montezuma's Revenge)와 같은 게임에서는 상당히 형편없었다. 그러나 연구자들은 단일 아키텍처가 여러 가지 게임 요소를 만났을 때 학습하고 적응한 의미 있는 사례라고 언급했다. 그들은 일반적인 목적의 인공지능 프로그램을 효과적으로 설계하기 위해 한 단계 더 나아간 것으로 내다봤다.<ref> Tim Hornyak , 〈[http://www.itworld.co.kr/news/92069 구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발]〉, 《아이티월드》, 2015-02-27</ref>
+
DQN 알고리즘은 STG 게임, 권투 시합, 3D 자동차 레이스를 포함한 여러 게임에서 잘 동작했다. 이 알고리즘은 49개 게임 가운데 29개의 게임에서 사람이 획득한 점수의 75%가 넘는 기록을 세우기도 했다. 그러나 이 알고리즘은 수차례 게임 세션을 진행해야지만 전략을 학습할 수 있었다. 벽돌 깨기 게임 600회를 플레이하고 나서 플레이어가 파괴해야 하는 벽돌을 뚫는 승리 전략을 학습했다. 최소한의 입력값으로 비디오 게임을 학습한 사례가 이번이 처음은 아니며, DQN은 오랜 시간 플레이 전략을 세워야 하는 몬테주마의 복수(Montezuma's Revenge)와 같은 게임에서는 상당히 형편없었다. 그러나 연구자들은 단일 아키텍처가 여러 가지 게임 요소를 만났을 때 학습하고 적응한 의미 있는 사례라고 언급했다. 그들은 일반적인 목적의 인공지능 프로그램을 효과적으로 설계하기 위해 한 단계 더 나아간 것으로 내다봤다.<ref> Tim Hornyak , 〈[http://www.itworld.co.kr/news/92069 구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발]〉, 《아이티월드》, 2015-02-27</ref>
 
 
* '''대화 관리 모듈''' : 마이크로소프트 리서치(Microsoft Research)와 국립 타이완 대학 공동 연구진은 대화 이해, 대화 관리, 대화 생성 모듈을 각각 종단형 방법으로 학습시키는 방법을 제안하였다. 그리고 시스템 발화 의도를 선택하는 대화 관리 모듈의 경우 DQN으로 표현하고 강화학습을 적용하는 방법을 제시하였다.<ref> 권오옥, 홍택규, 활금하, 노윤형, 최승권, 김화연, 김영길, 이윤근, 〈[https://ettrends.etri.re.kr/ettrends/178/0905178006/ 심층 신경망 기반 대화처리 기술 동향]〉, 《ETRI》, 2019-08-01</ref>
 
  
 
==DQN 이후의 알고리즘==
 
==DQN 이후의 알고리즘==
66번째 줄: 64번째 줄:
 
* 숨니야, 〈[https://sumniya.tistory.com/18 DQN(Deep Q-Networks)]〉, 《숨니의무작정따라하기》, 2018-02-04
 
* 숨니야, 〈[https://sumniya.tistory.com/18 DQN(Deep Q-Networks)]〉, 《숨니의무작정따라하기》, 2018-02-04
 
* 기리이이이인, 〈[https://wwiiiii.tistory.com/entry/Deep-Q-Network Deep Q Network]〉, 《기리이이이인》, 2018-03-10
 
* 기리이이이인, 〈[https://wwiiiii.tistory.com/entry/Deep-Q-Network Deep Q Network]〉, 《기리이이이인》, 2018-03-10
* 권오옥, 홍택규, 활금하, 노윤형, 최승권, 김화연, 김영길, 이윤근, 〈[https://ettrends.etri.re.kr/ettrends/178/0905178006/ 심층 신경망 기반 대화처리 기술 동향]〉, 《ETRI》, 2019-08-01
 
 
* Jeina, 〈[https://jeinalog.tistory.com/20 강화학습 개념부터 Deep Q Networks까지, 10분만에 훑어보기]〉, 《티스토리》, 2019-10-28
 
* Jeina, 〈[https://jeinalog.tistory.com/20 강화학습 개념부터 Deep Q Networks까지, 10분만에 훑어보기]〉, 《티스토리》, 2019-10-28
  

위키원에서의 모든 기여는 다른 기여자가 편집, 수정, 삭제할 수 있다는 점을 유의해 주세요. 만약 여기에 동의하지 않는다면, 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다 (자세한 사항은 위키원:저작권 문서를 보세요). 저작권이 있는 내용을 허가 없이 저장하지 마세요!

취소 | 편집 도움말 (새 창에서 열림)