DQN 편집하기
최신판 | 당신의 편집 | ||
47번째 줄: | 47번째 줄: | ||
<math>(max(4i+3, 4i+4), max(4i+7, 4i+8), max(4i+11, 4i+12), max(4i+15, 4i+16))</math> | <math>(max(4i+3, 4i+4), max(4i+7, 4i+8), max(4i+11, 4i+12), max(4i+15, 4i+16))</math> | ||
− | == | + | ==게임== |
− | + | DQN 알고리즘은 STG 게임, 권투 시합, 3D 자동차 레이스를 포함한 여러 게임에서 잘 동작했다. 이 알고리즘은 49개 게임 가운데 29개의 게임에서 사람이 획득한 점수의 75%가 넘는 기록을 세우기도 했다. 그러나 이 알고리즘은 수차례 게임 세션을 진행해야지만 전략을 학습할 수 있었다. 벽돌 깨기 게임 600회를 플레이하고 나서 플레이어가 파괴해야 하는 벽돌을 뚫는 승리 전략을 학습했다. 최소한의 입력값으로 비디오 게임을 학습한 사례가 이번이 처음은 아니며, DQN은 오랜 시간 플레이 전략을 세워야 하는 몬테주마의 복수(Montezuma's Revenge)와 같은 게임에서는 상당히 형편없었다. 그러나 연구자들은 단일 아키텍처가 여러 가지 게임 요소를 만났을 때 학습하고 적응한 의미 있는 사례라고 언급했다. 그들은 일반적인 목적의 인공지능 프로그램을 효과적으로 설계하기 위해 한 단계 더 나아간 것으로 내다봤다.<ref> Tim Hornyak , 〈[http://www.itworld.co.kr/news/92069 구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발]〉, 《아이티월드》, 2015-02-27</ref> | |
− | |||
− | |||
==DQN 이후의 알고리즘== | ==DQN 이후의 알고리즘== | ||
66번째 줄: | 64번째 줄: | ||
* 숨니야, 〈[https://sumniya.tistory.com/18 DQN(Deep Q-Networks)]〉, 《숨니의무작정따라하기》, 2018-02-04 | * 숨니야, 〈[https://sumniya.tistory.com/18 DQN(Deep Q-Networks)]〉, 《숨니의무작정따라하기》, 2018-02-04 | ||
* 기리이이이인, 〈[https://wwiiiii.tistory.com/entry/Deep-Q-Network Deep Q Network]〉, 《기리이이이인》, 2018-03-10 | * 기리이이이인, 〈[https://wwiiiii.tistory.com/entry/Deep-Q-Network Deep Q Network]〉, 《기리이이이인》, 2018-03-10 | ||
− | |||
* Jeina, 〈[https://jeinalog.tistory.com/20 강화학습 개념부터 Deep Q Networks까지, 10분만에 훑어보기]〉, 《티스토리》, 2019-10-28 | * Jeina, 〈[https://jeinalog.tistory.com/20 강화학습 개념부터 Deep Q Networks까지, 10분만에 훑어보기]〉, 《티스토리》, 2019-10-28 | ||