팃포탯

팃포탯(Tit for Tat)은 '눈에는 눈, 이에는 이' 전략이라고 할 수 있다. 이는 상대방이 한 그대로 갚아준다는 뜻으로, 상대방이 신사적으로 협력하면 팃포탯은 협력하지만 반대로 이기적이어서 배반하면 다음번에 이기적 배반으로 앙갚음하는 것을 말한다. 즉, 첫수는 협력하고, 그다음부터는 상대방이 바로 조금 전에 한 그대로 따라 하는 전략이다.

개요

팃포탯은 게임이론에서 반복되는 죄수의 딜레마의 강력한 전략이기도 하다. 이 전략은 1980년대에 열린 로버트 액설로드(Robert Axelrod)의 경기 Datol Rapoport에 의해 최초로 제안되었다. 이 전략을 사용하는 경기자는 처음에는 협력하고, 그 이후에는 상대방의 바로 전 전략에 반응한다. 만약 상대가 이전에 협력했다면 경기자는 협력하고, 만약 배반했다면, 경기자는 배반할 것이다.

로퍼드 액설로드

팃포탯을 제안한 사람이며 미시간 대학교 정치학과 교수로 게임이론, 인공지능, 진화생물학, 수학적 모델링, 복잡성 이론 등에서 세계적 권위자로 알려져 있다. 그의 대표 저서 [협력의 진화 The Evolution of Cooperation]는 죄수의 딜레마에 대한 획기적인 컴퓨터 모의실험으로 일시에 유명해졌으며 1984년에 초판이 나온 이래 2006년 개정판이 출간되기까지 과학, 사회, 정치, 경제, 문학 등 다양한 분야에 막대한 영향을 끼쳤다. 액설로드 교수는 뉴콤 클리블랜드 상과 맥아더 펠로 상을 받았으며, 저서로는 [이해의 갈등 Conflict of Interest] (1970), 결정의 구조 Structure of Decision (1979), 억제에 관한 여러 가지 전망들 Perpectives on Deterrence (1989, 공저), 협력의 복잡성 The Complexity of Cooperation (1997), 복잡성 제어 Harnessing Complexity (2001, 공저) 등이 있다.^[1]

기본 전제

팃포탯의 유용성이 성립하기 위해서는 우선 다음의 기본적인 전제가 필요하다.

게임은 1회에 그치지 않고 여러 차례 반복되는 반복 게임이어야 한다.
반복 게임에 참여하는 모든 유기체는 경제학적으로 합리적인 의사결정을 하며, 상대방 역시 그럴 것을 인지한다.
반복 게임에 참여하는 모든 유기체는 자신이 과거에 상호작용했던 상대방이 누구인지 정확히 변별할 수 있다.
반복 게임에 참여하는 모든 유기체는 자신이 과거에 상호작용했던 상대방과의 게임이 어떻게 진행되었는지 기억할 수 있다.
반복 게임에서 결정되는 협력 혹은 배반의 선택지는 상대방에게 명료하게 확인되며, 상대방의 선택 역시 동일하다.

규칙

일단 흔쾌히 협력한다. 우호적인 태도로 사람을 대한다. 낯선 사람을 만났을 때, 그가 나쁜 사람이라고 생각할 이유가 없다면 최대한 배려하여 호의를 베푸는 것이 좋다. 팃포탯 규칙에 따르면 먼저 협력하는 것은 상대방뿐만이 아니라 나 자신에게도 이롭다. 물론 첫 만남에서 상대방을 얼마나 믿을 수 있는지에는 한계가 있다. 하지만 예를 들어 사업 관계를 새로 맺을 때도 위험을 최소화하는 것이 당연하다 해도, 일단 계약을 했으면 상대방이 계약 내용을 이행할 것이라고 온전히 믿어야 한다. 단, 팃포탯은 나와 상대방의 관계가 앞으로도 유지될 가능성이 있을 때만 효과가 있으며, 둘의 관계를 오래 유지할 방법을 찾는다면 모두에게 유익하다.
은혜는 은혜로 갚고 원수는 원수로 갚는다. : 팃포탯을 따르는 것은 낭떠러지 위로 난 외길을 운전하는 것과 같다. 왼쪽 낭떠러지가 서로를 파괴하는 상호 보복의 악 숙환에 빠지는 것이라면, 오른쪽 낭떠러지는 상대방에게 이용당하는 것이다. 죄수의 딜레마 대회에는 팃포투탯(tit for two tat)이라는 프로그램이 참가했는데, 이 프로그램은 비협력적인 행동을 한 번은 용서하고 두 번째부터만 응징했다. 그러자 제1회 대회에서는 성적이 매우 좋았지만, 제2회 대회에서는 많은 프로그램이 팃포투탯의 첫번째 용서를 악용했다. 무엇이 공정한가에 대한 합의가 이루어졌더라도 공평하지 못하면 정의가 실현되기가 어렵다. 손해를 보았다는 생각이 들어 앙갚음하면 상대방은 더 심한 보복으로 대응할 것이기 때문이다.
단순하게 행동한다. : 팃포탯은 아주 단순한 규칙이다. 단순하게 행동하면 상대방이 상황을 쉽게 파악할 수 있다는 이점이 있다. 게임이론에는 '제로섬(zero-sum) 게임'이라는 용어가 있는데, 이것은 누군가 이익을 얻으면 다른 누군가는 그만큼 손해를 입어야 한다는 뜻이다. 삶이 제로섬 게임이라면 단순한 규칙을 따르다가는 손해를 볼 것이다. 자신이 잘 되려면 남을 못 되게 해야 하기 때문이다. 하지만 현실 상황에서는 협력하면 양쪽 다 이익을 얻을 수 있다. 처음부터 서로를 이해하면 더 좋은 성과를 거둘 수 있으며, 그럼으로써 협력을 유도하는 방법을 배울 수 있다. 또한 자신이 이용당하지 않을 것을 상대방이 안다면 모두에게 이롭다. 따라서 자신의 방침을 드러내는 것은 나 자신에게 이롭다. 상대방이 내가 무엇을 하는지 알고 호의적으로 협력하기가 수월하기 때문이다.
흔쾌히 용서한다. : 팃포탯은 언제든 기꺼이 용서하고 과거를 잊는다는 것을 의미한다. 상대방이 과거에 아무리 많은 잘못을 저질렀더라도 단 한 번만 협력하면 팃포탯은 협력한다. 이렇게 하면 상처를 주고받는 보복의 악순환에서 쉽게 벗어날 수 있으며 문제가 확대되는 것을 피할 수 있을 뿐 아니라 상대방이 나의 방침을 정확하게 파악하게 할 수 있다.
샘내지 않는다. : 팃포탯이 성공을 거둔 마지막 요인은 남들이 자기보다 잘나가는 것을 신경 쓰지 않는다는 것이다. 즉 팃포탯이 전반적으로 좋은 결과를 거두는 이유는 서로 협력하는 상황을 다른 어떤 전략보다 많이 만들어냈기 때문이다. 팃포탯에 시샘이 있었다면, 상대방이 은혜를 원수로 갚았을 때 자신도 한 번은 은혜를 원수로 갚아 피장파장인 상황을 만들려고 했을 것이다. 하지만 그러려면 자신이 이기적인 행동을 해야 하는데, 그랬다가는 상호 보복이 늘고 협력관계가 줄었을 것이다.

한계

단기간에 그치거나 일회성의 게임일 경우에는 적용될 수 없다. 이 경우에는 무조건 배신 전략과 같은 다른 전략을 골라야 하며, 장기적 반복 게임 상황을 상정하는 팃포탯은 아예 고려하는 것 자체가 불가능하다. 쉽게 말해 너도 한방 나도 한방인 상황에서 선제적 협력은 위험부담이 엄청난 수준을 넘어서 아예 자충수에 가까운 행위다. 게임이론에서 이런 경우를 흔히 '할인계수'라고 부르는 개념으로 설명하는데, 차후 오랫동안 상호작용할 것으로 기대될수록 할인계수는 증가하고, 팃포탯은 더욱 매력적인 선택지가 된다. 반대로, 차후 상호작용을 기대하지 않거나 상호작용의 가능성이 작을 경우 협력은 붕괴한다. 학자들은 많은 시행을 통해 할인계수가 충분히 커진 상태에서 팃포탯의 안정성이 크다는 것을 수학적으로 증명하였다.
난수표와 같은 완전히 무작위적인 의사결정을 내리는 전략에 대해서는 과도할 정도의 관용을 보인다. 어떻게 보면, 무 전략은 최선의 전략일지도 모른다. 물론 이 전략도 팃포탯보다 뛰어난 성공을 거두거나 안정성을 보이지는 않지만, 팃포탯이 이런 케이스에 대해서 과연 어떻게 대처하는 것이 좋을지는 해답이 존재하지 않는 것으로 보인다. 사실, 게임이론의 근간을 이루는 '모든 유기체는 합리적으로 의사결정을 하고, 상대방도 그러할 것이라고 전제한다'는 대전제가 어겨진 사례이기 때문에, 어찌 보면 당연한 귀결일 것이다.
일단 상호배반의 늪에 빠지고 나면 파국을 면하기 어렵다. : 물론 팃포탯은 한 번 보복하고 나면 곧바로 화해의 손길을 내밀지만, 만일 상대방도 팃포탯과 유사한 의사결정 규칙을 갖고 있다면 서로서로를 끊김 없는 배반으로 오해하게 될 수 있다. 실제로 액설로드의 게임 대회로부터 취합된 데이터를 검토하던 대부분의 연구자들은 이 문제에 직면할 수밖에 없었다. 팃포탯은 여러 회의 시행 하는 동안 내내 배반 선택을 하면서도, 그것으로부터 자신의 힘으로 빠져나오지 못한다.

그 외에도 팃포탯의 잠재적 개선을 찾으려는 노력은 줄곧 있었다. 대표적으로, '보복의 규모를 정할 수 있다면?'이 있다. 액설로드의 대회는 사실 보수행렬 자체가 이미 딱 정해져 있기에 보복의 규모를 정할 권한까지는 없었다.^[2]

죄수의 딜레마

죄수의 딜레마는 일회성 게임에서 일어나는 딜레마를 다루고 있는데, 저자인 로버트 액설로드는 연속된 죄수의 딜레마 게임에서 최선의 전략이 무엇인지 확인하고 싶었다. 저명한 심리학자, 경제학자, 수학자, 정치학자들을 초대하여 게임의 룰을 설명하고 참가를 요청했다. 게임참가자의 전략은 프로그래밍의 형태로 제출하며, 리그전의 방식으로 모든 참가자와 1대1로 겨룬다.

점수 획득규칙

내가 협력하고 상대방도 협력하면 3점을 얻는다. 상호협력에 대한 보상 R : Reward for mutual cooperation
내가 배반하고 상대방이 협력하면 5점을 얻는다. 배반의 유혹 T : Temptation to defeat
내가 협력하고 상대방이 배반하면 점수를 얻지 못한다. 머저리의 빈손 S : Sucker's payoff
내가 배반하고 상대방도 배반하면 1점을 얻는다. 상호배반에 대한 처벌 P : Punishment for mutual defection

1차 대회에는 14명이 참가했고, 각 참가자마다 200회의 게임을 반복했다. 각 참가자는 상대방의 협력과 배반에 대해서 어떻게 대응하면 최선의 결과를 얻어낼 수 있을지 연구를 해서 최선의 전략을 제출했다. 1차 대회의 승자는 팃포탯이었다. 1차 대회가 끝나고 그 결과가 알려지자 많은 전문가가 흥미를 느꼈는지 2차 대회에는 4배가 넘는 63명이 참가했다. 모든 참가자에게 1차 대회의 모든 진행 상황과 결과를 통보했고, 2차 대회 참가자들은 1차 대회를 면밀히 검토해서 자신의 전략을 짜냈다. 그 결과, 우승자는 또다시 팃포탯이었다. 팃포탯은 너무나 간단한 전략이기 때문에 분석하기 쉬웠고, 약점을 찾기도 쉬웠지만, 또다시 승리했다.^[3]

다른 전략

팃포투탯

전략 : 팃포투탯(Tit for Two Tat)은 팃포탯의 변형으로 첫 게임에서는 무조건 협력한다. 이후 게임부터는 상대방이 협력 하면 협력을 하고 상대방이 2회 배신하면 배신을 한다.
특징 : 팃포탯보다 조금 더 너그럽다. 상대방의 협력에는 보상하고, 상대방의 배반은 한 번 정도는 눈감아 준다. 팃포탯보다 너그러운 모습을 띠고 있어서 바람직해 보이지만 이용당하기 좋다. 팃포탯 종류의 신사적인 전략과 만나면 계속해서 협력을 주고받기 때문에 좋은 점수를 획득할 수 있다. 하지만 사기성이 있는 전략을 만나면 이용만 당하고 손해 보기 좋다.

프리드먼

전략 : 프리드먼(Friedman)은 팃포탯의 변형으로 첫 게임에서는 무조건 협력한다. 이후 게임부터는 상대방이 협력하면 협력한다. 상대방이 배신하면 이후 상대방의 협력/배신 여부에 상관없이 게임이 끝날 때까지 상대방을 배신한다.
특징 : 상대방이 협력했을 때는 계속해서 협력을 하지만 배신하는 상대에 대해서는 절대로 용서하지 않는다. 관용적인 성격이 떨어지는 팃포탯이다. 상대방의 배반에 대해서 단호하게 대처하는 것은 속이 시원할 수는 있지만, 이후로는 계속해서 적대적인 관계로만 남을 수밖에 없기 때문에 결국 총점에서 손해를 보게 된다.

요스

전략 : 요스(Joss)는 팃포탯의 변형으로 첫 게임에서는 무조건 협력한다. 이후 게임부터는 상대방이 협력하면 협력을 하고 상대방이 배반하면 배반을 한다. 단, 10%의 확률로 상대방이 협력한 다음 게임에서 배반을 한다.
특징 : 팃포탯과 거의 비슷하지만 가끔 확률적으로 배신을 한다. 열 번 중에 한 번 배신하는 이유는 명확하다. 한 번쯤 3점이 아닌 5점을 얻기 위함이다. 이때 팃포투탯처럼 상대방이 그것을 관용해 준다면 큰 문제가 없다. 다시 말해서 팃포투탯은 요스에게 걸리면 좋은 먹잇감이다.

올씨

전략 : 올씨(all C)는 상대방의 전략에 상관없이 무조건 협력한다.
특징 : 항상 상대방에 협력하는 사람이다. 상대방이 협력해 오면 언제나 좋은 관계를 유지한다. 상대방이 나를 배신하고 이용하려고 해도 그냥 넘어가는 사람이다. 모든 사기성 전략의 피해자가 될 수밖에 없다.

올디

전략 : 올디(all D)는 상대방의 전략과는 상관없이 무조건 배신만 한다.
특징 : 절대로 상대방보다 손해를 보지 않는다. 다른 사람과 절대로 협력하지 않는다. 올디의 반대 전략은 올씨인 것 같지만 여러 가지를 고려해 볼 때 올씨보다는 팃포탯이 올디의 반대 전략이다. 팃포탯은 상대방보다 절대로 높은 점수를 받지 않지만, 올디는 상대방보다 절대로 낮은 점수를 받지 않는다. 상대방이 협력해오면 배신하고, 상대방이 배신을 선택하면 둘 다 나쁜 점수를 얻기 때문이다. 여러 전략이 뒤섞인 곳에서는 좋은 점수를 얻지 못하지만 의외로 올디만 모여 있는 사회는 굉장히 안정적이다. 안정적이라는 말이 바람직하다는 것이 아니라 올디로 안정이 되어 있는 사회에는 다른 전략이 들어와도 올디보다 절대로 점수를 높게 얻을 수 없기 때문이다.

트랜퀄라이저

전략 : 트랜퀄라이저(Tranquilizer)는 일단 상대방과 협력을 한다. 계속해서 협력하다 상호협력의 패턴이 고정되면 갑자기 배반한다. 상대방이 계속해서 협력을 하면 배신의 횟수가 증가한다. 하지만 배신이 전체 게임의 1/4을 넘기지 않도록 한다. 상대방의 배신에는 배신으로 응징한다.
특징 : 전형적인 머리가 좋은 사기꾼 전략이다. 상대방과 신뢰를 쌓아가다가 어느 정도 신뢰가 형성되었다고 판단되면 느닷없이 배신한다. 상대방이 배신에 대해서 보복을 하면 바로 다시 신뢰가 쌓일 때까지 자숙 모드로 들어간다. 하지만 상대방이 배신에 대해서 바로 보복을 하지 않으면 계속해서 배반의 횟수를 늘려나가면서 상대방을 이용한다. 하지만 배반을 1/4 이하로 유지하여 완전히 신뢰를 잃는 것은 방지한다.

테스터

전략 : 테스터는 첫 게임에서 무조건 배반한다. 다음 게임에서 상대방이 배반할 경우 팃포탯 전략으로 수정한다. 그게 아니라 상대방이 협력할 경우에는 2, 3번째 게임에서는 협력을 하고 이후부터는 한게임씩 협력과 배반을 반복한다.
특징 : 간 보는 사기꾼 유형으로 팃포탯 계열의 바로 보복을 하는 상대에게는 협력한다. 일단 배반을 해놓고 상대방이 어떻게 나오는지 간을 보는 것이다. 바로 보복으로 응징을 당하면 평범하게 팃포탯 전략을 가져간다. 보복할 줄 아는 상대에게는 고개를 숙인다. 하지만 조금이라도 너그러운 모습을 보이는 상대는 크게 털어먹는다. 간을 봤다가 2, 3회에서는 협력하는 척하고 이후로는 협력했다가 배신하는 것을 반복한다.

다우닝

전략 : 다우닝은 첫 게임에서 무조건 배반을 한다. 이후 게임부터는 이전 게임의 결과를 총합하여 협력 가능성이 높으면 협력하고, 배신 가능성이 높으면 배신한다.
특징 : 직전의 관계보다는 쌓아놓은 관계를 중요하게 여긴다. 지금까지 쌓아 놓은 관계를 토대로 다음 게임의 행동을 결정한다. 상대방이 지금까지 협력이 많았으면 협력을 하고 배신이 많았으면 배신을 한다. 하지만 트랜퀄라이저와 테스터에게 이용당하기 딱 좋은 전략이다. 트랜퀄라이저와 테스터는 협력과 배신의 비유로 보면 협력이 더 많기 때문이다. 게다가 팃포탯과도 상성이 좋지 않다. 첫판을 배신으로 시작해서 팃포탯과 배신의 굴레에 빠져 버리기 때문이다.

각주

↑ 〈<협력의 진화> 로버트 액설로드〉, 《리디북스》, 2015-01-21
↑ 〈팃포탯〉, 《나무위키》
↑ 읽고 생각하고 쓰는 寒潭, 〈<협력의 진화> 로버트 액설로드 Robert Axelrod / 이기적 개인의 팃포탯 전략〉, 《티스토리》, 2019-05-28

참고자료

봉리브르, 〈피터 싱어가 들려주는 최고의 전략 팃포탯 규칙〉, 《티스토리》, 2018-12-24
〈팃포탯〉, 《위키백과》
〈팃포탯〉, 《나무위키》
한담, 〈<협력의 진화> 속 팃포탯 Tit for Tat과 다른 전략들로 보는 인간유형〉, 《네이버 포스트》, 2018-01-15
읽고 생각하고 쓰는 寒潭, 〈<협력의 진화> 로버트 액설로드 Robert Axelrod / 이기적 개인의 팃포탯 전략〉, 《티스토리》, 2019-05-28
〈<협력의 진화> 로버트 액설로드〉, 《리디북스》, 2015-01-21

같이보기

이 팃포탯 문서는 알고리즘에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.

블록체인 : 블록체인 기술, 합의 알고리즘, 암호 알고리즘, 알고리즘^□^■^⊕, 블록체인 플랫폼, 블록체인 솔루션, 블록체인 서비스

채굴 알고리즘	SHA-256 • X11 • X11고스트 • X13 • X14 • X15 • X16R • X17 • 그로스톨 • 네오스크립트 • 니스트5 • 리라2알이 • 미리아드-그로스톨 • 블레이크 • 블레이크2 • 블레이크B • 블레이크2B • 블레이크256R8 • 블레이크256R14 • 스컹크해시 • 스케인 • 스크립트 알고리즘 • 스크립트엔 • 엘비알와이(LBRY) • 이더해시 • 이퀴해시 • 제반 • 쿼크 알고리즘 • 큐빗 알고리즘 • 크립토나이트 • 크립토나이트 라이트 • 타임트래블10 • 텐서리티 • 파스칼 • 프로그작업증명(ProgPoW)

매칭 알고리즘	BM25 • FAISS • 경매 • 더치 경매 • 매칭 알고리즘 • 매칭튜터 • 벡터검색 • 비크리 경매 • 센디 • 집닥 • 튜다 • 틴더

추천 알고리즘	TF-IDF • 역문서빈도(IDF) • 용어빈도(TF) • 추천 알고리즘 • 콘텐츠 기반 필터링 • 협업 필터링

고급 검색 알고리즘	AND-OR 검색 트리 • 국소 검색 알고리즘 • 국소 다발 검색 • 모의정련 • 언덕 오르기 검색 • 유전 알고리즘

대항 검색	검색의 차단 • 알파베타 가지치기 • 전방 가지치기 • 최소최대 알고리즘

제약 만족 문제	국소검색 • 역추적검색 • 제약전파

게임이론	게임이론 • 공유지의 비극 • 내시균형 • 메커니즘 디자인 • 비협조게임 • 사회선택이론 • 역게임이론 • 제로섬게임 • 조정게임 • 죄수의 딜레마 • 치킨게임 • 팃포탯 • 협조게임

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 〈<협력의 진화> 로버트 액설로드〉, 《리디북스》, 2015-01-21

[2] 〈팃포탯〉, 《나무위키》

[3] 읽고 생각하고 쓰는 寒潭, 〈<협력의 진화> 로버트 액설로드 Robert Axelrod / 이기적 개인의 팃포탯 전략〉, 《티스토리》, 2019-05-28

[1]

[2]

[3]

위키원

이름공간

변수

보기

더 보기

검색

팃포탯

목차

개요