"튜링 테스트"의 두 판 사이의 차이
2번째 줄: | 2번째 줄: | ||
== 개요 == | == 개요 == | ||
− | '''앨런 튜링'''은 〈계산기계와 지성(Computing machinery and intelligence)〉이라는 논문에서 기계가 인간처럼 생각할 수 있다고 주장했다. 1940년대 후반, 동료와 비평가들로부터 기계는 절대 인간 지능을 흉내 내지 못한다는 말을 듣게 된다. 튜링은 사람들의 의견에 의문을 가졌고 결국 논문을 통해 강한 인공지능을 판별하는 방법을 제시한다. 논문에서 튜링은 "기계도 생각할 수 있을까?(Can machines think?)"라는 질문을 던진다. 논문 첫 문장에 나오는 말이다. '기계'와 '생각'이라는 개념도 정의했다. 기계는 디지털 컴퓨터를 말했고 생각은 그가 만든 튜링테스트를 통과하면 증명된다고 설명했다. 튜링테스트 수행 방법은 다음과 같이 이뤄진다. 인간과 기계를 다른 공간에 배치하고 심문자(interrogator)는 그들과 텍스트로 대화를 나눈다. 심문자는 어떤 공간에 누가 있는지 알지 못한다. 만약 대화를 통해 기계와 인간을 구분하지 못하면 기계가 지능을 가졌다고 판단한다. 튜링테스트는 보통 이렇게 알려져 있다. 하지만 튜링이 실제 논문에서 제시한 실험은 더욱 디테일하다. 논문에는 튜링테스트 수행 방법에 대해 자세히 적혀 있다. 참고로 튜링테스트로 불리는 실험을 정작 튜링 본인은 '모방 게임(imitation game)'이라고 불렀다. 첫 번째 실험은 이번에도 최종 결론을 내릴 심문자가 있어야 한다. 한 공간에는 남자를 다른 공간에는 여자를 배치한다. 심문자는 둘의 존재를 알 수 없는 상황에서 필기한 질문을 둘에게 전달하고 답변을 받는다. 심문자는 둘 중 누가 남자고 누가 여자인지를 가려야 한다. 단, 남자는 심문자를 속이기 위해 여자인 척을 하게 된다. 두번째 실험에 와서야 남자 대신 기계가 배치된다. 이번에는 기계가 여자인 것처럼 대화를 해야 한다. 인간을 모방하는 것에서 한발 더 나아가 성별을 모방할 것을 요구한 실험이다. 튜링테스트는 인공지능을 판별하는 의미 있는 실험으로 받아들여지는 분위기였다.<ref> 테크플러스, 〈[https://blog.naver.com/tech-plus/221611103759 오래된 AI 판별법 '튜링테스트'...여전히 유효한가?]〉, 《네이버 블로그》, 2019-08-09 </ref> 하지만 튜링은 논문의 나머지 부분에서 "기계들이 생각할 수 있다"는 명제에 대해서 반대 이론들을 제시했다. 튜링이 튜링 테스트를 제시한 이후에, 튜링 테스트는 이후 [[인공지능]]의 역사에 막대한 영향을 끼쳤고, 많은 비판 또한 받아왔다. 그렇게 튜링 테스트는 인공지능 이론에서 중요한 개념이 되었다.<ref name="위키"> 튜링 테스트 위키백과 - https://ko.wikipedia.org/wiki/%ED%8A%9C%EB%A7%81_%ED%85%8C%EC%8A%A4%ED%8A%B8</ref> | + | '''앨런 튜링'''은 〈계산기계와 지성(Computing machinery and intelligence)〉이라는 논문에서 기계가 인간처럼 생각할 수 있다고 주장했다. 1940년대 후반, 동료와 비평가들로부터 기계는 절대 인간 지능을 흉내 내지 못한다는 말을 듣게 된다. 튜링은 사람들의 의견에 의문을 가졌고 결국 논문을 통해 강한 인공지능을 판별하는 방법을 제시한다. 논문에서 튜링은 "기계도 생각할 수 있을까?(Can machines think?)"라는 질문을 던진다. 논문 첫 문장에 나오는 말이다. '기계'와 '생각'이라는 개념도 정의했다. 기계는 디지털 컴퓨터를 말했고 생각은 그가 만든 튜링테스트를 통과하면 증명된다고 설명했다. 튜링테스트 수행 방법은 다음과 같이 이뤄진다. 인간과 기계를 다른 공간에 배치하고 심문자(interrogator)는 그들과 텍스트로 대화를 나눈다. 심문자는 어떤 공간에 누가 있는지 알지 못한다. 만약 대화를 통해 기계와 인간을 구분하지 못하면 기계가 지능을 가졌다고 판단한다. 튜링테스트는 보통 이렇게 알려져 있다. 하지만 튜링이 실제 논문에서 제시한 실험은 더욱 디테일하다. 논문에는 튜링테스트 수행 방법에 대해 자세히 적혀 있다. 참고로 튜링테스트로 불리는 실험을 정작 튜링 본인은 '모방 게임(imitation game)'이라고 불렀다. 첫 번째 실험은 이번에도 최종 결론을 내릴 심문자가 있어야 한다. 한 공간에는 남자를 다른 공간에는 여자를 배치한다. 심문자는 둘의 존재를 알 수 없는 상황에서 필기한 질문을 둘에게 전달하고 답변을 받는다. 심문자는 둘 중 누가 남자고 누가 여자인지를 가려야 한다. 단, 남자는 심문자를 속이기 위해 여자인 척을 하게 된다. 두번째 실험에 와서야 남자 대신 기계가 배치된다. 이번에는 기계가 여자인 것처럼 대화를 해야 한다. 인간을 모방하는 것에서 한발 더 나아가 성별을 모방할 것을 요구한 실험이다. 튜링테스트는 인공지능을 판별하는 의미 있는 실험으로 받아들여지는 분위기였다.<ref> 테크플러스, 〈[https://blog.naver.com/tech-plus/221611103759 오래된 AI 판별법 '튜링테스트'...여전히 유효한가?]〉, 《네이버 블로그》, 2019-08-09 </ref> 하지만 튜링은 논문의 나머지 부분에서 "기계들이 생각할 수 있다"는 명제에 대해서 반대 이론들을 제시했다. 튜링이 튜링 테스트를 제시한 이후에, 튜링 테스트는 이후 [[인공지능]]의 역사에 막대한 영향을 끼쳤고, 많은 비판 또한 받아왔다. 그렇게 튜링 테스트는 인공지능 이론에서 중요한 개념이 되었다.<ref name="위키"> 튜링 테스트 위키백과 - https://ko.wikipedia.org/wiki/%ED%8A%9C%EB%A7%81_%ED%85%8C%EC%8A%A4%ED%8A%B8 </ref> |
− | == | + | == 형태 == |
− | + | 사울 트라이거(Saul Traiger)는 튜링 테스트의 기초적인 형태가 최소 3가지라고 주장하는데, 그 중 2개는 컴퓨팅 기계와 지능(Computing Machinery and Intelligence)에서 제공되고, 1개는 표준 해석(Standard Interpretation)에서 제공된다고 한다. 표준 해석이 튜링으로 기술되는 것인지, 아니면 그의 논문을 잘못 해석한 것인지에 대한 논쟁이 있지만, 이 세가지 버전은 동등하지 않으며 그들의 강점과 약점은 구별된다. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | + | ;표준 해석 | |
− | = | + | 튜링 테스트의 목적은 컴퓨터가 평가관이 컴퓨터를 인간으로 믿도록 속일 수 있는지를 판단하는 것이 아니라 컴퓨터가 인간을 모방할 수 있는지 여부를 판단하는 것이다. 이 해석이 튜링에 의해 의도된 것인지에 대해서는 약간의 논쟁이 있지만, 스터렛(Sterrett)은 이 해석이 의도된 것이어서 두번째 버전과 이 버전을 연결하는 반면, 트라이거는 그렇지 않다고 믿는다. 그럼에도 불구하고 이것은 표준 해석으로 볼 수 있는 결과를 가져왔다. 이 버전에서 A 선수는 컴퓨터이고 B 선수는 어느 한쪽 성별의 사람이다. 평가관의 역할은 누가 남자이고 누가 여자인지를 결정하는 것이 아니라, 어떤 것이 컴퓨터이고 어떤 것이 인간인지를 결정하는 것이다. 표준 해석의 근본적인 문제는 질문자가 어떤 응답자가 인간이고 어떤 응답자가 기계인지 구별할 수 없다는 것이다. 지속 기간에 관한 문제가 있지만, 일반적으로 표준 해석에서는 이러한 제한을 합리적인 것으로 간주한다.<ref name="위키"></ref> |
− | === | + | == 특징 == |
+ | === 강점 === | ||
+ | ;관리 용이성과 단순성 | ||
+ | 튜링 테스트의 힘과 매력은 단순함에서 비롯된다. 심리학, 현대 신경과학의 철학은 기계에 적용할 수 있을 만큼 정밀하고 일반적인 '지능'과 '생각'의 정의를 제공할 수 없었다. 이러한 정의 없이는 인공 지능 철학의 핵심적인 질문에 답할 수 없다. 튜링 테스트는 불완전할지라도 실제로 측정할 수 있는 무언가를 제공한다. 그렇기 때문에 어려운 철학적 질문에 답하는 것은 실용적인 시도이다. | ||
− | + | ;광범위한 주제 | |
+ | 시험 형식은 평가관이 기계에 광범위한 지적 직무를 부여할 수 있도록 한다. 튜링은 질문과 대답 방법은 우리가 포함시키고자 하는 인간 노력의 거의 모든 분야를 도입하기에 적합한 것으로 보인다고 썼다. 존 하우글랜드(John Haugeland)는 단어를 이해하는 것만으로는 충분하지 않고 주제를 이해해야 한다고 덧붙였다. | ||
− | === | + | === 약점 === |
+ | 튜링은 튜링 테스트가 지능의 척도로 사용될 수 있다는 것을 명시적으로 진술하지 않았다. 그는 '생각'이라는 단어에 대해 명확하고 이해할 수 있는 대안을 제시하기를 원했는데, 이는 그가 '생각하는 기계'의 가능성에 대한 비판에 답하고 연구가 진전될 수 있는 방법을 제안하기 위해 사용할 수 있기 때문이다. 그럼에도 불구하고 튜링 테스트는 기계의 '사고 능력' 또는 '지능'의 척도로 제안되었다. 이 제안은 철학자들과 컴퓨터 과학자들로부터 비판을 받아 왔다. 그것은 평가관이 그것의 행동을 인간의 행동과 비교함으로써 기계가 생각하고 있는지 여부를 판단할 수 있다고 가정한다. 이러한 가정의 모든 요소, 즉 평가관의 판단의 신뢰성, 행동만 비교하는 가치 및 기계를 인간과 비교하는 가치에 대해 의문이 제기되었다. 이 같은 점 등을 고려해 일부 인공지능 연구원들은 이번 실험이 자신들의 분야와 관련이 있는지 의문을 제기했다. | ||
+ | ;인간의 지능 vs 지능의 일반적인 비교 | ||
+ | 튜링 테스트는 컴퓨터가 지능적으로 동작하는지 여부를 직접적으로 테스트하지 않는다. 그것은 단지 컴퓨터가 인간처럼 행동하는지 여부를 테스트한다. 인간의 행동과 지적인 행동이 정확히 같은 것은 아니기 때문에 이 테스트는 두가지 방법으로 지능을 정확하게 측정하지 못할 수 있다. 튜링 테스트는 기계가 지능에 상관 없이 모든 인간 행동을 실행할 수 있도록 요구한다. 그것은 심지어 모욕에 대한 민감성, 거짓말거짓말에 대한 유혹, 또는 단순하게 타이핑 실수의 빈도와 같이 전혀 지능적이라고 여겨지지 않을 수도 있는 행동들에 대해서도 시험한다. 기계가 이러한 무지한 행동을 상세히 모방할 수 없다면 시험에 불합격하는 것이다. 이코노미스트는 1992년 로버너 상 1차 대회 직후 발표한 '인공적 어리석음'이라는 제목의 기사에서 이 같은 반론을 제기했다. 이 기사는 첫번째 뢰브너 우승자의 승리는 적어도 부분적으로는 사람의 타이핑 실수를 모방하는 능력 때문이라고 지적했다. 튜링 자신은 프로그램이 더 나은 게임의 게이머가 되기 위해 프로그램이 그들의 출력에 오류를 추가한다고 제안했다. 튜링 테스트는 어려운 문제를 해결하거나 독창적인 통찰력을 도출하는 능력과 같은 매우 지능적인 행동을 테스트하지 않는다. 사실, 그것은 특히 기계의 한 부분에 대한 속임수를 필요로 한다. 만약 기계가 인간보다 더 똑똑하다면 그것은 고의적으로 너무 지적으로 보이는 것을 피해야 한다. 만약 인간이 푸는 것이 실질적으로 불가능한 계산적인 문제를 해결한다면, 평가관은 프로그램이 인간이 아니라는 것을 알게 될 것이고, 기계는 테스트를 통과하지 못하게 될 것이다. 인간의 능력을 넘어서는 지능을 측정할 수 없기 때문에, 이 테스트는 인간보다 더 지능적인 시스템을 만들거나 평가하는 데 사용될 수 없다. | ||
{{각주}} | {{각주}} |
2020년 7월 17일 (금) 16:16 판
튜링 테스트(Turing Test) 또는 튜링 검사는 인간의 것과 동등하거나 구별할 수 없는 지능적인 행동을 보여주는 기계의 능력에 대한 테스트이다. 1950년 앨런 튜링(Alan Turing)에 의해 개발되었다.
개요
앨런 튜링은 〈계산기계와 지성(Computing machinery and intelligence)〉이라는 논문에서 기계가 인간처럼 생각할 수 있다고 주장했다. 1940년대 후반, 동료와 비평가들로부터 기계는 절대 인간 지능을 흉내 내지 못한다는 말을 듣게 된다. 튜링은 사람들의 의견에 의문을 가졌고 결국 논문을 통해 강한 인공지능을 판별하는 방법을 제시한다. 논문에서 튜링은 "기계도 생각할 수 있을까?(Can machines think?)"라는 질문을 던진다. 논문 첫 문장에 나오는 말이다. '기계'와 '생각'이라는 개념도 정의했다. 기계는 디지털 컴퓨터를 말했고 생각은 그가 만든 튜링테스트를 통과하면 증명된다고 설명했다. 튜링테스트 수행 방법은 다음과 같이 이뤄진다. 인간과 기계를 다른 공간에 배치하고 심문자(interrogator)는 그들과 텍스트로 대화를 나눈다. 심문자는 어떤 공간에 누가 있는지 알지 못한다. 만약 대화를 통해 기계와 인간을 구분하지 못하면 기계가 지능을 가졌다고 판단한다. 튜링테스트는 보통 이렇게 알려져 있다. 하지만 튜링이 실제 논문에서 제시한 실험은 더욱 디테일하다. 논문에는 튜링테스트 수행 방법에 대해 자세히 적혀 있다. 참고로 튜링테스트로 불리는 실험을 정작 튜링 본인은 '모방 게임(imitation game)'이라고 불렀다. 첫 번째 실험은 이번에도 최종 결론을 내릴 심문자가 있어야 한다. 한 공간에는 남자를 다른 공간에는 여자를 배치한다. 심문자는 둘의 존재를 알 수 없는 상황에서 필기한 질문을 둘에게 전달하고 답변을 받는다. 심문자는 둘 중 누가 남자고 누가 여자인지를 가려야 한다. 단, 남자는 심문자를 속이기 위해 여자인 척을 하게 된다. 두번째 실험에 와서야 남자 대신 기계가 배치된다. 이번에는 기계가 여자인 것처럼 대화를 해야 한다. 인간을 모방하는 것에서 한발 더 나아가 성별을 모방할 것을 요구한 실험이다. 튜링테스트는 인공지능을 판별하는 의미 있는 실험으로 받아들여지는 분위기였다.[1] 하지만 튜링은 논문의 나머지 부분에서 "기계들이 생각할 수 있다"는 명제에 대해서 반대 이론들을 제시했다. 튜링이 튜링 테스트를 제시한 이후에, 튜링 테스트는 이후 인공지능의 역사에 막대한 영향을 끼쳤고, 많은 비판 또한 받아왔다. 그렇게 튜링 테스트는 인공지능 이론에서 중요한 개념이 되었다.[2]
형태
사울 트라이거(Saul Traiger)는 튜링 테스트의 기초적인 형태가 최소 3가지라고 주장하는데, 그 중 2개는 컴퓨팅 기계와 지능(Computing Machinery and Intelligence)에서 제공되고, 1개는 표준 해석(Standard Interpretation)에서 제공된다고 한다. 표준 해석이 튜링으로 기술되는 것인지, 아니면 그의 논문을 잘못 해석한 것인지에 대한 논쟁이 있지만, 이 세가지 버전은 동등하지 않으며 그들의 강점과 약점은 구별된다.
- 표준 해석
튜링 테스트의 목적은 컴퓨터가 평가관이 컴퓨터를 인간으로 믿도록 속일 수 있는지를 판단하는 것이 아니라 컴퓨터가 인간을 모방할 수 있는지 여부를 판단하는 것이다. 이 해석이 튜링에 의해 의도된 것인지에 대해서는 약간의 논쟁이 있지만, 스터렛(Sterrett)은 이 해석이 의도된 것이어서 두번째 버전과 이 버전을 연결하는 반면, 트라이거는 그렇지 않다고 믿는다. 그럼에도 불구하고 이것은 표준 해석으로 볼 수 있는 결과를 가져왔다. 이 버전에서 A 선수는 컴퓨터이고 B 선수는 어느 한쪽 성별의 사람이다. 평가관의 역할은 누가 남자이고 누가 여자인지를 결정하는 것이 아니라, 어떤 것이 컴퓨터이고 어떤 것이 인간인지를 결정하는 것이다. 표준 해석의 근본적인 문제는 질문자가 어떤 응답자가 인간이고 어떤 응답자가 기계인지 구별할 수 없다는 것이다. 지속 기간에 관한 문제가 있지만, 일반적으로 표준 해석에서는 이러한 제한을 합리적인 것으로 간주한다.[2]
특징
강점
- 관리 용이성과 단순성
튜링 테스트의 힘과 매력은 단순함에서 비롯된다. 심리학, 현대 신경과학의 철학은 기계에 적용할 수 있을 만큼 정밀하고 일반적인 '지능'과 '생각'의 정의를 제공할 수 없었다. 이러한 정의 없이는 인공 지능 철학의 핵심적인 질문에 답할 수 없다. 튜링 테스트는 불완전할지라도 실제로 측정할 수 있는 무언가를 제공한다. 그렇기 때문에 어려운 철학적 질문에 답하는 것은 실용적인 시도이다.
- 광범위한 주제
시험 형식은 평가관이 기계에 광범위한 지적 직무를 부여할 수 있도록 한다. 튜링은 질문과 대답 방법은 우리가 포함시키고자 하는 인간 노력의 거의 모든 분야를 도입하기에 적합한 것으로 보인다고 썼다. 존 하우글랜드(John Haugeland)는 단어를 이해하는 것만으로는 충분하지 않고 주제를 이해해야 한다고 덧붙였다.
약점
튜링은 튜링 테스트가 지능의 척도로 사용될 수 있다는 것을 명시적으로 진술하지 않았다. 그는 '생각'이라는 단어에 대해 명확하고 이해할 수 있는 대안을 제시하기를 원했는데, 이는 그가 '생각하는 기계'의 가능성에 대한 비판에 답하고 연구가 진전될 수 있는 방법을 제안하기 위해 사용할 수 있기 때문이다. 그럼에도 불구하고 튜링 테스트는 기계의 '사고 능력' 또는 '지능'의 척도로 제안되었다. 이 제안은 철학자들과 컴퓨터 과학자들로부터 비판을 받아 왔다. 그것은 평가관이 그것의 행동을 인간의 행동과 비교함으로써 기계가 생각하고 있는지 여부를 판단할 수 있다고 가정한다. 이러한 가정의 모든 요소, 즉 평가관의 판단의 신뢰성, 행동만 비교하는 가치 및 기계를 인간과 비교하는 가치에 대해 의문이 제기되었다. 이 같은 점 등을 고려해 일부 인공지능 연구원들은 이번 실험이 자신들의 분야와 관련이 있는지 의문을 제기했다.
- 인간의 지능 vs 지능의 일반적인 비교
튜링 테스트는 컴퓨터가 지능적으로 동작하는지 여부를 직접적으로 테스트하지 않는다. 그것은 단지 컴퓨터가 인간처럼 행동하는지 여부를 테스트한다. 인간의 행동과 지적인 행동이 정확히 같은 것은 아니기 때문에 이 테스트는 두가지 방법으로 지능을 정확하게 측정하지 못할 수 있다. 튜링 테스트는 기계가 지능에 상관 없이 모든 인간 행동을 실행할 수 있도록 요구한다. 그것은 심지어 모욕에 대한 민감성, 거짓말거짓말에 대한 유혹, 또는 단순하게 타이핑 실수의 빈도와 같이 전혀 지능적이라고 여겨지지 않을 수도 있는 행동들에 대해서도 시험한다. 기계가 이러한 무지한 행동을 상세히 모방할 수 없다면 시험에 불합격하는 것이다. 이코노미스트는 1992년 로버너 상 1차 대회 직후 발표한 '인공적 어리석음'이라는 제목의 기사에서 이 같은 반론을 제기했다. 이 기사는 첫번째 뢰브너 우승자의 승리는 적어도 부분적으로는 사람의 타이핑 실수를 모방하는 능력 때문이라고 지적했다. 튜링 자신은 프로그램이 더 나은 게임의 게이머가 되기 위해 프로그램이 그들의 출력에 오류를 추가한다고 제안했다. 튜링 테스트는 어려운 문제를 해결하거나 독창적인 통찰력을 도출하는 능력과 같은 매우 지능적인 행동을 테스트하지 않는다. 사실, 그것은 특히 기계의 한 부분에 대한 속임수를 필요로 한다. 만약 기계가 인간보다 더 똑똑하다면 그것은 고의적으로 너무 지적으로 보이는 것을 피해야 한다. 만약 인간이 푸는 것이 실질적으로 불가능한 계산적인 문제를 해결한다면, 평가관은 프로그램이 인간이 아니라는 것을 알게 될 것이고, 기계는 테스트를 통과하지 못하게 될 것이다. 인간의 능력을 넘어서는 지능을 측정할 수 없기 때문에, 이 테스트는 인간보다 더 지능적인 시스템을 만들거나 평가하는 데 사용될 수 없다.
각주
- ↑ 테크플러스, 〈오래된 AI 판별법 '튜링테스트'...여전히 유효한가?〉, 《네이버 블로그》, 2019-08-09
- ↑ 2.0 2.1 튜링 테스트 위키백과 - https://ko.wikipedia.org/wiki/%ED%8A%9C%EB%A7%81_%ED%85%8C%EC%8A%A4%ED%8A%B8
참고자료
- 테크플러스, 〈오래된 AI 판별법 '튜링테스트'...여전히 유효한가?〉, 《네이버 블로그》, 2019-08-09
- 튜링 테스트 위키백과 - https://ko.wikipedia.org/wiki/%ED%8A%9C%EB%A7%81_%ED%85%8C%EC%8A%A4%ED%8A%B8</ref>
같이 보기