번역기
번역기(飜譯機)는 컴퓨터가 주체가 되어 번역을 하는 기계를 말한다.
개요
번역기는 한 나라의 언어로 씌어 있는 문장이나 말을 다른 나라의 언어(문장 또는 말)로 번역하는 기계로, 1946년 영국의 A.D.부스가 최초로 제안하였다. 컴퓨터의 기억장치에 사전이나 문법서를 기억시킨 후 번역이 이루어지며, 이러한 번역을 기계번역이라고 한다.
컴퓨터의 기억장치에 숫자·문자·기호 등을 적당히 부호화해서 기억시킬 수 있다. 따라서 한 권의 사전이나 몇 권의 문법서를 기억시키면 한 나라의 국어를 다른 나라의 국어로 번역할 수 있게 된다. 이 번역을 자동번역(automatic translation) 또는 기계번역(machine translation)이라 하고, 기계번역을 실행하는 장치를 번역기계라 한다.
기계의 본체는 보통 일반용의 대형 컴퓨터이지만 전용의 컴퓨터를 설계·제작하는 경우도 있다(워싱턴대학교, 1956). 컴퓨터에 의한 언어의 번역은 1946년 영국의 A.D.부스에 의해서 최초로 제안되어 미국의 W.위버가 이것에 동조하였다.
이것을 계기로 해서 기계적 처리에 적합한 어휘론(語彙論)·문법론의 연구가 시작되었다. 1954년 이래 기계번역의 전문잡지 《MT》가 간행되었으며(미국), 1961년 제1회 국제회의가 영국의 국립물리학연구소에서 개최되었다.
한편, 실험도 1954년 미국의 조지타운대학교에서 IBM-701에 의해 250개 어의 작은 사전과 5개의 문장 구조형을 사용해서 러시아어를 영어로 번역한 이래 각 연구소에서 시도되어 방대한 데이터가 축적되었다. IBM(미국)이나 미국의 캘리포니아대학교에서 실시하고 있는 기계번역에서는 기본형으로 10만 어 정도의 사전을 사용하고 있어 특정한 분야의 학술논문에 대해서는 거의 충분하다고 인정되고 있으나, 조잡한 직역밖에 할 수 없으므로 문학작품 등의 번역은 어렵다.
기계의 완성보다도 기계적 처리와의 관련에 있어서 언어의 연구가 중요시되는 경향이 있으며, 계산언어학(computational linguistics)이라는 말도 사용한다.
컴퓨터에 번역을 시키기 위해서는 기계적으로 사전을 찾는 것이 첫째 일이다. 보통 사전은 너무 커지지 않도록 표제어로서 단어의 원형만을 기재하고, 변화어미는 자동적으로 처리한다. 예를 들면, 어미를 변화시키지 않고 일단 사전을 찾아 일치되는 단어가 없으면, 한 자를 지우거나 바꾸면서 되풀이해서 찾는다. 지운 철자(綴字)에 대해서도 그 뜻을 다시 사전 속에서 찾아내게 한다.
이와 같이 사전을 찾게 하면 낱말을 순서대로 번역해서 나열하게 되는데, 그것으로는 실용적이지 않다. 따라서 하나의 문장을 단위로 하여, 문장 구성을 생각해서 단어의 순서를 바꿀 필요가 있다. 이 때문에 두 가지 국어에 대한 구문론(構文論), 특히 원문측 국어의 구문분석 이론이 마련되어 있지 않으면 안 된다.
이것에는 품사론(品詞論)을 비롯하여 문법의 거의 모든 부문이 관계된다. 이들의 전체를 정식화(定式化)하고 분석순서·어순변경순서를 상세히 표시해서 기억장치 속에 격납해 둠으로써 컴퓨터는 비로소 문장을 번역하는 능력을 갖추게 된다.
컴퓨터는 문자가 아니고 전기신호로 동작하므로 사전 등의 자료를 기계에 넣기 위해서는 이들 전부를 천공기로 테이프에 천공해야 한다. 이것을 다시 테이프 판독기에 걸면 전기신호로 바뀌어 컴퓨터의 중추부를 거쳐 기억장치에 격납된다. 번역한 원문도 테이프에 천공해서 판독기에 건다.
번역의 결과는 텔레타이프·라인프린터 등의 인쇄장치에 의해 자동적으로 인쇄된다. 또한, 최초의 천공은 사람의 손에 의하는 것이 보통이나, 이것이 자동적으로 자유로이 이루어질 수 있는 단계로 발전했다.
인공지능 번역기
번역기가 이제는 달라졌다. AI(Artificial Intelligence, 인공지능) 기술을 품은 번역기는 이전보다 훨씬 섬세하고 유연해졌다. 마이크로소프트(이하, MS)는 2016년 11월, 처음으로 인공지능 신경망(ANN, Artificial Neural Network) 기반 번역 서비스를 공개했습니다. 인공 신경망은 인간의 두뇌와 비슷한 방식으로 여러 가지 정보를 처리하는 알고리즘을 말하는 당시 MS는 영어, 독일어, 아랍어, 중국어를 포함한 10가지 언어를 지원했고, 이번에 한국어를 추가하면서 총 11가지 언어에 최대 10,000자까지 번역하게 됐다.
MS의 신경망 기반 번역은 인공지능과 머신러닝 기법을 통해 언어를 학습하고, 총 두 단계에 걸쳐 번역한다. 단순히 문장 안에 있는 몇 개 단어의 뜻을 기계적으로 번역해 보여주는 게 아니라 문장 전체의 의미를 파악하고 가장 잘 맞는 뜻을 가진 단어를 골라 번역하는 것이다. MS 블로그에 있는 예시를 보겠다.
- '개가 매우 행복해 보인다. 그 개는 강아지 6마리를 낳았다'라는 문장을 MS 신경망 번역을 이용해 프랑스어로 번역을 하면 'La chienne a l’air très heureuse. La chienne portait 6 chiots'라고 보여준다. 프랑스어에서는 똑같은 단어라도 모든 명사에 남성형과 여성형으로 성이 나뉘는데, 이 성별이 무엇이냐에 따라 뒤따라오는 동사 형태가 다르게 쓰인다. 불어로 '개'는 남성형 명사로 'Le chien'으로 표현하지만, 신경망 분석을 거쳐 이 문장에서는 암컷이라고 추론해 여성 형태의 'La chienne'로 번역했다.
예시와 같이 신경망 기반 번역은 문장 전체의 맥락을 파악해 사람이 말하는 것처럼 자연스러운 번역이 특징이다. MS의 말처럼 실제 추론 번역이 가능한지 본 페이지에 적용해 보았습니다. 여성 형태의 'La chienne'가 아닌 남성형 명사인 'Le chien'로 번역됐는데 때에 따라 다를 수 있지만, 안타깝게도 아직 완벽하게 학습된 상태는 아닌듯하다.
구글도 2017년 11월, 한국어를 포함한 8개의 언어조합에 '구글 신경망 기계번역 기술 GNMT(Google Neural Machine Translation)'를 적용한 번역기를 선보였다. 구체적으로 어떤 변화가 있는지 구글 한국 블로그에 실린 내용을 참고해 비교해봤다.
(이전) The sovereignty of the Republic of Korea and the people, and all state authority shall emanate from the people.
(현재) The sovereignty of the Republic of Korea is in the people, and all power comes from the people.
헌법 제1조 2항인 '대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다'를 번역한 문장이다. 왼쪽은 그동안 구글이 번역문으로 제시했던 문장이고, 오른쪽은 달라진 구글 번역 문장이다. 이전 번역은 원문을 보지 않고는 뜻을 파악하기 어려웠지만, 현재는 좀 더 명확한 문장이 됐다.
이번에는 국내 번역 서비스인 네이버 파파고(Papago)를 살펴보겠다. 베타 서비스 출시 후, 약 1년 만에 인공신경망 번역 기술 'N2MT(Naver Neural Machine Translation)'가 적용된 정식 서비스를 선보였는데 이전과 크게 달라진 점은 해당 기술이 적용되는 글자 수 범위가 200자에서 최대 5,000자까지 확대된 것이다. 장문을 잘라 쓸 수밖에 없었던 과거와 달리, 신문기사나 논문처럼 긴 문장도 한 번에 정확하고 자연스러운 번역 결과를 얻을 수 있게 되었다. 같은 기술을 적용한 파파고와 구글, 어떤 차이점이 있는지 아래 사례를 보겠다.
애국가의 첫 소절을 입력해 보았다. 파파고는 정확하게 번역을 했지만, 구글은 너무 축약돼 버렸다. 일상 용어는 어떨까? 우리가 흔히 쓰는 줄임말인 '아점'을 입력하자 파파고는 제 뜻에 맞게 'Brunch'로 번역한 반면, 구글은 전혀 다른 뜻으로 인식했다. 장문 번역의 경우, 구글과 비교했을 때 기능 면에서는 큰 차이가 없지만, 문장에 따라 쓰인 단어가 조금씩 달랐고 음성 번역은 파파고의 정확도가 더 높았습니다. 이미지 텍스트 번역은 두 번역기 모두 미흡한 점이 많았다. 앞서 언급한 사례들은 한국어를 기반으로 한 문장과 단어이므로 파파고에 유리할 수 있다는 점을 참작해야 할 것이다.
결론적으로, 구글 번역은 사용 빈도가 많은 언어일수록 정확도가 높으며, 여러 나라 언어로 번역이 필요할 때나 전문적인 내용을 번역할 때 좋다. 네이버 파파고는 속담 등 한국 관용어 번역과 한국어 기반의 일상적인 대화를 번역할 때 유용하다고 볼 수 있겠다.