검수요청.png검수요청.png

번역기

위키원
sms1208 (토론 | 기여)님의 2024년 4월 7일 (일) 13:46 판 (인공지능 번역기)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
이동: 둘러보기, 검색

번역기(飜譯機)는 컴퓨터가 주체가 되어 번역을 하는 기계를 말한다.

개요[편집]

번역기는 한 나라의 언어로 씌어 있는 문장이나 말을 다른 나라의 언어(문장 또는 말)로 번역하는 기계로, 1946년 영국의 A.D.부스가 최초로 제안하였다. 컴퓨터의 기억장치에 사전이나 문법서를 기억시킨 후 번역이 이루어지며, 이러한 번역을 기계번역이라고 한다.

컴퓨터의 기억장치에 숫자·문자·기호 등을 적당히 부호화해서 기억시킬 수 있다. 따라서 한 권의 사전이나 몇 권의 문법서를 기억시키면 한 나라의 국어를 다른 나라의 국어로 번역할 수 있게 된다. 이 번역을 자동번역(automatic translation) 또는 기계번역(machine translation)이라 하고, 기계번역을 실행하는 장치를 번역기계라 한다.

기계의 본체는 보통 일반용의 대형 컴퓨터이지만 전용의 컴퓨터를 설계·제작하는 경우도 있다(워싱턴대학교, 1956). 컴퓨터에 의한 언어의 번역은 1946년 영국의 A.D.부스에 의해서 최초로 제안되어 미국의 W.위버가 이것에 동조하였다.

이것을 계기로 해서 기계적 처리에 적합한 어휘론(語彙論)·문법론의 연구가 시작되었다. 1954년 이래 기계번역의 전문잡지 《MT》가 간행되었으며(미국), 1961년 제1회 국제회의가 영국의 국립물리학연구소에서 개최되었다.

한편, 실험도 1954년 미국의 조지타운대학교에서 IBM-701에 의해 250개 어의 작은 사전과 5개의 문장 구조형을 사용해서 러시아어를 영어로 번역한 이래 각 연구소에서 시도되어 방대한 데이터가 축적되었다. IBM(미국)이나 미국의 캘리포니아대학교에서 실시하고 있는 기계번역에서는 기본형으로 10만 어 정도의 사전을 사용하고 있어 특정한 분야의 학술논문에 대해서는 거의 충분하다고 인정되고 있으나, 조잡한 직역밖에 할 수 없으므로 문학작품 등의 번역은 어렵다.

기계의 완성보다도 기계적 처리와의 관련에 있어서 언어의 연구가 중요시되는 경향이 있으며, 계산언어학(computational linguistics)이라는 말도 사용한다.

컴퓨터에 번역을 시키기 위해서는 기계적으로 사전을 찾는 것이 첫째 일이다. 보통 사전은 너무 커지지 않도록 표제어로서 단어의 원형만을 기재하고, 변화어미는 자동적으로 처리한다. 예를 들면, 어미를 변화시키지 않고 일단 사전을 찾아 일치되는 단어가 없으면, 한 자를 지우거나 바꾸면서 되풀이해서 찾는다. 지운 철자(綴字)에 대해서도 그 뜻을 다시 사전 속에서 찾아내게 한다.

이와 같이 사전을 찾게 하면 낱말을 순서대로 번역해서 나열하게 되는데, 그것으로는 실용적이지 않다. 따라서 하나의 문장을 단위로 하여, 문장 구성을 생각해서 단어의 순서를 바꿀 필요가 있다. 이 때문에 두 가지 국어에 대한 구문론(構文論), 특히 원문측 국어의 구문분석 이론이 마련되어 있지 않으면 안 된다.

이것에는 품사론(品詞論)을 비롯하여 문법의 거의 모든 부문이 관계된다. 이들의 전체를 정식화(定式化)하고 분석순서·어순변경순서를 상세히 표시해서 기억장치 속에 격납해 둠으로써 컴퓨터는 비로소 문장을 번역하는 능력을 갖추게 된다.

컴퓨터는 문자가 아니고 전기신호로 동작하므로 사전 등의 자료를 기계에 넣기 위해서는 이들 전부를 천공기로 테이프에 천공해야 한다. 이것을 다시 테이프 판독기에 걸면 전기신호로 바뀌어 컴퓨터의 중추부를 거쳐 기억장치에 격납된다. 번역한 원문도 테이프에 천공해서 판독기에 건다.

번역의 결과는 텔레타이프·라인프린터 등의 인쇄장치에 의해 자동적으로 인쇄된다. 또한, 최초의 천공은 사람의 손에 의하는 것이 보통이나, 이것이 자동적으로 자유로이 이루어질 수 있는 단계로 발전했다.

인공지능 번역기[편집]

번역기가 이제는 달라졌다. AI(Artificial Intelligence, 인공지능) 기술을 품은 번역기는 이전보다 훨씬 섬세하고 유연해졌다. 마이크로소프트(이하, MS)는 2016년 11월, 처음으로 인공지능 신경망(ANN, Artificial Neural Network) 기반 번역 서비스를 공개했다. 인공 신경망은 인간의 두뇌와 비슷한 방식으로 여러 가지 정보를 처리하는 알고리즘을 말하는 당시 MS는 영어, 독일어, 아랍어, 중국어를 포함한 10가지 언어를 지원했고, 이번에 한국어를 추가하면서 총 11가지 언어에 최대 10,000자까지 번역하게 됐다.

MS의 신경망 기반 번역은 인공지능과 머신러닝 기법을 통해 언어를 학습하고, 총 두 단계에 걸쳐 번역한다. 단순히 문장 안에 있는 몇 개 단어의 뜻을 기계적으로 번역해 보여주는 게 아니라 문장 전체의 의미를 파악하고 가장 잘 맞는 뜻을 가진 단어를 골라 번역하는 것이다. MS 블로그에 있는 예시를 보겠다.

'개가 매우 행복해 보인다. 그 개는 강아지 6마리를 낳았다'라는 문장을 MS 신경망 번역을 이용해 프랑스어로 번역을 하면 'La chienne a l’air très heureuse. La chienne portait 6 chiots'라고 보여준다. 프랑스어에서는 똑같은 단어라도 모든 명사에 남성형과 여성형으로 성이 나뉘는데, 이 성별이 무엇이냐에 따라 뒤따라오는 동사 형태가 다르게 쓰인다. 불어로 '개'는 남성형 명사로 'Le chien'으로 표현하지만, 신경망 분석을 거쳐 이 문장에서는 암컷이라고 추론해 여성 형태의 'La chienne'로 번역했다.

예시와 같이 신경망 기반 번역은 문장 전체의 맥락을 파악해 사람이 말하는 것처럼 자연스러운 번역이 특징이다. MS의 말처럼 실제 추론 번역이 가능한지 본 페이지에 적용해 보았습니다. 여성 형태의 'La chienne'가 아닌 남성형 명사인 'Le chien'로 번역됐는데 때에 따라 다를 수 있지만, 안타깝게도 아직 완벽하게 학습된 상태는 아닌듯하다.

구글도 2017년 11월, 한국어를 포함한 8개의 언어조합에 '구글 신경망 기계번역 기술 GNMT(Google Neural Machine Translation)'를 적용한 번역기를 선보였다. 구체적으로 어떤 변화가 있는지 구글 한국 블로그에 실린 내용을 참고해 비교해봤다.

이전 방식의 번역과 새로운 방식의 번역을 비교한 사진 ©구글

(이전) The sovereignty of the Republic of Korea and the people, and all state authority shall emanate from the people.

(현재) The sovereignty of the Republic of Korea is in the people, and all power comes from the people.

헌법 제1조 2항인 '대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다'를 번역한 문장이다. 왼쪽은 그동안 구글이 번역문으로 제시했던 문장이고, 오른쪽은 달라진 구글 번역 문장이다. 이전 번역은 원문을 보지 않고는 뜻을 파악하기 어려웠지만, 현재는 좀 더 명확한 문장이 됐다.

이번에는 국내 번역 서비스인 네이버 파파고(Papago)를 살펴보겠다. 베타 서비스 출시 후, 약 1년 만에 인공신경망 번역 기술 'N2MT(Naver Neural Machine Translation)'가 적용된 정식 서비스를 선보였는데 이전과 크게 달라진 점은 해당 기술이 적용되는 글자 수 범위가 200자에서 최대 5,000자까지 확대된 것이다. 장문을 잘라 쓸 수밖에 없었던 과거와 달리, 신문기사나 논문처럼 긴 문장도 한 번에 정확하고 자연스러운 번역 결과를 얻을 수 있게 되었다. 같은 기술을 적용한 파파고와 구글, 어떤 차이점이 있는지 아래 사례를 보겠다.

(좌)파파고 번역 PC버전©네이버 파파고, (우) 구글번역 PC버전©구글번역기

애국가의 첫 소절을 입력해 보았다. 파파고는 정확하게 번역을 했지만, 구글은 너무 축약돼 버렸다. 일상 용어는 어떨까? 우리가 흔히 쓰는 줄임말인 '아점'을 입력하자 파파고는 제 뜻에 맞게 'Brunch'로 번역한 반면, 구글은 전혀 다른 뜻으로 인식했다. 장문 번역의 경우, 구글과 비교했을 때 기능 면에서는 큰 차이가 없지만, 문장에 따라 쓰인 단어가 조금씩 달랐고 음성 번역은 파파고의 정확도가 더 높았습니다. 이미지 텍스트 번역은 두 번역기 모두 미흡한 점이 많았다. 앞서 언급한 사례들은 한국어를 기반으로 한 문장과 단어이므로 파파고에 유리할 수 있다는 점을 참작해야 할 것이다.

결론적으로, 구글 번역은 사용 빈도가 많은 언어일수록 정확도가 높으며, 여러 나라 언어로 번역이 필요할 때나 전문적인 내용을 번역할 때 좋다. 네이버 파파고는 속담 등 한국 관용어 번역과 한국어 기반의 일상적인 대화를 번역할 때 유용하다고 볼 수 있겠다.

기계 번역기의 종류[편집]

  • 구글 번역 : 2016년 9월 28(현지시각)부터 영어-중국어를 시작으로 딥 러닝 기술이 적용되었다. 구글 크롬이 사용한다.
  • 시스트란 : 시스트란에서 인공신경망 기술을 기반으로 만든 번역기다. 하버드대와 공동연구하고 있으며 OpenNMT OpenNMT에 오픈 소스화 되어 있다.
  • 바벨피시 : 알타비스타에서 서비스하던 초기 인터넷 단문 번역 서비스의 이름. 현재는 야후!를 거쳐 Bing에서 Bing 번역으로 서비스 중이다.
  • 빙 번역기 : 기술문서 번역에서는 구글보다 좋은 결과를 보여준다. 이유는 방대한 MSDN 번역자료가 있기 때문이다. 페이스북의 번역 기능이 바로 이 번역기 기반이다. 의외로 많은 번역 앱이나 사이트, 블로그 등이 빙 번역기에 번역 서비스를 의존하고 있다. 앱/웹 개발자에게 무료로 자신들의 서비스 API를 오픈하고 있는 혜자로운 정책 덕분. 사이트나 블로그 등에 부착할 수 있는 위젯에는 제한이 없고, 앱에서 사용할 수 있는 API는 월 200만 단어까지 무료다. Microsoft Edge의 번역 기능도 빙 번역기를 사용한다.
  • 네이버 파파고 : 네이버에서 제작한 인공지능 기반 번역기. 네이버 웨일이 사용한다.
  • 마이크로소프트 번역기 : 마이크로소프트가 제공하는 다언어 기계 번역 클라우드 서비스이다. 마이크로소프트 번역기 API는 여러 소비자, 개발자, 기업 제품에 연동되어 있는데, 여기에는 빙, 마이크로소프트 오피스, 셰어포인트, 마이크로소프트 엣지, 마이크로소프트 링크, 야머, 스카이프 번역기, 비주얼 스튜디오, 인터넷 익스플로러, 또 윈도우, 윈도우 폰, 아이폰, 애플 워치, 안드로이드 전화, 안드로이드 웨어용 마이크로소프트 번역기 앱이 포함된다.
  • DeepL : AI를 이용한 수준 높은 번역기이다. 2022년 12월부터 한국어도 지원하기 시작했다. 2023년 5월부터 Pro도 지원하기 시작했다. 세계에서 가장 정확한 번역기임을 주장하고 해외에서는 구글 번역보다 정확한 것으로 상당히 유명하다. 서구 언어를 잘 번역하는 편이다. 한국어의 경우, 한국어에서 외국어로 번역하는 것은 영어나 중국어, 독일어의 경우 구글보다 조금 나은 편이나 외국어에서 한국어로 번역하는 것이 말끔해졌다. 일본어나 프랑스어, 러시아어, 우크라이나어 등과의 번역 품질은 구글보다 차이가 커서 품질이 좋은 편이다. 관용구를 의역하는 경향이 강하다.
  • ChatGPT : ChatGPT 역시 높은 수준의 번역을 제공하고 있다. 초기에는 한국어와 영어 간의 번역 품질이 그리 좋지 않았으나, 한국어 데이터 업데이트 이후 파파고 이상의 번역 품질을 보여준다. 영어와 여러 다른 언어의 번역에서도 추가적인 정보없이 번역을 하라는 명령만 있을 경우, GPT4를 사용하면 구글 번역과 DeepL과 비슷한 수준의 성능을 보인다. 특히 번역에서 중요한 요소를 먼저 답변하게 하고 그런 답변에 나온 방식으로의 번역을 요청하는 등의 프롬프트 엔지니어링을 사용하면 매우 정확도가 높다.
  • 카카오 i 번역 : 카카오 i의 서비스 중 번역 서비스이다.
  • 플리토 : 인공지능 번역 서비스는 무료, 사람이 직접 번역해 주는 전문적인 서비스는 유료로 제공한다.
  • 애플 번역기 : 애플에서 제작했다. iOS 14에 포함된 번들 앱으로 PC에서는 사용이 불가능하다. Mac에서는 iOS와는 달리 단독 번역 앱은 탑재되지 않으나, macOS Big Sur부터 Safari 브라우저에서 웹페이지 번역을 지원한다.
  • 얀덱스 번역 : 이모지 번역 기능이 있다. 한국어 발음을 할때 받침이 있는 단어와 조사가 결합하는 부분에서 음절의 끝소리 규칙이 적용된 후에 발음된다.(예: 로봇을 → 로보들)
  • RWS 기계번역 : RWS는 현재 세계에서 가장 큰 랭귀지서비스 기업으로 통계형이 아닌 인공신경망 기술을 기반으로 번역 솔루션을 제공하고 있다. 별건 아니고 요즘은 대부분 인공신경망이다. 그리고 시장에서 가장 완성도가 높은 학습형 기능으로 알려지고 있다. RWS는 전세계적으로 가장 많은 고객들에게 서비스를 하고 있고 현재 주한미군에서도 공식적으로 체택하여 사용하고 있는 중이다. 국내에서는 클라우드솔루션 전문기업인 모코엠시스에서 RWS 인공신경망 기계번역 솔루션을 서비스하고 있다.
  • S 번역기 : 삼성전자에서 제작한 S 번역기 문서 참고. 현재는 서비스 중단.
  • Translation Services USA : 소수민족의 언어는 물론 사어까지 번역해주는 어마어마한 물량의 사이트. 다만 유료 회원가입을 해야 한다.
  • Claude 3 : GPT 같은 LLM의 일종이다. 번역한 문체가 매우 매끄러운 것이 특징으로, GPT4보다도 번역 성능이 앞서는 부분이 있다. GPT4보다 지원 언어가 더 많고, 데이터가 부족한 언어에서 특히 기존 기계 번역보다 강점을 보인다. 유료 버전인 Claude 3 Opus는 특히 번역 성능이 뛰어나다.

번역 기능으로 활용도 높인 서비스[편집]

번역기는 아니지만, 번역 기능을 탑재해 생활 속에서 유용하게 쓰이는 서비스도 있다. 구글은 사용자의 편의를 높이기 위한 여행 후기 자동 번역 기능을 선보였다. 이제는 구글 지도와 검색 결과에 보이는 후기 모두 자신의 언어로 볼 수 있게 된 건데 번역물 바로 아래 원문도 표시되므로 혹시 있을 번역 오류도 피할 수 있다.

카메라를 활용한 번역 서비스도 있다. 구글 번역 앱 '워드 렌즈(Word Lens)'와 네이버 파파고의 '즉석카메라 번역 기능'은 카메라로 글자를 비추면 화면에 바로 번역된 형태의 이미지로 보여주는데 워드 렌즈는 언어 팩을 기반으로 동작하기 때문에 인터넷 등 통신시설이 잘 구축되지 않은 국가에서도 자유롭게 쓸 수 있고, 최근 한국어-영어 번역 기능이 추가되면서 한국은 세계에서 31번째로 구글 번역 앱 워드 렌즈를 쓸 수 있는 국가가 됐다.

네이버는 한류 열풍의 여세를 몰아 자발적인 집단 지성을 생성하기에 좋은 '팬심'을 활용했다. 브이 라이브 자막 서비스인 'V Fansubs'는 글로벌 팬이라면 특별한 절차나 언어 제한 없이 편리하게 번역 작업에 참여할 수 있는 기능인데 2016년 베타 버전 출시 후, 141개국에서 약 6만 명의 팬 번역가가 참여해 약 55개 언어로 자막이 제작되는 등 큰 호응을 얻었다. V Fansubs 자막은 일반 예문보다 표현이 자연스러워 네이버 어학 사전 예문과 파파고의 학습 데이터로 활용되는 것은 물론, 10대들의 신조어까지 잘 반영되어 있어 그 가치가 점점 높아지고 있다.

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 번역기 문서는 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.