EUC-KR

그림으로 나타낸 EUC-KR 인코딩의 구조

EUC-KR은 KS X 1001와 KS X 1003을 사용하는 8비트 문자 인코딩, EUC의 일종이며 대표적인 한글 완성형 인코딩이기 때문에 보통 완성형이라고 불린다.

EUC-KR 인코딩은 다음과 같이 구성된다.

128보다 작은 바이트에 KS X 1003을 배당한다.
128보다 크거나 같은 바이트에 KS X 1001을 배당한다. 각 글자는 행과 열에 128을 더한 코드값을 사용하여 2바이트로 표현된다.

따라서 KS X 1001의 40-27에 배당된 "위"라는 글자는 EUC-KR에서 C0 A7라는 바이트 열로 표현된다.

KS X 1001에는 한글 채움 문자를 사용하여 규격의 문자 집합에 포함되지 않은 한글을 표현하는 확장 방법이 있지만, 대부분의 경우 이 방법은 EUC-KR에서 사용되지 않고 대신 CP949(코드 페이지 949)와 같은 다른 방법을 사용하여 KS X 1001 바깥의 현대 한글을 표현한다.

개요[편집]

EUC-KR은 대한민국의 산업표준 KS X 1001 (이전 명칭: KS C 5601)을 기반으로 하는 문자 인코딩 방식이다. EUC 계열 인코딩 중 하나로서, 한국어 환경에서 널리 사용되었으며, 대표적으로 웹 페이지, 이메일, 텍스트 파일 등에서 적용되었다. 유니코드(Unicode)가 보편화되기 전까지 한국어 디지털 문서 교환의 실질적인 표준 역할을 했다.

정식 명칭: Extended Unix Code for Korean
약어: EUC-KR
기반 표준: KS X 1001 (KS C 5601), KS X 1003 (US-ASCII)
출시 시기: 1980년대
주요 사용처: 웹 페이지 인코딩, 이메일, 텍스트 파일, 초기 윈도우 및 리눅스 한국어 환경

역사 및 개발 배경[편집]

개발 배경[편집]

한국어는 표음문자(한글)와 표의문자(한자)가 혼용되는 언어다. ASCII(미국 표준 문자 집합)만으로는 한국어를 표현할 수 없었기 때문에 다국어 처리 필요성이 대두되었다. EUC-KR은 이러한 요구에 맞춰 개발된 인코딩 방식으로, 한글 및 한자를 포함한 한국어 문자 세트를 효과적으로 표현하기 위해 설계되었다.

주요 역사[편집]

1987년: KS C 5601:1987 (현 KS X 1001:1992) 표준 제정
1990년대: UNIX 및 초기 Windows 운영 체제에서 광범위하게 채택
2000년대 초반: 인터넷 초창기 웹사이트 다수가 EUC-KR을 기본 인코딩으로 사용
2000년대 중후반 이후: UTF-8 및 유니코드로 점차 대체

국제 표준과의 관계[편집]

EUC-KR은 ISO/IEC 2022 호환 인코딩 방식이다. 국제적으로 EUC-CN(중국), EUC-JP(일본)과 함께 다국어 처리를 위한 표준 인코딩으로 사용되었다.

그러나 유니코드의 등장으로 다국어 인코딩 방식이 단일화되면서 EUC-KR의 활용도는 점차 감소하였다.

인코딩 구조[편집]

기본 구조

EUC-KR은 기본적으로 멀티바이트 인코딩이다.

ASCII 문자(영문 및 숫자): 1바이트 (7비트)
한글 및 한자 등 한글 완성형 문자: 2바이트

ASCII 영역

범위: 0x00 ~ 0x7F
영어, 숫자, 특수문자 등

KS X 1001 영역 (한글 완성형)

첫 번째 바이트: 0xA1 ~ 0xFE
두 번째 바이트: 0xA1 ~ 0xFE
총 2,350자의 한글 음절 + 4,888자의 한자 + 기호 포함

한글 완성형

EUC-KR은 "완성형" 인코딩 방식을 채택하고 있다. 즉, 모든 한글 음절이 이미 조합되어 있는 형태로 정의되어 있다.

예: "가"는 초성(ㄱ) + 중성(ㅏ) 조합이지만 EUC-KR에서는 단일 코드 포인트로 존재한다.

비표준 확장

일부 소프트웨어 및 플랫폼에서는 KS X 1001에 정의되지 않은 사용자 정의 문자 영역(PUA) 또는 비표준 확장을 사용하기도 했다. 대표적인 예로 Windows-949(확장 완성형, CP949) 가 있으며, EUC-KR의 범위를 확장하여 추가 한글 음절과 기호를 지원한다.

주요 특징[편집]

구분	설명
인코딩 방식	멀티바이트 (ASCII: 1바이트, 한글/한자: 2바이트)
문자 세트	KS X 1001 기반 완성형 한글, 한자, 기호
호환성	유닉스, 리눅스, 윈도우 등 다양한 플랫폼
확장성	한정적 (유니코드에 비해 부족)
표현력	약 2,350자 한글 음절 지원 (초성, 중성, 종성을 조합하지 않고 완성형으로 표현)

사용 예시[편집]

웹 페이지

초기 한국어 웹사이트들은 대부분 EUC-KR을 기본 인코딩으로 사용했다.

<meta http-equiv="Content-Type" content="text/html; charset=EUC-KR">

이메일

SMTP를 통해 텍스트를 전송할 때 EUC-KR로 인코딩하여 한국어 메일을 송수신하였다.

텍스트 파일

MS-DOS, Windows 초기 버전의 한국어 환경에서 EUC-KR 인코딩이 사용되었으며, Notepad와 같은 기본 텍스트 에디터에서도 지원되었다.

한계와 문제점[편집]

문자 집합의 한계

EUC-KR은 KS X 1001 표준을 기반으로 하기 때문에 현대 한국어에서 사용되는 모든 한글을 완벽히 표현하지 못한다. 특히, 고어, 방언, 학술적 용어 등에서 필요한 조합형 한글은 표현 불가능하다.

다국어 지원의 한계

한국어 외 다른 언어 지원이 제한적이기 때문에 다국어 환경에서 사용하기 어렵다. 영어와 한국어 이외 언어를 혼합하는 경우 문자 깨짐 현상이 발생할 수 있다.

유니코드 전환의 필요성

웹, 모바일 등 다양한 플랫폼이 등장하면서 유니코드(특히 UTF-8)의 보편화가 진행되었고, EUC-KR은 점차 구식 인코딩으로 간주되었다.

현대적 활용 및 유산[편집]

레거시 시스템

오늘날에도 일부 레거시 시스템에서는 EUC-KR이 사용된다.

오래된 웹사이트
산업용 기기
오래된 데이터베이스 및 ERP 시스템

웹사이트 호환성 유지

과거에 작성된 웹 페이지나 이메일을 정확히 표시하기 위해 브라우저 및 이메일 클라이언트는 여전히 EUC-KR을 지원한다.

EUC-KR ↔ UTF-8 변환 도구

현재는 대부분 UTF-8 인코딩이 표준이지만, EUC-KR로 저장된 파일이나 데이터베이스를 UTF-8로 변환하는 도구와 라이브러리가 존재한다.

iconv
nkf
Python, JavaScript 등 다양한 언어의 내장 인코딩 기능

기술적 분석[편집]

바이트 패턴

EUC-KR은 바이트 값의 범위에 따라 문자의 종류를 구분한다.

바이트 범위	의미
0x00–0x7F	ASCII 문자
0xA1–0xFE	한글, 한자, 기호 등 KS X 1001 문자

가변 길이 인코딩

문자에 따라 1바이트 또는 2바이트를 사용하는 가변 길이 인코딩 방식이다. 이는 메모리 효율성 측면에서는 장점이지만, 문자열 처리 시 복잡성을 증가시킨다.

호환성

EUC-KR은 EUC-JP, EUC-CN과 구조적으로 유사하여 다국어 환경에서

참고자료[편집]

"EUC-KR", 《위키백과》

같이 보기[편집]

이 EUC-KR 문서는 프로그래밍에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

[접기]개발 : 프로그래밍^□^■^⊕, 소프트웨어, 데이터, 솔루션, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

프로그래밍 언어	ASP • C 언어 • C++ • C# • CSS • D 언어 • HTML • HTML5 • JSP • PHP • R • XHTML • XML • XSLT • 고(Go) • 고급언어 • 기계어 • 다트 언어 • 델파이 • 러스트 • 루비 • 루아 • 리스프 • 리액트 • 리퀴디티 • 무브 • 미켈슨 • 베이직 • 브이비스크립트 • 비주얼 C++ • 비주얼베이직(VB) • 비주얼베이직닷넷(VB.NET) • 솔리디티 • 스몰토크 • 스위프트 언어 • 스칼라 • 스크립트 언어 • 알골 • 어셈블리 • 언리얼스크립트 • 얼랭 • 에이잭스(Ajax) • 엠에프씨(MFC) • 오브젝티브-C • 오브젝트 파스칼 • 오카멜 • 웹어셈블리(WASM) • 이와즘(eWASM) • 자바 • 자바스크립트 • 저급언어 • 제이슨(JSON) • 제이쿼리(jQuery) • 카멜 • 코볼 • 코틀린 • 콜드퓨전 • 타입스크립트 • 파스칼 • 파워스크립트 • 파이썬 • 펄(Perl) • 포트란 • 프로씨(Pro-C) • 피엘에스큐엘(PL/SQL) • 피엘원(PL/I) • 하스켈

개발방법론	CBD 개발방법론 • EA • 구조적 개발방법론 • 객체지향 개발방법론 • 라이브러리 • 람다 아키텍처 • 모듈 • 모듈화 • 벤치마킹 • 산출물 • 소프트웨어 개발방법론 • 스크럼 • 스프린트 • 아키텍처 • 아키텍트 • 애자일 • 웹개발방법론 • 정보공학 개발방법론 • 컴포넌트 • 테일러링 • 폭포수 모델 • 프로젝트 • 프로토타입 • 피드백

코딩	EUC-KR • UTF-8 • 값 • 글루웨어 • 노팔로우 링크 • 두팔로우 링크 • 디버깅 • 디코딩 • 마크업 • 버그 • 부트스트랩 • 세이브포인트 • 소스코드 • 시큐어코딩 • 아스키 • 액티브엑스 • 오픈소스 • 유니코드 • 인코딩 • 재컴파일 • 주석 • 컴파일 • 컴퓨터 프로그램 • 코드 • 코딩 • 태그 • 테스트 • 테이블 • 텍스트 • 파서 • 파싱 • 퍼블리싱 • 퓨니코드 • 하드코딩 • 하이퍼링크 • 하이퍼텍스트

프로그래밍	C 명령어 • 객체 • 객체지향 • 객체지향 프로그래밍 • 거짓 • 관계연산자 • 기본형 변수 • 널 • 논리 • 논리연산 • 논리연산자 • 다중상속 • 다형성 • 대입 • 대입문 • 대입연산자 • 더블 • 도스 명령어 • 디폴트 • 레지스터변수 • 루프 • 리눅스 명령어 • 리턴 • 매개변수(파라미터) • 메모리 주소 • 메소드 • 멤버 • 명령문 • 명령어 • 무한루프 • 문자 • 문자열 • 바이트 • 반복문 • 배열 • 변수 • 분기 • 분기문 • 불린 • 브레이크 • 비교연산자 • 비트연산자 • 산술연산자 • 상속 • 상수 • 생성자 • 선언 • 선언문 • 설정자 • 속성 • 스위치 • 스태틱 • 시프트연산자 • 실행 • 실행문 • 어노테이션 • 에코 • 역참조 • 연산 • 연산문 • 연산자 • 오버로딩 • 오버라이딩 • 외부변수 • 윈도우 명령어 • 유닉스 명령어 • 인스턴스 • 인스트럭션 • 인클루드 • 인터페이스 • 임포트 • 입력 • 입력문 • 입출력 • 입출력문 • 자동변수 • 자료형(데이터 타입) • 자바 명령어 • 자바 예약어 • 자바 컬렉션 • 전역변수 • 접근자 • 접근제어자 • 정보은닉 • 정수형 • 정의 • 정적변수 • 정적함수 • 제어 • 제어문 • 제어자 • 조건 • 조건문 • 조건연산자 • 주소 • 증감연산자 • 지역변수 • 참 • 참조 • 참조변수 • 초기화 • 추상메소드 • 추상클래스 • 추상화 • 출력 • 출력문 • 캡슐화 • 케이스 • 클래스 • 타입 • 파이널 • 패키지 • 퍼블릭 • 포인터 • 프라이빗 • 프로텍티드 • 필드(멤버변수) • 함수 • 환경변수

명령어	abstract • array • boolean • break • byte • case • char • continue • default • double • do while • echo • elif • else • else if • false • final • float • for • gosub • goto • if • if else • import • include • int • long • long long • null • print • printf • println • private • protected • public • return • scanf • short • stdio.h • static • string • switch • temp • then • true • unsigned • void • while

디자인패턴과 템플릿	구조패턴 • 동시성패턴 • 동시실행패턴 • 모델-뷰-컨트롤러 패턴 • 상태패턴 • 생성패턴 • 싱글톤패턴 • 아키텍처패턴 • 전략패턴 • 커맨드패턴 • 타임리프 • 템플릿 • 행동패턴

프로그래밍 인물	귀도 반 로썸 • 그레이스 머레이 호퍼 • 니클라우스 비르트 • 댄 브릭클린 • 더그 커팅 • 데니스 리치 • 리누스 토르발스 • 리처드 그린블라트 • 마거릿 해밀턴 • 마크 앤드리슨 • 빈트 서프 • 빌 게이츠 • 빌 조이 • 스티브 잡스 • 에이다 러브레이스 • 제임스 고슬링 • 척 벤턴 • 켄 톰슨 • 팀 패터슨

위키 : 인공지능, 개발, 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인물, 행사, 일반

인코딩 방식	특징	한국어 지원 여부
EUC-KR	완성형 한글, 멀티바이트 인코딩	✅
CP949 (Windows-949)	EUC-KR 확장판, 추가 한글 지원	✅
UTF-8	유니코드 인코딩, 전 세계 문자 지원	✅
UTF-16	유니코드 인코딩, 다국어 지원, 고정폭	✅
ASCII	영문 전용	❌

위키원

이름공간

변수

보기

더 보기

검색