문자열
문자열(string)이란 기호의 순차 수열을 말한다.
목차
개요
C언어에서는 큰따옴표("")를 사용해 표현되는 문자열을 문자열 상수(string constant)라고 한다. 상수라고 표현하는 이유는 해당 문자열이 이름을 가지고 있지 않으며, 문자열의 내용 또한 변경할 수 없기 때문이다. C언어에서 문자열(string)은 메모리에 저장된 일련의 연속된 문자(character)들의 집합을 의미한다. 따라서 문자형 배열을 선언하면 이 배열이 곧 문자열 변수가 된다.[1] 문자열에 대한 예를들면 'A'는 문자이지만, 'ABCD'는 문자열이다. 즉 문자가 여러개 모인것을 지칭한다. 문자는 char형 변수에 저장이 된다. 간단한 코드로 보면,
char a = 'A'; char b = 'D';
와 같이 저장하면 된다. char형은 1바이트로 할당되며 문자는 1바이트로 저장이 가능하다는 말이다.
특징
char형 변수로 문자열을 저장하기에는 당연히 무리가 따른다. char형 변수는 문자 1개만을 저장하기 위한 변수이기 때문이다. 문자열을 저장하기 위해서는 char형 배열이 필요하다. 예를 들어 5글자의 문자를 저장하고자 한다면 크기가 5인 char형 배열을 생성하여 저장하면 된다. 가운데 보이는 것처럼 1바이트당 한글자가 저장이 되며 배열의 크기는 지정이 가능하다. 문자열은 이처럼 char형 배열로 저장이 가능하다.[2]
문자상수/문자열상수
문자상수는 'A'와 같이 ' ' 로 표현한다. 상수라고 해서 숫자만 있는 것이 아님을 유의하자. 문자 상수란 문자의 값이며 변하지 않는 수이다. 예를 들어서 'A'라고 하면 이 A는 문자값이다. 하지만 char A; 라고 하면 이 A는 문자값이 아니라 문자를 저장하기 위한 변수다. A라고 하는 이름은 변하지 않지만 그 안에 들어가는 문자상수(값)은 언제든 변할수 있기 때문이다. 유사하게 문자열상수란 문자열값을 의미하며, " " 로 표현한다. "Hello", "Be Happy~" 와 같은 것들이 문자열상수이다.[2]
문자열의 초기화
문자열을 초기화하는 방법(문자배열의 초기화)에는 3가지 정도 생각해볼 수 있다.
char str[6]= { 'H', 'e', 'l', 'l', 'o'. '\0'}; char str[6]= "Hello"; char str[]= "Hello";
A는 크기가 6인 문자배열을 선언하고 각 자리에 들어갈 문자를 순서대로 지정해주는 것이다. B는 크기가 6인 문자배열을 선언함과 동시에 문자열을 대입하는 방법이다. " " 로 표현해주면 되겠다. 주의할점은 크기가 6이므로 이 크기를 벗어나는 문자열상수는 초기화할 수 없다. C는 문자열상수로 초기화하지만 배열의 크기를 지정하지 않는다. 이런경우 문자열상수의 크기에 따라 자동으로 str배열의 크기를 지정해주게된다. C가 문제도 없고 가장 편해보이지만, 문자열이 긴 경우에 개발자가 그 크기를 직접 계산해서 알고 있어야 한다는 불편함이 따른다. 직관적으로 크기도 알고 문자열도 알수 있는 B가 가장 무난하다고 생각할 수 있겠다.[2]
문자열의 출력
저장한 문자열을 출력에 대해 printf 함수만을 예로 들어 설명한다. printf함수를 사용할때는 우리는 출력되는 형태를 지정하기 위해서 형식지정문자 또는 서식문자 라고 불리우는 %로 시작하는것을 붙힌다. 예를 들어 %d는 십진수정수 형태로 출력하라는 %x는 16진수, %lf는 double형타입, %o, %u 등등 여러가지가 지정되어 있다. 하지만 우리의 관심사는 문자와 문자열이므로 여기에만 포커싱을 하고 설명한다. 문자는 %c로 출력한다. 이부분은 아마 다 알고 있을 것이다. 문자열은 %s로 출력하면 된다.[2]
char c ='A'; char str[10]= "ILoveYou";
이제 출력하려면,
printf("%c", c); printf("%s", str);
%s로 지정을 하면 되고 자 그런데 이에 대응되는 변수부분이 str 즉 배열의 이름이 된다. 그런데 가만히 보니 str은 배열의 이름이고, 배열의 이름은 바로 이 배열 전체를 대표하는 이름이자 첫번째 주소값을 가지고 있는 포인터의 성질을 갖는다고 하였다. 사실 printf도 함수이니 저 str은 함수의 매개변수가 되는 것이다. 자 printf함수가 문자열을 출력할때는 이 문자열이 저장되어 있는 가장 첫번째 주소값을 주면 출력해준다는 사실을 알 수 있다. 즉 %s를 이용해 문자열을 출력할때 이에 대응되는 우측부분에 들어가는 데이터의 타입은 바로 char* 이다.[2]
NULL 문자('\0')
NULL 이라는 문자는 상징적으로 사용되며 사실상 그 값은 0이다. 문자는 역슬래쉬0 = \0으로 표현한다. 문자열은 항상 마지막 공간에 이 널문자 1개를 포함하고 있다. 만약 'ILoveYou'를 저장하고 싶다면 실제 문자는 8개지만 마지막에 널문자가 추가되어 있어야만 한다. 3번의 초기화 방법에서 A는 각 메모리공간 하나하나를 지정하고 있기때문에 반드시 마지막에 널문자를 넣어주어야 한다. B와 C같은 경우는 문자열 상수로 초기화되므로 자동으로 들어가게 된다. 즉 안보이지만 분명 1바이트를 차지하고 있는 널문자가 존재하고 있는 것이다. 따라서 우리는 char형 배열에 문자를 저장하고 싶다면 반드시 문자의 갯수 + 1에 해당하는 크기를 할당해놓아야 제대로 된 저장이 가능하다.[2] 문자형 배열로 선언된 문자열 변수는 문자열의 끝을 프로그램에 따로 알려주어야 한다. 그래야만 프로그램이 실제 문자열에 속한 값과 그 외의 쓰레깃값을 구분할 수 있기 때문이다. 따라서 C언어에서는 문자열에 속한 데이터가 끝나면, 문자열의 끝을 의미하는 문자를 하나 더 삽입해 준다. 이 문자를 널(NULL) 문자라고 하며, '\0'으로 표시하고 아스키코드값은 0이다.[1]
문자열 이스케이프 시퀀스
이스케이프 시퀀스 | 문자 이름 | 유니코드 인코딩 |
\' | 작은따옴표 | 0x0027 |
\" | 큰따옴표 | 0x0022 |
\\ | 백슬래시 | 0x005C |
\0 | Null | 0x0000 |
\a | 경고 | 0x0007 |
\b | 백스페이스 | 0x0008 |
\f | 폼 피드 | 0x000C |
\n | 줄 바꿈 | 0x000A |
\r | 캐리지 리턴 | 0x000D |
\t | 가로 탭 | 0x0009 |
\v | 세로 탭 | 0x000B |
\u | 유니코드 이스케이프 시퀀스(UTF-16) | \uHHHH (범위: 0000-FFFF; 예제: \u00E7 “ç” =) |
\U | 유니코드 이스케이프 시퀀스(UTF-32) | \U00HHHHHH (범위: 000000-10FFFF; 예: \U0001F47D = “👽”) |
\x | 길이가 변하는 경우를 제외하고 “\u”와 유사한 유니코드 이스케이프 시퀀스한다. | \xH[H][H][H] (범위: 0-FFFF; 예: \x00E7 나 \x0E7 또는 \xE7 "ç" =) |
형식 문자열
형식 문자열은 콘텐츠가 런타임에 동적으로 결정되는 문자열이다. 형식 문자열은 문자열 내의 중괄호 안에 ‘보간된 식’이나 자리 표시자를 포함하여 만들어진다. 중괄호({...}) 안의 모든 내용은 런타임에 하나의 값으로 확인되고 형식화된 문자열로 출력된다. 형식 문자열을 만드는 두 가지 방법은 문자열 보간 및 복합 형식 지정이다.[3]
자바 문자열
자바 문자열은 객체이고 문자열 리터를은 큰 따옴표로 묶어 표시한다. 문자열 리터럴도 객체이므로 바로 메소드를 호출할 수 있다.[4]
문자열 연결
자바 문자열을 연결하는데는 + 연산자를 사용한다.
String h = "Hello "; String j = "Java!"; String text = h + j; System.out.println(text);
결과) Hello Java!
자바에서 문자열에 연산을 사용하는데 있어서 주의해야 할 점이 있는데, 자바 문자열은 불변(immutable)이라는 점이다. 문자열에 연산을 가하면 현재 문자열을 변경되지 않고 변경된 새 문자열이 만들어져서 반환된다.[4]
String h = "Hello Java!"; String t = h.substring(0, 5); System.out.println(h); System.out.println(t);
결과) Hello Java! Hello
많은 문자열을 연결할 경우에는 성능문제로 인해 + 연산자 보다는 스트링빌더(StringBuilder) 객체를 사용한다. 이전에는 스트링빌더(StringBuilder) 객체를 사용했었는데, JDK 1.5 부터 스트링빌더(StringBuilder) 객체가 나와서 이것을 사용한다. 스트링버퍼(StringBuffer)와 스트링빌더(StringBuilder) 객체의 차이점은 스트링버퍼(StringBuffer) 객체의 메소드는 싱크로나이즈드(synchronized) 되어 있어서 다중 쓰레드에서 안전하고, 스트링빌더(StringBuilder)는 싱크로나이즈드(synchronized) 되어 있지 않아서 다중 쓰레드 환경에서는 사용할 수 없지만 싱글 쓰레드 환경에서 동기화 오버헤드가 없으므로 더 빠르게 동작한다. 그래서 대부분의 경우 스트링빌더(StringBuilder)를 사용한다.[4]
문자열 비교
String 객체를 비교할 때는 equals() 메소드를 사용한다. 기본 타입이 같은지 비교할때 사용되는 == 연산자를 사용하여 객체를 비교하게 되면 객체가 존재하는 메모리상의 주소가 같은지를 비교하게 되어서 잘못된 결과를 보게 될 것이다. 객체인 String 을 비교할 때는 equals() 메소드를 사용한다.[4]
String h = "Hello "; String j = "Java!"; if(h.equals(j)) { System.out.println("h와 j는 같은 내용을 가지는 문자열 입니다."); }
문자열을 특정 문자열 리터럴과 비교할 경우가 있다. 이 경우 "".equals() 처럼 비교하고자 하는 리터럴의 메소도를 사용하는것이 안전하다. 아래처럼 사용할 경우 h가 null이면 NullPointerException이 발생할 수 있다.
if("Hello".equals(h)) { ... }
문자열을 사전순으로 정렬했을때의 우선 순위를 비교하려면 compareTo() 메소드를 사용한다.
String year = "2018" int result = "2019".compareTo(year); if(result > 0) { // 현재 년도 보다 큼. } else if(result == 0) { // 현재 년도와 같음. } else if(result < 0) { // 현재 년도 보다 작음. }
문자열 메소드
자주 사용하는 문자열의 메소드들은 아래와 같다.[4]
- char charAt(int index) : 지정된 인덱스의 한 문자를 반환한다.
- int compareTo(String anotherString) : 두 문자열의 사전적 우선 순위 비교.
- int compareToIgnoreCase(String str) : 대소문자를 구분하지 않는 사전적 비교.
- boolean contains(CharSequence s) : 문자열을 포함하고 있는지 확인한다.
- boolean endsWith(String suffix) : 문자열의 끝이 인자로 주어진 문자열인지 확인한다.
- boolean equals(Object anObject) : 같은 내용의 문자열인지 비교한다.
- boolean equalsIgnoreCase(String anotherString) : 대소문자를 구분하지 않고 비교한다.
- byte[] getBytes() : 플랫폼 기본 캐릭터셋으로 인코딩된 바이트 배열을 링크한다.
- byte[] getBytes(String charsetName) : 인자로 주어인 캐릭터 셋으로 인코딩된 바이트 배열을 반환한다. 캐릭터셋을 변환하기 위해서 주로 사용됌.
- int indexOf(int ch) : 인자로 주어진 문자가 있는 위치를 반환한다. 없으면 음수를 반환한다.
- boolean isEmpty() : 빈문자열 인지 확인한다.
- int lastIndexOf(int ch) : 인자로 주어진 문자가 마지막으로 나타난 위치를 반환합니다. 없으면 음수를 반환한다.
- int length() : 문자열의 길이를 반환한다.
- boolean matches(String regex) : 인자로 주어진 정규식에 매치되는지 확인한다.
- String replace(char oldChar, char newChar) : 문자열에서 첫번째 인자의 문자를 두번째 인자의 문자로 바꾼다.
- String replace(CharSequence target, CharSequence replacement) : 문자열을 바꾼다.
- String replaceAll(String regex, String replacement) : 정규식을 사용하여 매치되는 문자열을 바꾼다.
- String[] split(String regex) : 정규식에 매치되는 부분을 구분자로 문자열을 분할 한다.
- String[] split(String regex, int limit) : 문자열 분할시 두번째 인자로 마지막 빈 요소 처리 및 분할할 갯수를 지정한다.
- boolean startsWith(String prefix) : 인자로 주어진 문자열로 시작하는지 확인한다.
- String substring(int beginIndex) : 문자열에서 인자로 주어인 인덱스 이후의 문자열을 추출한다.
- String substring(int beginIndex, int endIndex) : 인자로 주어진 인덱스 사이의 문자열을 반환한다.
- String toLowerCase() : 소문자로 변경한다.
- String toUpperCase() : 대문자로 변경한다.
- String trim() : 문자열 앞, 뒤의 whitespace를 제거한다.
- static String valueOf(int i) : 인자로 주어진 타를 타입의 데이터를 문자열로 변경하는 정적 메소드다. 모든 원시 타입에 대해 오버로딩된 메소드가 있다.
각주
참고자료
- 〈문자열〉, 《위키백과》
- SLL, 〈C언어 문자열(string) 기본개념〉, 《개인블로그》, 2015-09-22
- TCP School, 〈문자열〉, 《TCP School》
- OffByOne, 〈자바 문법 - 문자열(String 객체) 다루기〉, 《개인블로그》, 2019-08-11
- Microsoft, 〈문자열〉, 《Microsoft》, 2019-06-27
같이 보기
{{프로그래밍|검토 필요}|