데이터라벨링
데이터라벨링(data labeling)은 인공지능(AI) 모델을 학습시키기 위해 데이터를 구조화하고, 각 데이터에 적절한 태그나 라벨을 부여하는 작업이다. 이 과정은 AI가 특정 패턴이나 정보를 학습할 수 있도록 데이터를 체계적으로 정리하는 것을 의미한다. 예를 들어, 텍스트, 이미지, 음성, 비디오 등 다양한 유형의 데이터에 대해 라벨링이 이루어질 수 있다.
목차
상세[편집]
데이터라벨링은 딥러닝(Deep Learning) 모델과 함께 성장했다. 딥러닝 기술이 여러 분야에서 활용되며, 이에 필요한 데이터 라벨링의 수요도 증가해 왔다. 데이터 라벨링과 딥러닝의 관계를 알기 위해서는 우선 딥러닝이 어떤 기술인지 이해해야 한다. 딥러닝은 예시 데이터를 기반으로 한 인공 신경망(Artificial Neural Network, ANN) 형태의 학습 과정을 통해 복잡한 문제를 해결하는 인공지능(AI) 기술이다. 구체적으로 살펴보면, 딥러닝 모델은 먼저 예시 데이터를 학습하는 훈련 작업을 거친다. 그 이후 훈련된 인공 신경망을 활용해 특정 데이터를 평가하고 이 결과를 보고한다. 개발자는 입력 데이터와 예상 결과를 두고 가중치를 조정하거나 이에 적절한 데이터를 점진적으로 더하며, AI는 데이터를 평가하는 과정을 수백 또는 수천 번 반복한다. 이를 토대로 AI는 의사결정이나 예측을 수행할 수 있는 중요한 패턴 및 규칙을 학습하게 된다.
학습에 투입되는 데이터를 가공하는 작업이 바로 데이터 라벨링이다. 이미지, 영상, 텍스트 등의 데이터를 AI가 학습할 수 있도록 사람이 가공 도구를 활용해 목적에 맞게 입력하는 것이다. 단순 원시 데이터의 경우, AI 모델에서 어떠한 성격을 가지고 있는 것인지 식별할 수 없다. 가공 작업을 통해 정보를 인식할 수 있도록 데이터에 태그를 붙이는 역할이 데이터 라벨링이다.
데이터 라벨링을 설명하는 대표적인 예시는 고양이 사진이다. 사람이 고양이 사진을 보고, 사진 속 대상을 고양이라고 인식하는 일은 상당히 직관적이다. 거의 모든 사람은 별다른 설명이 없더라도 사진 속 동물이 고양이라는 사실을 알 수 있다. 하지만 AI는 그렇지 않다. 아무런 학습을 거치지 않았다면, 사진 안에 담긴 동물이 고양이인지 알아보지 못한다. 여기서 딥러닝 모델에 적절한 학습을 제공하기 위해 사진에 고양이와 관련된 정보를 입력하는 것이 데이터라벨링의 역할이다. AI 모델은 많은 데이터를 학습함으로써 사진 속 고양이를 이해하는 패턴과 규칙을 얻게 된다. 이 과정에서 컴퓨터가 사물을 구분할 수 있도록 사진에 일일이 정보를 입력하는 과정이 필요한데, 이것이 데이터 라벨링이다. 가공된 데이터로 훈련을 거친 AI는 사용자가 올린 고양이 사진을 보고 내용을 이해할 수 있게 된다.
예시로 든 고양이 사진의 경우뿐만 아니라 텍스트, 이미지, 음성 등 다양한 정형·비정형 데이터를 AI에 딥러닝 방식으로 학습시킬 수 있다. 이렇게 만들어진 AI 모델은 컴퓨터 비전, 음성 인식, 자연어 처리, 자율주행 등 많은 분야에서 혁신적인 기술을 가능하게 만들었다. 그리고 많은 기업들이 이러한 혁신적인 기술을 도입하면서 산업 분야와 관계없이 데이터 라벨링에 대한 수요는 증가해 왔다.[1]
종류[편집]
데이터 라벨링은 인공지능(AI) 기술이 데이터를 이해하고 학습할 수 있도록 데이터를 체계적으로 분류하고 태그를 부여하는 작업이다. 데이터의 종류에 따라 라벨링 방법과 활용 분야가 다르다. 주요 데이터 라벨링의 종류는 텍스트 라벨링, 음성 라벨링, 이미지 라벨링, 동영상 라벨링이 있으며, 각각의 활용 사례는 다음과 같다.
텍스트 라벨링[편집]
텍스트 데이터는 문자, 단어 또는 문장 등의 텍스트 형태로 구성된 데이터로서, 주로 자연어 처리 알고리즘의 훈련과 평가에 사용된다. 이로 인해 기계가 사람처럼 글을 이해하고 해석하며 조작하도록 도울 수 있다. 2020년 인공지능 및 머신러닝 현황 보고서에 따르면 기업의 70%가 텍스트 데이터 라벨링에 의존하고 있다. 텍스트 데이터 라벨링은 가장 일반적으로 사용되는 데이터 유형으로 감정, 의도 및 쿼리와 같은 광범위한 라벨링이 포함된다.
- 감정 분석 : 태도, 감정 및 의견을 평가하는 것을 의미하며 올바른 학습 데이터를 확보하는 것이 중요하다. 학습 데이터를 얻기 위해 사람 작업자는 모욕적이거나 민감한 키워드, 또는 신조어(비속어)에 태그를 직접 라벨링 함으로써 SNS나 전자상거래와 같은 웹 플랫폼의 감성을 평가하고 콘텐츠를 조정하는 역할을 맡는다.
- 의도 데이터 라벨링 : 인간-머신 인터페이스의 대화가 증가하면서, 자연어와 사용자 의도를 모두 이해할 수 있는 머신의 능력이 강조되고 있다. 의도 데이터 라벨링은 의도를 요청이나 명령, 예약, 추천, 확인 등의 주요 범주로 구분한다.
- 시맨틱 라벨링 : 제품 목록을 개선하고 고객이 원하는 제품을 찾을 수 있도록 한다. 이를 통해 고객은 더 쉽게 구매자로 전환된다. 시맨틱 라벨링 서비스는 제품 이름이나 검색 쿼리 내의 다양한 구성 요소에 태그를 지정함으로써 알고리즘을 학습시킨다. 이는 개별 부분을 인식하고 전반적인 검색 관련성을 향상하는 데 도움이 된다.
- 개체명 인식 : 많은 양의 수동 라벨링 된 학습 데이터를 필요로 한다. 에펜의 개체명 인식 기능은 광범위한 케이스에 활용된다. 전자상거래에서 다양한 주요 설명자를 식별하고 태그를 지정하거나 SNS에서 사람, 장소, 회사, 기관, 제목과 같은 개체에 태그를 지정할 수 있도록 하여 더 나은 타겟팅 광고 콘텐츠를 지원할 수 있다.[2]
음성 라벨링[편집]
음성 데이터는 사람이 발화하는 음성 신호의 기록으로서, 주로 오디오 형식으로 저장되며 음성인식, 음성 합성, 화자 인식 등과 같은 음성 관련 기술 개발과 훈련에 사용된다. 음성 라벨링은 음성 데이터를 텍스트로 변환하고, 특정 단어나 구절에 태그를 부여하는 작업이다. 음성 데이터 라벨링은 음성 데이터의 전사 및 타임스탬프를 의미한다. 이때, 음성 데이터는 언어, 방언 및 화자에 대한 인구 통계학적 식별과 특정 발음 및 억양의 전사를 포함한다. 음성 라벨링은 각각의 케이스마다 달라지며 구체적인 접근 방식이 필요한 사례들도 있다. 예를 들어, 보안이나 비상 핫라인 기술 애플리케이션의 경우, 공격적인 음성 표시자나 유리 깨지는 소리와 같은 비음성 소리에 태그를 지정해야 한다.
- 화자 구분 : 음석 파일 속 화자가 동일한 인물의 목소리인지, 그 인물의 성별, 나이 등을 구별하는 작업이다.
- 전사 : 음성 파일 속 음성을 그대로 받아쓰는 작업이다. 대화 내용을 들리는 그대로 받아쓰는 작업을 하게 되는데 의료 현장에서 의료진이 구도로 기록되는 판독 내용을 실시간으로 문서화할 때 사용되고 있다.
- 감정태깅 : 발화자가 내포하고 있는 감정을 파악하여 포괄적인 감정으로 나타낸다.[3]
이미지 라벨링[편집]
이미지 데이터는 카메라로 촬영한 데이터다. 이 데이터는 기계가 인간의 눈처럼 보고 인지하고 이해할 수 있게 하는 분석시스템인 컴퓨터 비전 분야의 인공지능을 훈련하는 데 사용된다. 이 데이터를 통해 기계는 인식, 판단 등의 기준을 갖게 되어 길을 찾거나 사물을 알아볼 수 있게 된다. 이미지 데이터 라벨링은 이미지 해석을 위한 머신러닝 솔루션과 다양한 응용 분야(컴퓨터 비전, 로봇 비전, 안면 인식)에 있어서 필수적이다. 이러한 솔루션을 학습시키기 위해서는 식별자, 캡션 또는 키워드 형식으로 메타데이터를 이미지에 할당해야 한다. 자율주행차에 사용되는 컴퓨터 비전 시스템에서부터, 농산물을 선별하고 분류하는 머신, 건강 상태를 자동으로 식별하는 의료 애플리케이션에 이르기까지 대량의 라벨링 이미지를 필요한 많은 케이스들이 있다. 이때 이미지 라벨링은 이러한 시스템을 효과적으로 학습하여 정밀도와 정확도를 높인다.
이미지 라벨링은 사용자가 상호 작용하는 많은 인공지능 제품의 기반이 되며 컴퓨터 비전에서 가장 필수적인 프로세스 중 하나다. 이미지 라벨링에서 작업자는 태그 또는 메타데이터를 사용하여 AI 모델이 인식하도록 학습하려는 데이터의 특성을 식별한다. 이러한 태그가 지정된 이미지는 라벨링 되지 않은 새로운 데이터가 제시될 때 이러한 특성을 식별하도록 컴퓨터를 훈련시키는 데 사용된다. 이미지 라벨링은 컴퓨터가 이해할 수 있는 방식으로 이미지에 대한 여러 가지 예시를 제공한다. 따라서 오늘날 이미지 데이터 가용성이 증가함에 따라 이미지 라벨링에 의존하는 프로젝트의 수가 기하급수적으로 증가하게 됐다. 이 머신러닝 영역 내에서 작업하기 위해서는 포괄적이고 효율적인 이미지 라벨링 프로세스를 생성하는 것이 점점 더 중요해지고 있다.
- 분류(Classification) : 이미지 라벨링을 위한 가장 쉽고 빠른 방법으로 이미지에 하나의 태그만 적용한다. 예를 들어 식료품점 선반의 일련의 이미지를 살펴보고 분류하고 어떤 것이 탄산음료가 있는지 없는지 식별할 수 있다. 이 방법은 위의 예와 같은 추상적인 정보를 캡처 하거나 자동차가 사진에서 시간을 캡쳐 하거나 하는 이미지 필터링에 적합하다. 분류는 하나의 높은 수준의 라벨링을 제공하는 가장 빠른 이미지 라벨링이지만 이미지 내의 개체가 있는 위치를 나타내지 않는다는 단점이 있다.
- 객체 감지(Object Detection) : 객체 감지를 사용하면 이미지에서 라벨링 해야 하는 특정 개체가 라벨링 작업자에게 제공된다. 따라서 이미지가 탄산음료가 포함된 것으로 분류되면 이미지 내에서 탄산음료가 있는 위치를 보여주거나 특히 주황색 탄산음료가 있는 위치를 찾고 있는 경우 한 단계 더 나아간다. 객체 감지는 상자나 선의 사용에서 겹침을 허용하기 때문에 가장 정확한 방법은 아니다. 하지만 아직까지 가장 일반적으로 사용되며 상대적으로 빠른 데이터 라벨링이 가능하다.
- 시맨틱 분할 : 이미지의 모든 구성 요소가 하나의 클래스에만 속하도록 하여 객체 감지의 중첩 문제를 해결한다. 일반적으로 픽셀 수준에서 수행되는 이 방법에서는 작업자가 각 픽셀의 범주(예: 보행자, 자동차 또는 표지판)를 할당해야 한다. 이는 AI 모델이 특정 물체가 가려져 있어도 인식하고 분류하는 방법을 가르치는 데 도움이 된다. 예를 들어 이미지의 일부를 가로막는 쇼핑 카트가 있는 경우 시맨틱 분할을 사용하여 주황색 탄산음료가 픽셀 수준까지 어떻게 보이는지 식별하여 모델이 여전히 주황색임을 인식할 수 있도록 할 수 있다.
- 랜드마크 라벨링 : 작업자가 포즈 포인트 어노테이션을 사용하여 눈, 코, 입과 같은 특성을 표시하는 방식이다. 얼굴인식에 특별히 사용된다.[2]
동영상 라벨링[편집]
영상 데이터는 카메라로 동영상을 촬영한 데이터다. 이 데이터는 기계가 인간의 눈처럼 보고 인지하고 이해할 수 있게 하는 분석시스템인 컴퓨터 비전 분야의 인공지능을 훈련하는 데 사용된다. 이 데이터를 통해 기계는 인식, 판단 등의 기준을 갖게 되어 길을 찾거나 사물을 알아볼 수 있게 된다. 사람이 직접 라벨링 한 데이터는 성공적인 머신러닝의 필수 요소다. 작업자는 컴퓨터와 달리 주관성을 갖고 의도를 이해하고 모호함에 대처할 수 있다. 예를 들어, 검색엔진 결과의 관련성 여부를 결정할 때는 합의를 위해 다수의 의견이 필요하다. 컴퓨터 비전 또는 패턴 인식 솔루션을 학습할 때 이미지에서 교통 표지판이나 나무가 포함된 픽셀의 윤곽을 그리는 것과 같이 특정 데이터를 식별하고 주석을 추가하려면 역시나 작업자가 필요하다. 이 구조화된 데이터를 활용하여 머신은 테스트 및 생산에서 관계를 인식하는 방법을 학습하게 된다.
- 단일 이미지 방식 : 오토 라벨링 툴 도입 이전의 동영상 라벨링은 그리 효율적이지 않았다. 이전에는 단일 이미지 방법을 사용하여 동영상에서 모든 프레임을 추출한 다음 표준 이미지 라벨링 기술을 사용하여 이미지로 어노테이션을 달았다. 30fps 동영상은 분당 1,800 프레임을 포함한다. 따라서 이 프로세스는 많은 이미지 데이터에 라벨링 추가하는 것만큼 시간과 비용이 많이 든다. 또한 하나의 개체가 한 프레임에서는 한 가지로 분류되고 다음 프레임에서는 다른 것으로 분류될 수 있으므로 오류가 발생할 가능성이 있다.
- 연속 프레임 방식 : 오토 라벨링 툴을 활용한 연속 프레임 방법을 통해 동영상 라벨링 프로세스가 간소화되고 있다. 컴퓨터는 캡처된 정보의 연속성과 흐름을 유지하면서 개체와 해당 위치를 프레임별로 자동으로 추적한다. 컴퓨터는 광학 흐름과 같은 연속 프레임 기술을 사용하여 이전 프레임과 다음 프레임의 픽셀을 분석하고 현재 프레임의 픽셀 움직임을 예측한다. 높은 수준의 컨텍스트를 사용하여 컴퓨터는 동영상 시작 부분에 있고 몇 프레임 동안 사라졌다가 나중에 다시 나타나는 개체를 정확하게 식별할 수 있다. 단일 이미지 방법을 사용하는 경우, 동일한 개체가 나중에 다시 나타날 때 다른 개체로 잘못 식별할 수 있다. 또한 캡처된 동영상(예: 감시에 사용되는 영상)이 저해상도일 때 문제가 발생할 수 있다. 이를 해결하기 위해 엔지니어는 개체 식별하고 프레임 전체에서 컨텍스트를 더 잘 활용하기 위해 광학 흐름과 같은 보간 도구를 개선하기 위해 노력하고 있다.[2]
과정[편집]
데이터 라벨링은 1) 데이터 수집 2) 라벨링 작업 환경 설정 3) 데이터 샘플 선정 4) 라벨링 가이드 설정 5) 데이터 라벨링의 과정으로 진행된다.
- 데이터 수집 : 텍스트, 비디오, 음성 등 라벨링 할 데이터를 수집한다.
- 라벨링 작업환경 설정 : 작업의 유형과 요구사항에 맞춰 적절한 라벨링 도구를 선택하고, 데이터를 라벨링하며 품질 관리를 담당하는 팀을 구성하는 등의 작업을 진행한다.
- 데이터 샘플 선정 : 대규모 데이터 세트에서는 초기에 데이터 샘플을 선정하여 라벨링을 시작하고, 데이터 샘플링을 통해 데이터 품질을 평가한다.
- 라벨링 가이드 설정 : 라벨링 된 데이터의 일관성 유지 및 모델의 정확성 향상을 위해 어떤 라벨을 사용해야 하는지, 어떤 방식으로 수행해야 하는지 등의 내용이 포함된 라벨링 가이드를 설정한다.
- 데이터 라벨링 : 라벨링 가이드를 바탕으로 라벨링 도구를 사용해 데이터에 적절한 라벨을 할당한다.[4]
품질 향상 방법[편집]
데이터 라벨링 품질을 향상시키는 방법에는 1) 라벨링 교육 2) 품질 관리 프로세스 구축 3) 품질 평가 지표 사용 4) 샘플 검토 및 재라벨링 5) 라벨링 가이드 작성 등이 있다.
- 라벨링 교육 : 라벨링 작업을 진행하는 담당자에게 라벨링 도구 사용법이나 데이터 형식 등의 교육을 진행하면 데이터 라벨링의 품질을 향상시킬 수 있다.
- 품질 관리 프로세스 구축 : 데이터 라벨링 진행 중에 데이터의 오류 식별과 수정을 할 수 있도록 품질 관리 프로세스를 구축하면 품질 향상에 도움이 된다.
- 품질 평가 지표 사용 : 라벨링 작업의 일관성, 정확도 등의 품질 측정을 위해 품질 평가 지표를 사용하는 것이 좋다.
- 샘플 검토 및 재라벨링 : 데이터 샘플을 만들어 검토하여 문제가 있을 경우 재라벨링을 진행하면 품질 개선에 도움이 된다.
- 라벨링 가이드 작성 : 누구나 보고 이해할 수 있도록 품질 기준이나 라벨링 규칙 등이 포함된 상세한 라벨링 가이드를 작성한다.[4]
관련 기술[편집]
LLM 모델[편집]
022년 11월, 오픈AI는 자체 개발한 LLM 모델 GPT-3.5로 만든 챗GPT(ChatGPT)를 출시했다. 챗GPT는 일상에서 사용하는 자연어를 프롬프트로 입력하면 마치 사람이 만든 듯한 결과물을 생성하며 전 세계를 놀라게 했다. 이후 할루시네이션(Hallucination, 환각 현상) 등의 문제가 발견됐지만, 많은 이들이 원하는 명령을 입력하는 것만으로 새로운 결과물을 얻을 수 있다는 점에 매료됐다. 국내외 IT 기업은 자체 개발한 LLM을 속속 출시했고, 다른 업계에서도 AI를 도입해 업무 효율성을 향상할 방안을 마련하기 시작했다.
그 여파는 데이터 라벨링 시장에도 전달됐다. 시장은 LLM에 적합한 데이터를 요구했다. 그런데 LLM이 요구하는 방향은 이전까지의 데이터 라벨링과 조금 달랐다. LLM을 만들기 위해서는 그동안 라벨링 작업으로는 수용할 수 없는 방대한, 가늠할 수 없을 정도로 거대한 양의 데이터가 필요했다. 챗GPT의 근간이 된 GPT-3는 1,750억 개라는 천문학적인 규모의 매개변수(파라미터)를 보유했으며, 이후 등장한 소형 거대언어모델(sLLM)도 10억 개 내외의 매개변수를 갖췄다.
기본이 되는 인공 신경망도 트랜스포머(Transformer) 모델로 바뀌었다. LLM을 개발하기 위해서는 트랜스포머 모델에 인간 언어를 LLM이 처리할 수 있도록 개별 단어나 구(Phrase) 규모로 잘게 쪼갠 토큰(Token)을 넣어야 한다. 트랜스포머 모델은 토큰을 통해 문장 속 단어와 같은 데이터 안의 순차적 관계를 추적함으로써 맥락, 의미를 학습한다. AI가 수많은 요소 사이의 패턴을 찾아내는 방식이기 때문에 데이터에 여러 정보를 담는 라벨링 작업은 비중이 전보다 낮아지게 됐다.[1]
고품질 데이터[편집]
데이터 라벨링의 양이 줄어들었다고 해서 그 중요도가 낮아진 것은 아니다. 명확한 목적이 정해지지 않은, LLM의 기본 형태인 파운데이션 모델(Foundation Model)만으로는 실제 업무 활용에 어려움이 있기 때문이다. 이를 해결하기 위해 미세조정(파인튜닝)과 RAG(검색 증강 생성) 등의 보완이 필요하며, 이 과정에서 여전히 라벨링 작업을 거친 고품질 데이터가 요구된다.
파운데이션 모델은 대학생을 생각하면 이해하기 쉽다. 대학생은 학부 과정을 거치며 특정 전공을 비롯해 여러 교양 과목을 배우며 다양한 지식을 습득한다. 하지만 대학원 과정을 통해 습득하는 고도의 전문 지식은 잘 알지 못할 수밖에 없다. 파운데이션 모델은 다양한 분야에서 창의력을 드러낼 수 있지만, 특정 업계에서 쓰이는 전문 용어 등에 대해서까지 그러한 능력을 발휘하지는 못한다. 따라서 업무에 LLM을 도입하려면 특화된 데이터셋을 통한 미세조정 작업이 먼저 이뤄져야 한다. 미세조정을 위해 특정 영역에 전문화된 데이터셋을 확보해야 하는 만큼, 작업자에게 요구하는 역량도 높아졌다. 업체들은 의료, 법률 등의 전문 지식을 소화할 수 있는 자격을 갖춘 인력을 모집해 데이터셋의 품질을 향상하는 데 주력하고 있다.
사람이 직접 관여하는 강화학습 방법도 쓰인다. 이를 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)이라 일컫는다. RLHF는 사람이 직접 AI의 답변 중 가장 좋은 것을 선택해 피드백하는 작업이다. 이 과정을 거치면 보다 자연스러운 결과물을 끌어낼 수 있는데, 크게 보면 사람의 주관이 개입된다는 점에서 데이터 라벨링과 유사하다.[1]
각주[편집]
- ↑ 1.0 1.1 1.2 김호준 기자, 〈(기획특집) LLM 전성시대, '데이터 라벨링'에 부는 변화의 바람〉, 《아이티데일리》, 2024-04-30
- ↑ 2.0 2.1 2.2 〈데이터 라벨링이란? 정의와 종류, 라벨링 툴 선택 방법〉, 《아펜》, 2023-03-27
- ↑ 〈데이터 라벨링이란? AI 프로젝트를 위한 데이터 라벨링 지침서〉, 《이랜서 블로그》, 2024-04-29
- ↑ 4.0 4.1 〈데이터 라벨링 총정리 가이드〉, 《크몽》, 2023-08-20
참고자료[편집]
- 〈데이터 라벨링이란? 정의와 종류, 라벨링 툴 선택 방법〉, 《아펜》, 2023-03-27
- 〈데이터 라벨링 총정리 가이드〉, 《크몽》, 2023-08-20
- 〈데이터 라벨링이란? AI 프로젝트를 위한 데이터 라벨링 지침서〉, 《이랜서 블로그》, 2024-04-29
- 김호준 기자, 〈(기획특집) LLM 전성시대, '데이터 라벨링'에 부는 변화의 바람〉, 《아이티데일리》, 2024-04-30
같이 보기[편집]