컴퓨터 비전

컴퓨터 비전(Computer Vision)은 기계의 시각에 해당하는 부분을 연구하는 컴퓨터 과학의 최신 연구 분야 중 하나이다. 공학적인 관점에서, 컴퓨터 비전은 인간의 시각이 할 수 있는 몇 가지 일을 수행하는 자율적인 시스템을 만드는 것을 목표로 한다. 그리고 과학적 관점에서 이미지에서 정보를 추출하는 인공 시스템 관련 이론에 관여한다.

개요

컴퓨터 비전(Computer vision)은 컴퓨터가 디지털 이미지나 비디오로부터 높은 수준의 이해를 얻을 수 있는 방법을 다루는 학제간 과학 분야다. 공학적인 관점에서 인간의 시각 시스템이 할 수 있는 일을 이해하고 자동화하는 것을 추구한다. 컴퓨터 비전 과제에는 디지털 이미지를 획득, 처리, 분석 및 이해, 결정 형태와 같은 수치적 또는 상징적 정보를 생산하기 위해 실제 세계에서 고차원 데이터를 추출하는 방법이 포함된다. 이러한 맥락에서 이해한다는 것은 시각적 영상(망막의 입력)을 사고 과정을 이치에 맞는 세계 서술로 변환하여 적절한 작용을 이끌어 낼 수 있다는 것을 의미한다. 이러한 이미지 이해는 기하학, 물리학, 통계학, 학습 이론의 도움을 받아 구성된 모델을 사용하여 이미지 데이터로부터 상징적인 정보를 분리하는 것으로 볼 수 있다. 컴퓨터 시력의 과학적인 훈련은 이미지로부터 정보를 추출하는 인공 시스템 이면에 있는 이론과 관련이 있다. 영상 데이터는 비디오 시퀀스, 다중 카메라의 보기, 3D 스캐너 또는 의료 스캔 장치의 다차원 데이터 등 다양한 형태를 취할 수 있다. 컴퓨터 비전의 기술적 규율은 그것의 이론과 모델을 컴퓨터 비전 시스템 구축에 적용하려고 한다. 컴퓨터 비전의 하위 영역에는 장면 재구성, 사건 감지, 비디오 추적, 객체 인식, 3D 포즈 추정, 학습, 색인화, 동작 추정, 시각 서보화, 3D 장면 모델링, 영상 복원 등이 있다.^[1] 또한 컴퓨터 비전은 딥 러닝을 사용하여 이미지 처리 및 분석 시스템을 안내하는 신경망을 형성한다. 충분한 교육을 받은 컴퓨터 비전 모델은 사물을 인식하고 사람을 감지하거나 인식하며 움직임까지도 추적할 수 있다.

역사

1960년대 후반, 인공지능을 개척하던 대학에서 컴퓨터 비전이 시작되었다. 이는 지능적인 행동을 가진 로봇을 기증하는 디딤돌로서 인간의 시각 시스템을 모방하기 위해서였다. 1966년에는 여름 프로젝트를 통해 컴퓨터에 카메라를 부착하고 '보이는 것을 묘사'하도록 함으로써 이것이 달성될 수 있다고 믿었다. 당시 컴퓨터 비전을 디지털 이미지 처리의 보편적인 분야와 구별한 것은 완전한 장면 이해를 달성하기 위한 목적으로, 이미지로부터 3차원 구조를 추출해내고자 하는 목표였다. 1970년대의 연구는 이미지에서 가장자리 추출, 선 표시, 비다면 및 다면 모델링, 작은 구조물의 상호연결로 물체 표현, 광학 흐름 및 움직임 추정을 포함하여 오늘날 존재하는 많은 컴퓨터 비전 알고리즘의 초기 기초를 형성했다.

그 후 10년 동안 컴퓨터 시력의 보다 엄격한 수학적 분석과 양적 측면에 기초한 연구가 진행되었다. 여기에는 스케일 스페이스의 개념, 음영, 질감, 초점 등 다양한 단서로부터의 형상의 추론, 스네이크로 알려진 등고선 모델이 포함된다. 연구자들은 또한 이러한 수학적 개념들 중 많은 것들이 정규화 및 마르코프(Markov) 무작위 분야와 동일한 최적화 프레임워크 내에서 처리될 수 있다는 것을 깨달았다. 1990년대에 이르러 이전의 연구 주제들 중 일부는 다른 주제들보다 더 활발해졌다. 3D 재구성에 대한 투영적 연구는 카메라 보정에 대한 더 나은 이해를 이끌어냈다. 또한 카메라 교정을 위한 최적화 방법의 출현과 함께, 이미 포토그램 측정의 분야에서 번들 조정 이론에 많은 아이디어가 탐구되고 있음을 실감하게 되었다. 이는 여러 영상에서 씬(scene)을 희박하게 3D 재구성하는 방법으로 이어졌다. 뿐만 아니라 촘촘한 스테레오 통신 문제와 더 나아가서는 멀티 뷰 스테레오 기법에 대한 진전이 이루어졌다. 동시에, 이미지 분할을 해결하기 위해 그래프 자르기 변형이 사용되었다. 또한 이 10년은 이미지에서 얼굴을 인식하기 위해 실제로 통계 학습 기법이 사용된 최초의 시기에 해당된다. 1990년대 말, 컴퓨터 그래픽과 컴퓨터 비전 사이의 상호작용이 증가하면서 중요한 변화가 일어났다. 여기에는 이미지 기반 렌더링, 이미지 모핑, 뷰 보간, 파노라마 이미지 스티칭 및 초기 광장 렌더링이 포함되었다.

최근 연구를 통해 기계 학습 기법 및 복잡한 최적화 프레임워크와 함께 사용되는 특징 기반 방법의 부활을 목격했다. 딥러닝 기법의 발전은 컴퓨터 비전 분야에 더 많은 생명을 불어넣었다. 분류, 세분화, 광학 흐름에 이르는 작업에 대한 몇 가지 벤치마크 컴퓨터 비전 데이터 세트의 딥러닝 알고리즘의 정확도가 이전보다 대폭 상승하게 되었다.^[1]

주요 기술

휴먼 포즈 에스티메이션

컴퓨터 비전은 컴퓨터를 사용하여 인간의 시각적인 인식 능력을 구현하는 것을 목표로 한다. 카메라로 촬영된 이미지나 영상을 분석하여 정보를 추출하는 것이 핵심이다 보니 객체의 위치와 방향을 탐지하는 것은 컴퓨터 비전에서 자주 등장하는 문제이다. 이 중 사람이 취한 자세를 인식하는 기술을 '휴먼 포즈 에스티메이션'(Human Pose Estimation)이라고 합니다. 말 그대로 사진이나 영상 속에서 사람의 신체 관절이 어떻게 구성되어 있는지 위치를 추정하는 문제로 볼 수 있다. 그런데 사진 속에 담긴 사람의 모습은 모든 관절이 보이는 것은 아니다. 같은 자세라도 촬영된 방향에 따라 다르고, 때로는 다른 물체에 가려져 있기도 하며, 다양한 옷을 입고 있기도 하다. 빛의 세기나 강도에 따라서도 추정하기 어려워질 수 있다. 그래서 전체적인 추론(Holistic Reasoning)이 필요하다. 이처럼 휴먼 포즈 에스티메이션 기술은 컴퓨터 비전에서 오랫동안 다루어져 왔음에도 불구하고 여전히 어려운 분야에 속한다.

전통적인 자세 인식 방법은 사람에게 센서와 같은 다양한 장비를 부착하는 것이다. 움직임을 실시간으로 정교하게 파악할 수 있지만 높은 비용이 들어가기도 하고 실생활에서 항상 장비를 착용하는 것이 아니어서 연구실 또는 한정된 영역에서만 가능한 방법이다. 그래서 몸에 부착하는 장비 없이, 사진에서 자세를 추정하는 휴먼 포즈 에스티메이션 연구가 진행되었다. 자세를 추정하기 위해서는 사진에서 인체의 윤곽이나 특정 신체 부위를 추론할만한 외곽선 등의 특징을 추출해야 한다. 이 특징의 패턴을 사람이 직접 분석하고 응용하여 신체 부위를 예측할 수 있게 되었고, 효율성과 정확성이 날로 높아지고 있다.

최근 딥러닝은 컴퓨터 비전의 여러 분야에서 눈부신 성능 향상을 보이며 휴먼 포즈 에스티메이션 연구 패러다임을 바꾸고 있다. 딥러닝은 다층 인공신경망을 이용하며, 유용한 특징들을 데이터로부터 직접 학습하는 방식을 취한다. 이러한 학습 기반의 방법은 사람이 미처 인지하지 못하는 유용한 특징들을 데이터를 통해 직접 찾아낼 수 있다는 장점이 있다. 휴먼 포즈 에스티메이션 분야에서도 딥러닝을 활용한 연구가 활발히 진행 중이고 문제 해결에 큰 성과를 거두고 있다. 자세 추정이 점점 정확해지면서 그 응용 분야도 자세 교정, 행동 인식, 이상 행동 감지, 안전 예방 시스템, 증강현실 등으로 확대되고 있다. 최근에는 2차원 자세를 넘어서 3차원 자세 추출에서도 많은 연구가 진행 중이다.

오픈포즈

오픈포즈(OpenPose)는 세계 최대 '컴퓨터 비전 및 패턴 인식' 컨퍼런스인 CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 2017에서 발표된 프로젝트로 미국 카네기멜론대학교에서 개발하였다. 딥러닝의 합성곱 신경망(CNN)을 기반으로 하며, 사진에서 실시간으로 여러 사람의 몸, 손, 그리고 얼굴의 특장점을 추출할 수 있는 라이브러리다. 이 프로젝트의 특징은 여러 사람의 자세를 빠르게 찾을 수 있다는 것이다. 오픈포즈가 발표되기 전에는 여러 사람의 자세를 추정하기 위해 사진에서 각각의 사람을 검출하고 검출된 사람에 대해 자세를 찾도록 반복 수행하는 탑-다운(Top-Down, 하향식) 방식을 주로 사용했다. 오픈포즈는 바텀-업(Bottom-Up, 상향식) 방식으로 반복적인 처리 없이 성능을 향상시켰다. 바텀-업 방식은 모든 사람의 관절을 추정하고, 각 관절의 위치를 이은 다음, 각각에 해당하는 사람의 관절 위치로 재생성하는 방식이다. 대게 바텀-업 방식은 관절이 어느 사람에게 속하는가의 문제로 정확도가 떨어지는 상황이었다. 오픈포즈는 이를 보완하기 위해서 신체 부위가 어느 사람에게 속하는지 유추할 수 있는 특징(Part Affinity Fields)을 이용하여 접근했다.

주요 기능

오픈포즈의 주요 기능은 사진이나 동영상 또는 카메라 입력을 통해서 여러 사람의 신체 부위 특징점의 위치를 실시간으로 추적해 주는 것이다. 여기에서 특징점은 어깨, 손목 등 몸의 관절뿐만 아니라 손과 얼굴도 포함된다.

딥러닝 네트워크 구조

오픈포즈 네트워크 구조

네트워크의 입력은 높이(h) x 폭(w) 크기의 컬러 이미지이고 VGG-19 네트워크의 일부를 통과하게 된다. VGG 네트워크는 옥스포드대학교의 비주얼 지오메트리 그룹(Visual Geometry Group)에서 개발했다. 세계 최대 이미지 인식 경연대회인 ILSVRC 2014년 행사에서 구글넷(GoogleNet)과 함께 주목을 받으며 근소한 차이로 2위를 차지했지만, 구조가 간단하여 이해하기 쉽고 변형을 시켜가면서 테스트하기 용이한 장점이 있다.

이미지가 VGG-19 네트워크의 입력으로 들어가면, 합성곱 신경망의 C와 P를 거쳐서 특징맵(F)을 생성하게 된다. 특징맵(F)은 처음에는 큰 의미 없는 내용이 담겨 있지만, 그 내용을 학습 데이터와 비교하며 차이점을 점점 줄여나가는 방향으로 최적화를 하면 학습 데이터에 맞는 특징을 갖게 될 것이다. 그리고 이 특징맵(F)은 스테이지(Stage) 1의 입력으로 들어간다.

스테이지 1은 2개의 브랜치로 나누어진다. 첫 번째 브랜치의 합성곱 신경망(p1)은 모든 사람의 관절 위치를 결정하는 컨피던스 맵(Confidence Map(S))을 생성한다. 컨피던스 맵은 특정 신체부위가 위치할 가능성에 따라 높은 값(최저 0 ~ 최고 1)을 갖는 흑백 이미지라고 할 수 있다. 관절이 위치한 픽셀을 중심(중심 값은 1.0)으로 퍼지면서 값이 감소하는 히트맵(Heatmap)을 만든다.^[2]

각주

↑ ^1.0 ^1.1 ^1.2 Computer vision Wikipedia - https://en.wikipedia.org/wiki/Computer_vision
↑ 송철호, 〈주목받는 컴퓨터비전 기술: 딥러닝 기반의 휴먼 포즈 에스티메이션〉, 《삼성 SDS》, 2020-03-20

참고자료

Computer vision Wikipedia - https://en.wikipedia.org/wiki/Computer_vision
송철호, 〈주목받는 컴퓨터비전 기술: 딥러닝 기반의 휴먼 포즈 에스티메이션〉, 《삼성 SDS》, 2020-03-20 </ref>

같이 보기

이 컴퓨터 비전 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • URL • 글자 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문서 • 문자 • 문자인식 • 문자채팅 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 이미지 • 인공어 • 자막 • 자연어 • 질문 • 채팅 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 임베딩 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 가중치 • 관계형 네트워크(RN) • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 주의 메커니즘 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[.EC.9C.84.ED.82.A4.ED.94.BC.EB.94.94.EC.95.84-1] 1.0 ^1.1 ^1.2 Computer vision Wikipedia - https://en.wikipedia.org/wiki/Computer_vision

[2] 송철호, 〈주목받는 컴퓨터비전 기술: 딥러닝 기반의 휴먼 포즈 에스티메이션〉, 《삼성 SDS》, 2020-03-20

[1]

[2]

위키원

이름공간

변수

보기

더 보기

검색