데이터 통합
데이터 통합(DI; data integration)이란 유사항 성격의 데이터, 동질성을 가진 데이터를 더 큰 주제로 합치는 것을 의미한다. 확상성이 좋은 유연한 모델 작성으로 요구사항을 추가/변경에 따른 모델 변경을 최소화하는 것을 목적으로 가지고 있다.[1] 즉, 자료의 중복을 배제한 데이터의 모임이다.[2] 영어 약자로 DI(디아이)라고도 한다.
목차
개요[편집]
데이터 통합은 한마디로 하나의 소스 시스템에서 관리하는 데이터를 목표 시스템의 데이터와 실시간이나 배치 형태로 변형의 단계를 거쳐 합산이나 여러 함수등을 통해 같은 의미를 가진 정보로 일치시키는 역할이라고 볼 수 있다. [3]
특징[편집]
데이터 통합 프로세스[편집]
통합 기준[1][편집]
테이터를 통합하는데에는 기준이 있다. 먼저, 데이터의 성격(주제)이 유사(동질성)해야 한다. 식별자가 동일하면서 유사한 속성이 존재(유사성)해야 하며, 식별자는 다르지만 기초 속성이 유사(유사성)해야한다. 현행 데이터가 존재하면 마이그레이션하는데 문제가 없다. 별개의 요건으로 사용되지 않고 주로 같이 조회되며 통합해서 성능문제를 일으키지 않는다.
통합 대상[1][편집]
- 속성: 여러 엔티티에서 동일한 성질로 관리되는 속성을 도출하여 새로운 엔티티로 통합한다.
- 관계: 엔티티간 존재하는 많은 개별 관계를 상위 개념의 관계로 통합한다.
- 엔티티: 공통된 속성이 존재하는 엔티티를 통합해 슈퍼타입을 도출한다. 조인의 불편함, 성능에 영향을 미치는 배타적 관계의 엔티티를 통합한다.
고려사항[1][편집]
데이터를 통합하는 과정에서는 고려해야할 몇가지 사항들이 있다. 첫째, 동질성이 빈약한 엔티티간 통합. 둘째, 지나친 유연성, 확장성만을 고려한 통합. 셋째, 엔티티 통합에 따른 인스턴스 증가로 인한 성능 문제. 넷째, 실체 엔티티는 최대한 통합하고, 행위 엔티티는 가능한 통합을 고려해야 한다.
장점[4][편집]
- 확장성: 비슷한 유형의 업무가 발생했을 때 스키마 변경을 최소화하면서 코드 값 등의 인스턴스를 추가로 업무를 수용한다.
- 유지보수 효율성: 엔티티 개수가 감소해 데이터베이스 유지보수가 쉬워졌다.
- 분석, 설계에 대한 시간이 단축되고, 비용이 절감되었다.
- 개발의 용이성: 엔티티 통합에 따른 배타 곤계의 해소로 엑세스 경로의 효율성이 향상되었으며, 단순한 SQL 작성이 가능해졌다.
- 모델의 단순성
- 모델의 가독성: 슈퍼타입, 서브타입에서 발생하는 비즈니스 요건(관계)를 명확히 표현할 수 있다.
단점[4][편집]
- 데이터 집합의 변질(희석): 무분별한 엔티티 통합은 데이터 집합을 모호하게 만들어 집합을 변질시킬 수 있다.
- 데이터베이스 성능과 관리 측면
- 가독성이 떨어진다.
- Null값의 사용이 증가되었다.
- 마이그레이션의 어려움이 있다.
분류[편집]
ETL[편집]
ETL은 추출(Extract), 변환(Transform), 적재(Load)를 줄인말로 한 곳에 저장된 데이터를 필요에 의해 다른 곳으로 이동하는 것이다. [5] 예를 들어, calendar라는 테이블에 년/월/일/시/분/초 형태로 각 컬림이 존재한다고 하자. 이러한 데이터를 사용하여 통계를 내는 어떤 프로그램을 실행하려고 확인 했더니 해당 프로그램은 년월일/시분초와 같은 컬럼형태를 요구하고 있을 때 작업을 필요로 하는 것을 ETL이라고 한다.
- Extract: 대상이 되는 calendar 테이블에서 년/월/일/시/분/초 형태의 데이터를 전부 추출한다.
- Transform: 추출한 데이터를 요구하는 형태인 년월일/시분초 형태로 변경을 한다.
- Load: 변경이 된 데이터를 새로운 테이블에 전재한다.
데이터 동기화[편집]
데이터 동기화는 초기 스냅샷이 구독자에 적용된 후 게시자와 구독자 간에 데이터 및 스키마 변경 내용이 전파되는 프로세스를 말한다. 동기화는 계속, 요청시, 일정대로와 같은 방식으로 발생할 수 있는데 계속의 경우 트랜잭션 복제에 일반적이며 요청시는 병합 복제에 일반적이다. 마지막으로 일정대로는 스냅샷 복제에 일반적이다. [7]
데이터 이주[편집]
데이터 이주의 유형은 크게 2가지 방식으로 나뉜다. 첫째, 하드웨어의 구성만 바뀌고 소프트웨어와 데이터는 그대로 사용하는 방안이 리-호스팅을 위한 데이터 이주. 둘째, 차세대 시스템과 같이 과거 시스템의 구조와 상관없이 새로운 비즈니스 구조에 맞추어 새로운 데이터베이스를 구축하고 새로운 애플리케이션을 개발하는 것이다. [3]
메타 데이터 관리[편집]
데이터 관리를 지원하기 위해 데이터베이스의 개념이 단일 부서의 정보 자원들을 관리하는 파일 시스템에서 전사적인 정보 자원을 통합 관리하는 데이터 웨어하우스의 개념으로 진화되었다. 데이터 웨어하우스는 데이터의 재구성을 위해 원시 데이터 계층에서 획득된 서로 다른 데이터들을 이해할 수 있어야 하며 각각의 데이터들에 대한 이력을 유지해야 한다. 이러한 데이터 웨어하우스의 데이터 통합 관리를 데이터 웨어하우스 내의 메타데이터 관리를 통해 할 수 있다. 쉽게 말해 메타데이터 관리는 데이터를 구성하는 정보를 관리하는 것이다. [8]
데이터 정보 허브/데이터 통합 허브[편집]
데이터 정보 허브는 자체적으로 데이터베이스를 구축해 여러 소스 시스템으로부터 데이터를 제공받아 자신이 데이터를 보관하고 있다가 데이터를 필요로 하는 시스템으로 데이터를 제공하는 시스템의 역할을 수행한다. 데이터 통합 허브는 단지 데이터를 분기시켜주는 역할을 하는 시스템으로 볼 수 있다. 기업 내에서 모든 시스템의 중앙에 위치하여 모든 데이터의 흐름을 관장하게 되고 적합성과 적시성을 보장하는 시스템으로 데이터 통합의 중추적인 역할을 수행한다. [3]
각주[편집]
- ↑ 1.0 1.1 1.2 1.3 〈데이터 통합〉, 《DB모델링 - 4. 데이터통합》, 2015-11-20
- ↑ 〈데이터 통합〉, 《[DB기초] 데이터베이스의 정의와 특징》, 2018-08-08
- ↑ 3.0 3.1 3.2 〈데이터 통합 개요〉, 《[데이터 통합(1)] 데이터 통합의 범위와 역할》, 2007-09-28
- ↑ 4.0 4.1 〈데이터 통합 장단점〉, 《DB모델링 - 4. 데이터통합:4.2 데이터 통합의 장단점》, 2015-11-20
- ↑ 〈ETL〉, 《[database] ETL이란?》, 2018-10-27
- ↑ 〈ETL〉, 《[DB]ETL이란》, 2018-12-22
- ↑ 〈데이터 동기화〉, 《데이터 동기화》, 2017-03-07
- ↑ 〈메타데이터 관리〉, 《데이터 기술 자료》, 2017-03-07
참고자료[편집]
- DB모델링 - 4. 데이터통합〈데이터 통합〉, 2015-11-20《Tistory - 데카의 Daily Review》
- [DB기초] 데이터베이스의 정의와 특징〈데이터 통합〉, 2018-08-08《Tistory - 코딩팩토리》
- [데이터 통합(1)] 데이터 통합의 범위와 역할〈데이터 통합 개요〉, 2007-09-28《Bikorea》
- [데이터 통합(1)] 데이터 통합의 범위와 역할〈데이터 통합 장단점〉, 2015-11-20《Tistory - 데카의 Daily Review》
- [database] ETL이란? <ETL, 2018-10-27《Github - brownbears》
- [DB]ETL이란 <ETL, 2018-12-22《Tistory - brownbears》
- 데이터 동기화 <데이터 동기화>, 2017-03-07《Microsoft》
- 데이터 기술 자료 <메타데이터 관리, 2017-03-07《Kdata 한국데이터산업진흥원》
같이 보기[편집]