데이터 클러스터
데이터 클러스터(Data Cluster)는 파일과 디렉토리(폴더)에 디스크 공간을 할당하는 단위로 파일을 저장하도록 할당될 수 있는 가장 작은 논리적 디스크 공간을 말한다. 디스크상 데이터 구조 처리의 오버헤드를 줄이기 위해 클러스터라고 불리는 인접한 섹터 집단을 할당하며, 할당단위라고도 불린다.
개요
데이터 클러스터는 컴퓨팅 분야 안에 다른 유형의 클러스터 중 하나이다. 데이터를 클러스터링 한다는 것은 연속적으로 액세스하는 데이터를 밀접하게 함께 저장하여 입출력(IO) 작업을 적게 하는 것을 의미한다. 데이터 클러스터는 데이터베이스 튜닝 측면에서 매우 중요하다. 반대로 컴퓨터 클러스터는 데이터 베이스 환경에서 매우 일반적이다. 즉, 클러스터라는 용어를 모호하게 만든다. 믈러스터를 사용하여 데이터베이스 성능을 향상시킬 수 있는 한가지 예일 뿐이다.
등장배경
데이터클러스터 알고리즘
클러스터 모델을 기반으로 정보를 분할하기 위해 데이터 세트에 적용할 수 있는 클러스터링이 많은데, 수행하고자 하는 것에 따라 데이터 클러스터 알고리즘을 선택가능하다.
- 중심기반(Centroid-based)
- 중심기반의 OS 그룹화 방법에서 모든 클러스터는 벡터 값으로 참조된다. 각 개체는 다른 클러스터에 비교하여 값 차이가 최소인 클러스터의 일부분이다. 클러스터의 수는 미리 정의 되어야 하는데, 이런 종류의 알고리즘의 가장 큰문제라고 할 수 있다. 이 방법론은 분류 주제에 광범위하게 사용된다.
- 분산기반(Distributed-based)
- 사전 정의된 통계적 모델과 관련하여, 분산 방법론은 값이 동일한 분포에 대해 값을 갖는 객체를 결합한다. 가치 생성의 무작위 특성으로 인해 이 프로세스는 실제 데이터와 더 나은 방식으로 상호작용하기 위해 잘 정의되고 복잡한 모델이 필요하다. 그러나 이런 프로세스는 최적의 해결책을 도출할 수 있으며 상관관계 및 종속성을 계산할 수 있다.
- 연결기반(Connectivity-based)
- 밀도기반(Density-based)
특징
인덱스
인덱스를 사용해 데이터 클러스터링을 한다. 인덱스 리프 노드는 비슷한 값이 서로 옆에 저장되는데, 정렬된 방식으로 인덱싱 된 열을 저장한다. 즉, 인덱스는 빗슷한 값을 가진 행의 클러스터를 만든다. 데이터를 클러스팅하는 기능이 인덱스에서 매우 중요하기 때문에 인덱싱의 두번째 힘이라고도 불린다. 인덱스를 사용하여 데이터를 클러스터링하고 쿼리 성능을 향상시킬 수 있다.
SQL 데이터클러스터
SQL 데이터베이스에서 가장 간단한 데이터 클러스터는 행이다. 데이터 베이스는 가능한 경우 행의 모든 열을 동일한 데이터 베이스 블록에 저장하는데, 행이 단일 블록에 맞지 않는 경우 (ex.LOB 유형이 관련된 경우) 예외가 적용된다.
각주