DBSCAN은 간단하고 직관적인 알고리즘으로 되어 있지만 데이터의 분포가 기하학적을 복잡한 데이터 세트에도 효과적인 군집화가 가능하다.

 

내부의 원모양과 외부의 원 모양 형태의 분포를 가진 데이터 세트는 K 평균, 평균 이동, GMM으로 효과적인 군집화는 수행이 어렵다. DBSCAN은 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어 복잡한 기하학적인 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행한다.

 

DBSCAN을 구성하는 가장 중요한 두 가지 파라미터는 입실론(epsilon)으로 표기하는 주변 영역과 이 입실론 주변 영역에 포함되는 데이터의 개수 min points이다.

- 입실론 주변 영역(epsilon) : 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역

- 최소 데이터 개수(min points) : 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터의 개수

 

입실론 주변 영역 내에 포함되는 데이터 개수를 충족시키는가 아닌가에 따라 데이터 포인트를 다음과 같이 정의

- 핵심 포인트(Core Point) : 주변 영역 내에 최소 데이터 개수 이상의 타 데이터를 가지고 있는 데이터

- 이웃 포인트(Neighbor Point) : 주변 영역 내에 위치한 타 데이터

- 경계 포인트(Border Point) : 주변 영역 내에 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지 않지만 핵심 포인트를 이웃 포인트로 가지고 있는 데이터

- 잡음 포인트(Noise Point) : 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지 않으며, 핵심 포인트도 이웃 포인트로 가지고 있지 않는 데이터

 

+ Recent posts