DBSCAN은 간단하고 직관적인 알고리즘으로 되어 있지만 데이터의 분포가 기하학적을 복잡한 데이터 세트에도 효과적인 군집화가 가능하다.
내부의 원모양과 외부의 원 모양 형태의 분포를 가진 데이터 세트는 K 평균, 평균 이동, GMM으로 효과적인 군집화는 수행이 어렵다. DBSCAN은 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어 복잡한 기하학적인 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행한다.
DBSCAN을 구성하는 가장 중요한 두 가지 파라미터는 입실론(epsilon)으로 표기하는 주변 영역과 이 입실론 주변 영역에 포함되는 데이터의 개수 min points이다.
- 입실론 주변 영역(epsilon) : 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역
- 최소 데이터 개수(min points) : 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터의 개수
입실론 주변 영역 내에 포함되는 데이터 개수를 충족시키는가 아닌가에 따라 데이터 포인트를 다음과 같이 정의
- 핵심 포인트(Core Point) : 주변 영역 내에 최소 데이터 개수 이상의 타 데이터를 가지고 있는 데이터
- 이웃 포인트(Neighbor Point) : 주변 영역 내에 위치한 타 데이터
- 경계 포인트(Border Point) : 주변 영역 내에 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지 않지만 핵심 포인트를 이웃 포인트로 가지고 있는 데이터
- 잡음 포인트(Noise Point) : 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지 않으며, 핵심 포인트도 이웃 포인트로 가지고 있지 않는 데이터
'AI > ML(비지도학습)' 카테고리의 다른 글
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] GMM(Gaussian Mixture Model) (0) | 2021.07.21 |
---|---|
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] 평균 이동(Mean Shift) (0) | 2021.07.21 |
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] 군집 평가(Cluster Evaluation) (0) | 2021.07.21 |
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] K-means Clustering (0) | 2021.07.21 |