K-평균은 군집 중심점(centroid)라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법.
군집 중심점
선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행. 모든 데이터 포인트에서 더 이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법.
1. k개의 군집 중심점 설정
2. 각 데이터는 k개의 중심점들 중 가장 가까운 중심점에 소속
3. 중심점에 할당된 데이터들의 평균 중심으로 중심점 이동
4. 중심점을 이동하였지만 데이터들의 중심점 소속 변경이 없으면 군집화 완료
K-평균의 장점
- 일반적인 군집화에서 가장 많이 활용되는 알고리즘
- 알고리즘이 쉽고 간결
k-평균의 단점
- 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어진다.
(이를 PCA로 차원 감소를 적용해야할 수도 있다.)
- 반복을 수행하는데 반복 횟수가 많을 경우 수행시간이 매우 느려진다.
- 몇 개의 군집(cluster)을 선택해야 할지 가이드가 어렵다.