AI/ML(비지도학습)

[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] GMM(Gaussian Mixture Model)

criling 2021. 7. 21. 19:34

GMM(Gaussian Mixture Model)

 

군집화를 적용할 데이터가 여러개의 가우시간 분포를 가진 데이터 집합들이 섞여 생성된 것이라는 가정 하에 군집화를 수행하는 방식.

 

정규 분포는 평균 u(뮤)를 중심으로 높은 데이터 분포도를 가지고 있으며, 좌우 표준편차 1에 전체 데이터의 68.27%, 좌우 편차 2에 전체 데이터의 95.45%를 가지고 있습니다. 평균이 0이고, 표준편차가 1인 정규 분포를 표준 정규 분포라고 한다.

 

GMM은 데이터 여러개의 가우시안 분포가 섞인 것으로 간주한다. 즉, 각 각의 가우시안 분포가 개별 군집이 되는 것이다.

 

전체 데이터 세트는 서로 다른 정규 분포 형태를 가진 여러가지 확률 분포 곡선으로 구성될 수 있으며 이러한 서로 다른 정규 분포에 기반해 군집화를 수행하는 것이 GMM 군집화 방식이다.

여러 개의 데이터세트가 있다면 이를 구성하는 여러 개의 정규 분포 곡선을 추출하고, 개별 데이터가 이 중 어떤 정규 분포에 속하는지 결정하는 방식이다.

 

GMM에서의 모수 추정

- 개별 정규 분포의 평균과 분산

- 각 데이터가 어떤 정규 분포에 해당되는지의 확률

 

모수추정을 위해 GMM은 EM(Expectation and Maximization) 방법을 적용한다.

 

GMM과 K-평균의 비교

Kmeans는 원평의 볌위에서 군집화를 수행한다. 즉 데이터 세트가 원형의 범위를 가질수록 KMeans의 군집화 효율은 더욱 높아진다.