분류(Classification)
명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식
1. 학습 데이터로 데이터의 피처와 레이블 값(결정 값, 클래스 값)을 머신 러닝 알고리즘으로 학습
2. 새로운 데이터 값이 주어졌을 때 메지의 레이블 값 예측

분류 알고리즘
1. 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes)
2. 독립 변수와 종속 변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression)
3. 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree)
4. 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine)
5. 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor) 알고리즘
6. 심층 연결 기반의 신경망(Neural Network)
7. 서로 다른(또는 같은)머신 러닝 알고리즘을 결합한 앙상블(Ensemble)

 

앙상블 분류는 가장 각광받는 분류 알고리즘 중 하나
정형 데이터 예측 분석 영역에서 앙상블은 매우 높은 예측 성능을 가진다.

앙상블 학습을 통한 분류
여러 개의 분류기를 생성하고 그 예측을 결합하여 보다 정확한 최종 예측을 도출하는 기법

이미지, 영상, 음성 등의 비정형 데이터 분류는 딥러닝이 뛰어난 성능을 보이고 있지만, 대부분의 정형 데이터 분류에서는 앙상블이 뛰어난 성능을 보이고 있다.


대표적인 앙상블 알고리즘으로 랜덤 포레스트, 그래디언트 부스팅이 있다. 

이들은 뛰어난 성능과 쉬운 사용, 다양한 활용도로 많이 애용된다.

+ Recent posts