AI/ML(지도학습)
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 랜덤 포레스트(Random Forest), GBM(Gradient Boost Machine)
criling
2021. 7. 11. 22:29
랜덤 포레스트(Random Forest)
랜덤 포레스트는 앙상블 알고리즘 중 비교적 빠른 수행 속도를 가지고 있고, 다양한 영역에서 높은 예측 성능을 가지고 있다.
여러 결정 트리(트리들이 모여 숲(forest)이 된다)가 배깅 방식으로 전체 데이터를 샘플링하여 개별적으로 학습해 보팅을 통해 예측 결정을 하게 된다.
부트스트래핑(bootstrapping) 분할 방식 : 여러 개의 데이터 세트를 중첩되게 분리하는 것
Bagging = Bootstrap aggregating
GBM(Gradient Boost Machine)
Ada boost과 동작 과정이 유사하나 가중치 갱신에 경사 하강법을 사용한다는 것이 큰 차이이다.
일반적으로 GBM이 랜덤 포레스트보다 예측 성능이 조금 뛰어난 경우가 많다.
그러나 수행시간이 오래 걸리고, 하이퍼 파라미터 튜닝 노력도 더 필요하다.
GBM은 과적합에도 강한 뛰어난 예측 성능을 가진 알고리즘이지만 수행 시간이 오래 걸린다.