결정 트리
학습을 통해 데이터에 있는 규칙을 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것.
규칙노드 : 규칙 조건이 되는 것
리프노트 : 결정된 클래스(레이블) 값
새로운 규칙 조건마다 생성되는 '서브트리'
데이터세트에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들떄 마다 규칙 노드가 만들어진다.
많은 규칙이 있다는 것은 분류를 결정하는 방식이 더욱 복잡해지고, 트리의 깊이가 깊어져 과적합으로 이어지기 쉽다.
결정 노드는 정보 균일도가 높은 데이터 세트를 먼저 선택할 수 있도록 규칙 조건을 만든다
정보 이득 지수 = 1- 엔트로피
결정 트리는 정보 이득 지수로 분할 기준을 정한다.
엔트로피가 높은 수록 데이터가 혼잡하다.
지니 계수 = 0 가장 평등, 1 가장 불평등
지니계수가 낮을 수록 데이터 균일도가 높다.
결정 트리 장점
쉽다, 직관적이다, 피처의 스케일링이나 정규화 등의 사전 가공 영향도가 크지 않다.
결정 트리 단점
과적합으로 알고리즘 성능이 떨어진다. 이를 극복하기 위해 트리의 크기를 사전에 제한하는 튜닝 필요
'AI > ML(지도학습)' 카테고리의 다른 글
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] XGBoost(eXtra Gradient Boost) (0) | 2021.07.11 |
---|---|
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 랜덤 포레스트(Random Forest), GBM(Gradient Boost Machine) (0) | 2021.07.11 |
[분류(Classifier)] 보팅 분류기(Voting Classifier) (0) | 2021.07.11 |
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 앙상블 학습(Ensemble Learning) (0) | 2021.07.11 |
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] (0) | 2021.07.11 |