AI/ML(지도학습)

[파이썬 머신러닝 완벽가이드 - 회귀(Regression)]

criling 2021. 7. 13. 20:23

회귀 : 한 바퀴 돌아 제자리로 돌아오거나 돌아감(네이버 어학사전)

하나의 종속 변수와 두 개 이상의 독립 변수 사이에 나타나는 관계를 치소 제곱법을 추정하는 방법(네이버 어학사전)

 

 

회귀 분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해내는 분석(위키백과)

 

사전적 정의에 맞게 이해하기가 힘들다.

 

 

데이터 값이 평균으로 회귀하려는 경향을 가진다.

 

데이터가 추세선으로 회귀한다는 것은 어색하다.

추세선이 데이터를 따라 간다는 것이 더 맞는 것 같다.

 

회귀

'잔차(residual: 데이터의 실측치와 모델의 예측치 사이의 차이, 즉 회귀시겡서 오차항에 대한 관측치)가 평균으로 회귀한다'는 것을 의미

잔차가 평균으로 회귀하도록 만든 모델

회귀 모델링은 오차의 합이 최소가 되도록 만드는 작업.

(출처 : https://brunch.co.kr/@gimmesilver/17)

 

통계학에서 휘귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭

 

 

Y = W1*X1 + W2*X2 + W3*X3...Wn*Xn

위의 식에서 Y = 종속변수, X = 독립변수, W = 회귀 계수라고 가정한다면 머신러닝에서 피처(X)와, 결정값(Y) 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다. 

회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 유형으로 나뉜다.

가장 중요한 것은 회귀 계수이다.

 

독립변수 개수   회귀계수의 결합

1개: 단위회귀

여러 개 : 다중 회귀

독립 변수 개수 회귀 계수의 결합
1개 : 단일 회귀 선형 : 선형 회귀
여러 개 : 다중 회귀 비선형 : 비선형 회귀

 

지도 학습은 분류와 회귀로 나뉘는데 분류는 예측값이 카테고리와 같은 이산형 클래스 값이고 회귀는 연속형 숫자 값이라는 차이가 있다.

 

선형 회귀 : (실제 값 - 예측 값)^2 값을 최소화 하는 직선형 회귀

규제 : 일반적인 선형 회귀의 과적합을 막기 위해 회귀 계수에 패널티 값을 적용하는 것

 

일반 선형 회귀 : 예측 값과 실제 값의 RSS(Residual Sum of Squares)를 최소화 할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization)를 적용하지 않는 모델

릿지(Ridge) : 선형 회귀에 L2 규제를 추가한 회귀 모델

L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀 계수값을 더 작게 만드는 규제 모델

 

라쏘(Lasso) : 선형 회귀에 L1 규제를 적용한 방식, L2 규제는 회귀 계수 값의 크기를 줄이지만 L1규제는 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않도록 하는 것

L1 규제는 피처 선택 기능으로도 불린다.

 

엘라스틱넷(ElasticNet) : L2, L1 규제를 결합한 모델, 피처가 많거나, L1규제로 피처를 줄이고, L2 규제로 계수 값이 크기를 조정

 

로지스틱 회귀(Logistic Regression) : 분류에 사용되는 선형 모델, 텍스트 분류와 같은 영역에서 뛰어난 예측 성능을 보인다.

 

단순 선형 회귀에서 최적의 회귀 모델을 만든다는 것은 전체 데이터의 잔차(오류값)이 최소가 되는 모델을 만들겠다는 의미. 동시에 오류값 합이 최소가 될 수 있는 최적의 회귀 계수를 찾는 것.

 

오류의 합은 절댓값을 취해서 더하거나(MAE ,Mean Absolute Error) 제곱을 구해서 더한다(RSS, Residual Sum of Square).

일반적으로 미분 등의 계산을 편리하게 하기 위해 RSS 방식으로 오류합을 구한다.

회귀에서 RSS는 비용(Cost)이며 w변수(회귀 계수)로 구성되는 RSS를 비용함수라고 한다.