본문 바로가기
IT/머신러닝

회귀분석(+다중공선성 문제)

by silvermoon79 2024. 8. 20.

회귀분석이란?

회귀분석(Regression Analysis)은 연속형 변수들에 대해 두 변수 간의 관계를 수식으로 나타내는 분석방법입니다. x라는 독립변수와 y라는 종속변수가 존재할 때 이 두 변수간의 관계를 y = ax +b 와 같은 형태의 수식으로 나타낼수 있는 방법입니다

 

예를 들어 위와 같이 가로축이 x이고, 세로축이 y일때 이 둘의 사이 값을 산점도로 나타낼 수 있습니다. 이 데이터 간의 관계를 가장 적합한 하나의 직선으로 표현하는 방법이 회귀 분석이며, 이를 위해 직선과 개발 값들 간의 오차를 최소화 하는 직선을 찾는 것을 목표로 합니다.

종속변수가 1개, 독립변수가 2개 이상이면 다중회귀분석이라고 하고, 종속변수와 독립변수 간의 관계가 log나 거듭제곱과 같은 비선형 관계일 경우에는 비선형 회귀분석이라고 합니다.

다중 회귀분석

다중회귀 분석은 독립변수가 2개 이상일 경우에 사용하며 수식으로 표현하면 y = ax1+bx2+c 형태로 나타낼 수 있습니다.

다중 회귀분석에서 변수를 선택하는 방법

다양한 독립변수들 중에서 적합한 변수를 선택하는데는 3가지 방법이 있습니다

  • 전진선택법(Forward Selection) : y절편만 있는 상수모형부터 시작해 독립변수를 추가해 나감
  • 후진소거법(Backward Elimination) : 독립변수를 모두 포함한 상태에서 가장 적은 영향을 주는 변수를 하나씩 제거해 나감
  • 단계적 방법(Stepwise) : y절편만 있는 상수모형부터 시작해 독립변수를 추가해 나가지만 추가한 독립변수가 중요하지 않으면 제거하고 다른 독립 변수를 추가해나감

다중공선성(Multicollinearity) 문제

다중 회귀분석의 경우 단순 선형 회귀분석과 달리 독립변수가 많기 때문에 예상치 못한 독립 변수들 간의 강한 상관관계로 인해 제대로 된 회귀분석이 안 될 수도 있습니다.

이런 현상을 다중공선성 문제라고 합니다. 다중공선성 문제는 분산팽챙요인을 계산해 구할수 있는데 일반적으로 10이상이면 문제가 있다고 판단하고, 30을 초과하면 심각한 문제가 있다고 판단합니다.

비선형 회귀분석

비선형 회귀분석(Non-linear Regression Analysis)은 독립변수(x)와 종속변수(y)가 선형 관계가 아닌 비선형 관계일 때 사용하는 분석 방법입니다. 독립변수와 종속변수가 직선이 아닌 곡선 형태의 관계를 가질 수도 있기 때문에 이런 때에는 독립변수에 로그(log)나 거듭제곱 등을 취해 보면서 적합한 비선형 모델을 찾아내야 합니다

현장에서 바로 써먹는 데이터 분석 / 김임용 / 2022, 도서출판 심통 Must Have 데싸노트의 실전에서 통하는 머신러닝 / 권시현 / 2022년, 골든래빗