IT/머신러닝18 회귀분석(+다중공선성 문제) 회귀분석이란?회귀분석(Regression Analysis)은 연속형 변수들에 대해 두 변수 간의 관계를 수식으로 나타내는 분석방법입니다. x라는 독립변수와 y라는 종속변수가 존재할 때 이 두 변수간의 관계를 y = ax +b 와 같은 형태의 수식으로 나타낼수 있는 방법입니다 예를 들어 위와 같이 가로축이 x이고, 세로축이 y일때 이 둘의 사이 값을 산점도로 나타낼 수 있습니다. 이 데이터 간의 관계를 가장 적합한 하나의 직선으로 표현하는 방법이 회귀 분석이며, 이를 위해 직선과 개발 값들 간의 오차를 최소화 하는 직선을 찾는 것을 목표로 합니다.종속변수가 1개, 독립변수가 2개 이상이면 다중회귀분석이라고 하고, 종속변수와 독립변수 간의 관계가 log나 거듭제곱과 같은 비선형 관계일 경우에는 비선형 회귀분.. 2024. 8. 20. 오버피팅과 언더피팅 독립변수가 1개인 데이터이고 파란점은 훈련셋의 데이터입니다. 만약 위의 데이터를 가지고 아주 정확한 예측 모델을 만든다면 아래와 같은 빨간 곡선 형태가 예측값이 됩니다 이 예측 모델을 가지고 시험셋을 예측하면 어떻게 되는지 보겠습니다 위 그래프에서 노란색 원들은 시험셋의 데이터이고 점선은 예측치와 실제값 사이의 오차를 의미합니다. 예측모델이 훈련셋을 지나치게 잘 예측한다면 위와 같이 새로운 데이터를 예측할때 큰 오차를 유발할 수 있습니다.이런 상황을 오버피팅(overfitting, 과적합) 이라고 합니다. 현실데이터에는 어느 정도의 오차 범위가 있고 때로는 아웃라이어도 있기 때문에 훈련셋에 아주 딱 떨어지는 예측 모델을 만드는 것보다 어느정도 두리뭉실한 수준으로 예측하는 것이 오히려 새로운 데이터 예측.. 2024. 8. 19. 독립변수, 종속변수, 연속형 변수, 범주형 변수 독립 변수 (Independent Variable)원인. 예측에 활용하는 변수예측에 사용되는 재료와 같은 변수들입니다. 피처 변수라고도 부릅니다종속변수(Dependent Variable)결과. 예측하려는 대상예측을 하려는 대상변수이면 목표 변수라고도 합니다.예시키, 몸무게, 성별을 이용하여 보험료를 예측하는 머신로닝 모델을 만든다고 할때키, 몸무게, 성별은 독립변수 이고 보험료는 종속 변수 입니다. 결과에 영향을 주는 매개변수로 사고 발생율을 입력할 수 있습니다연속형 변수와 범주형 변수연속형 변수는 나이, 키와 같이 연속적으로 이어지는 변수입니다.반면 범주형 변수는 이어지는 숫자가 아닌 각 범주로 구성된 변수입니다. 예를 들어 계절이나 성별은 범주형 변수입니다.연속형 변수에서는 데이터간의 크고 작음을 비.. 2024. 8. 16. 피처 엔지니어링 기법 종류모델 학습에 사용할 데이터를 풍성하고 가치 있게 만드는 작업입니다.머신러닝은 데이터가 좋을수록 더 좋은 결과를 얻을 수 있습니다.기법설명유용한 곳결측치 처리데이터가 누락된 부분을 평균, 특정값 등으로 채우는 기법데이터 누락으로 많은 데이터를 사용하지 못할때아웃라이어 처리다른 데이터 무리들과는 크게 벗어나는 아웃라이어를 제거하거나 값을 조정해 튀는 데이터가 없도록 하는 기법선형 모델과 같이 아웃라이어의 영향에 민감한 모델바이닝 (Binning)연속된 수치로 된 데이터를 특정 구간으로 묶는 기법. 예를 들어 나이를 10대, 20대, 30대 등으로 묶는 경우오버피팅으로 모델 성능이 문제될 때로그변환데이터에 로그를 씌워 왜곡된 데이터를 정규화 하는 방법데이터 형태가 왜곡되어 변환이 필요한 경우. 특히 선형모.. 2024. 8. 14. 머신러닝 핵심 라이브러리 머신러닝구분설명넘파이numpy다차원 배열에 대한 빠른 처리를 지원하는 라이브러리판다스pandas인간친화적인 자료구주를 제공해 데이터를 넘파이보다 쉽게 읽고 변형할 수 있음사이킷런sklearn데이터 분석과 머신러닝 관련 다양한 기능을 지원하는 강력한 라이브러리. 데이터 전처리, 모델링, 모델평가 등 굉장히 광범위한 분야 지원맷플롯립maplot시간화 라이브러리시본seaborn맷플롯립 기반으로 구현한 라이브러리. 맷플롯립보다 사용이 쉽고 더 깔끔한 결과물을 보여줌 딥러닝구분설명텐서플로TensorflowGoogle Brain Team 개발. Python, C++, JAVA 모두 사용가능파이토치PytorchMeta 개발. 텐서플로에 비해 쉬운 절차케라스keras단순하고 쉬운 개발 인터페이스 데이터 시각화 그래프 .. 2024. 8. 13. 경사하강법(gradient descent) 경사하강법은 머신러닝이 학습 시킬 때 최소의 오차를 찾는 방법입니다. 오차 함수에 대한 경사도(미분계수)를 기준으로 매개변수를 반복적으로 이동해가며 최소 오차를 찾습니다.여기서 말하는 매개변수는 선형 회귀로 치면 계수(변수에 대한 기울기 값)에 해당합니다. 예를 들어 매개변수(x)에 대한 오차(y) 수식이 다음과 같다고 가정해보겠습니다$y = x^{2} - 4x + 10$여기서 오차 y의 최소값은 위 수식을 x에 대해 미분하면 됩니다. f’(x)=2x-4 이므로 x가 2일때 최소값 6이 나온다는 사실을 쉽게 알 수 있습니다. 그래프에서 미분값은 접선의 기울기를 의미하고 y가 최소값이 되는 지점에서 기울기는 0입니다.경사하강법은 임의의 매개변수에서 시작하여 미분값, 즉 오차값 그래프에서 접선의 기울기를 확.. 2024. 8. 12. 이전 1 2 3 다음