언더피팅1 오버피팅과 언더피팅 독립변수가 1개인 데이터이고 파란점은 훈련셋의 데이터입니다. 만약 위의 데이터를 가지고 아주 정확한 예측 모델을 만든다면 아래와 같은 빨간 곡선 형태가 예측값이 됩니다 이 예측 모델을 가지고 시험셋을 예측하면 어떻게 되는지 보겠습니다 위 그래프에서 노란색 원들은 시험셋의 데이터이고 점선은 예측치와 실제값 사이의 오차를 의미합니다. 예측모델이 훈련셋을 지나치게 잘 예측한다면 위와 같이 새로운 데이터를 예측할때 큰 오차를 유발할 수 있습니다.이런 상황을 오버피팅(overfitting, 과적합) 이라고 합니다. 현실데이터에는 어느 정도의 오차 범위가 있고 때로는 아웃라이어도 있기 때문에 훈련셋에 아주 딱 떨어지는 예측 모델을 만드는 것보다 어느정도 두리뭉실한 수준으로 예측하는 것이 오히려 새로운 데이터 예측.. 2024. 8. 19. 이전 1 다음