본문 바로가기
IT/머신러닝

XGBoost(eXtreme Gradient Boost)

by silvermoon79 2024. 10. 25.

정의

랜덤 포레스트는 각 트리를 독립적으로 만드는 알고리즘 입니다. 반면 부스팅은 순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어내는 알고리즘입니다. 부스팅 알고리즘은 트리 모델을 기반으로 한 최신 알고리즘 중 하나로 랜덤 포레스트보다 휠씬 빠른 속도와 더 좋은 예측 능력을 보여줍니다.

부스팅 알고리즘 중 XGBoost는 가장 먼저 개발되기도 했고 가장 널리 사용됩니다. 우수한 성능으로 인해 캐글 대회에서 많은 사람들이 사용하는 인기 있는 알고리즘입니다.

XGBoost는 Gradient Boosting 알고리즘을 기반으로 사용합니다. XGBoost의 경우 병렬 처리를 기반으로 하기 때문에 속도가 빠른 편이며 과적합 규제 기능이 있습니다. 분류(classification)와 휘귀(regression) 모두에 적용할 수 있으며 특정 기준에 맞으면 지정한 학습 횟수에 도달하기 전에 학습을 종료시키는 Early Stopping 기능도 있습니다.

예시

 

장단점

장점 단점
예측 속도가 상당히 빠르며 예측력 또한 좋습니다 복잡한 모델인 만큼 해석에 어려움이 있습니다
변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능을 보여줍니다 더 나은 성능을 위한 하이퍼파라미터 튜닝이 까다롭습니다

평가

Precision (정밀도)

  • 정의: 모델이 Positive로 예측한 것 중 실제로 Positive인 데이터의 비율을 의미합니다.
  • 공식: $Precision = \frac{TP}{TP + FP}$
    • TP (True Positive): 실제로 Positive인 데이터를 모델이 Positive로 예측한 경우.
    • FP (False Positive): 실제로는 Negative인 데이터를 모델이 Positive로 예측한 경우.
  • 의미: Precision은 모델이 잘못된 Positive 예측을 얼마나 자주 하는지 측정합니다. Precision이 높다는 것은 모델이 Positive로 예측한 것들 중에서 실제로 Positive인 비율이 높다는 것을 의미합니다.

Recall (재현율, 민감도)

  • 정의: 실제 Positive인 것 중에서 모델이 Positive로 정확히 예측한 비율을 의미합니다.
  • 공식: $recall = \frac{TP}{TP+FN}$
    • TP (True Positive): 실제로 Positive인 데이터를 모델이 Positive로 예측한 경우.
    • FN (False Negative): 실제로는 Positive인 데이터를 모델이 Negative로 예측한 경우.
  • 의미: Recall은 실제 Positive 데이터 중에서 모델이 얼마나 많이 잡아내는지를 측정합니다. Recall이 높다는 것은 모델이 실제 Positive 데이터를 잘 놓치지 않는다는 것을 의미합니다.

F1-Score

  • 정의: Precision과 Recall의 조화 평균을 의미하며, 이 두 지표 간의 균형을 측정합니다.
  • 공식: $f1-score = 2 * \frac{Precision*Recall}{Precision+Recall}$
  • 의미: F1-Score는 Precision과 Recall 사이의 트레이드 오프를 반영하는 지표입니다. 한쪽이 매우 높은 경우 다른 쪽이 낮을 수 있는데, F1-Score는 이 두 값을 균형 있게 평가합니다. F1-Score가 높다는 것은 Precision과 Recall이 모두 높아 균형 잡힌 성능을 가진 모델이라는 의미입니다.

활용 예시

  • Precision이 중요한 경우: 스팸 필터링 같은 경우, 잘못된 메시지를 스팸으로 분류하는 것이 사용자의 경험에 큰 영향을 줄 수 있으므로 Precision이 중요합니다.
  • Recall이 중요한 경우: 질병 진단 같은 경우, 실제 질병을 가진 사람을 놓치지 않는 것이 중요하므로 Recall이 중요합니다.
  • F1-Score가 중요한 경우: Precision과 Recall 모두 중요하며, 두 지표 간의 균형이 필요할 때 F1-Score를 사용하여 모델의 성능을 평가합니다.
Must Have 데싸노트의 실전에서 통하는 머신러닝 / 권시현 / 2022년, 골든래빗