IT/머신러닝18 부스팅 모델의 발전 트리모델의 진화과정배깅배깅은 부트스트랩(bootstrap) 훈련셋을 사용하는 트리 모델입니다. 부트스트랩은 데이터의 일부분을 무작위로 반복 추출하는 방법입니다. 추출한 데이터의 여러 부분집합을 사용해 여러 트리를 만들어 오버피팅을 방지합니다. 랜덤 포레스트는 배깅에서 한단계 더 발전된 모델입니다.부스팅과 에이다부스트부스팅은 랜덤 포레스트에서 한단계 더 발전한 방법으로 역시 여러 트리를 만드는 모델입니다.가장 큰 차이점은 랜덤 포레스트에서 각 트리는 독립적이나 부스팅에서는 그렇지 않다는 것입니다.다시 말해 랜덤 포레스트에서는 각 트리를 만들 때 이전에 만든 트리와 상관없이 새로운 데이터 부분집합과 변수 부분집합을 이용합니다.반면 부스팅은 각 트리를 순차적으로 만들면서 이전 트리의 정보를 이용합니다. 부분집.. 2024. 11. 13. XGBoost(eXtreme Gradient Boost) 정의랜덤 포레스트는 각 트리를 독립적으로 만드는 알고리즘 입니다. 반면 부스팅은 순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어내는 알고리즘입니다. 부스팅 알고리즘은 트리 모델을 기반으로 한 최신 알고리즘 중 하나로 랜덤 포레스트보다 휠씬 빠른 속도와 더 좋은 예측 능력을 보여줍니다.부스팅 알고리즘 중 XGBoost는 가장 먼저 개발되기도 했고 가장 널리 사용됩니다. 우수한 성능으로 인해 캐글 대회에서 많은 사람들이 사용하는 인기 있는 알고리즘입니다.XGBoost는 Gradient Boosting 알고리즘을 기반으로 사용합니다. XGBoost의 경우 병렬 처리를 기반으로 하기 때문에 속도가 빠른 편이며 과적합 규제 기능이 있습니다. 분류(classification)와 휘귀(regressi.. 2024. 10. 25. 랜덤 포레스트(Random Forest) 정의랜덤 포레스트 모델은 결정 트리의 단점인 오버피팅 문제를 완화 시켜주는 발전된 형태의 트리 모델입니다. 랜덤으로 생성된 무수한 트리를 이용하여 예측을 하기 때문에 랜덤 포레스트라 불립니다.이렇게 여러모델(여기서는 결정트리)을 활용하여 하나의 모델을 이루는 기법을 앙상블이라 부릅니다.랜덤포레스트는 앙상블기법을 사용한 트리 기반 모델 중 가장 보편적인 방법입니다. 이후에 나온 부스팅 모델에 비하면 예측력이나 속도에서 부족한 부분이 있고 시각화에는 결정 트리에 못미치나 부스팅 모델을 이해하려면 알아야 하는 알고리즘입니다. 예시장단점장점단점결정트리와 마찬가지로 아웃라이어에 거의 영향을 받지 않습니다학습 속도가 상대적으로선형/비선형 데이터에 상관없이 잘 작동합니다수많은 트리를 동원하기 때문에 모델에 대한 해석.. 2024. 9. 24. 나이브 베이즈(Naive Bayes) 정의나이브 베이즈는 베이즈 정리를 적용한 조건부 확률 기반의 분류 모델입니다. 여기서 조건부 확률은 A가 일어났을 때 B가 일어날 확률을 의미합니다. 에를 들어 ‘무료라는 단어가 들어 있을 때 해당 메일리 스팸일 확률’ 같은 경우입니다. 이러한 특징으로 스팸 필터링을 위한 대표적인 모델로 꼽힙니다.최근에는 딥러닝 같은 대안이 있어서 나이브 베이즈 모델을 잘 쓰지는 않습니다만 스팸 메일 필터처럼 자연어 처리가 목적일 때는 여전히 나이브 베이즈 모델이 좋은 선택이 될수 있습니다.딥러닝이 자연어 처리에 더 탁월한 모습을 보여주지만 좀더 간단한 방법으로 자연어 처리를 원할때. 예시장단점장점단점비교적 간단한 알고리즘에 속하며 속도 또한 빠릅니다.모든 독립변수가 각각 독립적임을 전제로 하는데 이는 장점이 되기도 하.. 2024. 9. 11. K-최근접이웃(K-NN, K-Nearest Neighbors) K-최근접 이웃은 거리 기반 모델입니다. 각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델입니다. 이 때 가까이에 있는 데이터를 고려하여 예측값이 결정됩니다. K Nearest Neighbors 라는 이름은 이를 반영하고 있는데 K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미입니다.장점단점수식에 대한 설명이 필요 없을 만큼 직관적이고 간단합니다데이터가 커질수록 상당히 느려질수 있습니다선형 모델과 다르게 별도의 가정이 없습니다예를 들어 선형 회귀는 독립변수와 종속변수의 선형 관계를 가정하고 있기 때문에 이 가정이 들어맞지 않는 데이터에 취약하나 kNN은 이러한 가정이 없어서 더 자유롭습니다. 아웃라이어에 취약합니다그림을 보고 이해 해보겠습니다 원(●)은 새로운 데이터인데 과거 데이터를 .. 2024. 8. 30. 로지스틱 회귀분석(Logistic Regression) 정의로지스틱 회귀는 선형 회귀처럼 기본 분석 모델입니다. 로지스틱 회귀 분석은 알고리즘 근간을 선형회귀 분석에 두고 있어서 선형 회귀 분석과 상당히 유사하지만 다루는 문제가 다릅니다.선형 회귀 분석은 연속된 변수를 예측하는 반면, 로지스틱 회귀 분석은 Yes/No 처럼 두가지로 나뉘는 분류 문제를 다룹니다.예시장단점장점단점선형 회귀 분석만큼 구현하기 용이합니다선형 회귀 분석을 근간으로 하고 있기 때문에 선형 관계가 아닌 데이터에 대한 예측력이 떨어집니다계수(기울기)를 사용해 각 변수의 중요성을 쉽게 파악할 수 있습니다 Packageimport statsmodels.api as sm평가방법이진분류 평가방법중 가장 간단한 정확도(accuracy)를 사용합니다정확도정확도는 예측값과 실제값을 비교하여 얼마나 맞.. 2024. 8. 26. 이전 1 2 3 다음