IT20 엘라스틱 스택 개요 엘라스틱 스택 구조엘라스틱 스택은 데이터 수집가공을 담당하는 비츠, 로그스태시, 데이터 저장 및 검색을 제공하는 엘라스틱 서치, 시각화를 담당하는 키바나로 구성된다.상용 라이선스를 구입할 경우에는 그래픽 분석이나 머신러닝 같은 고급 기능도 사용가능하다.필요에 따라서는 시각화와 모니터링을 담당하는 키바나를 제외하고 빅데이터 파이프라인의 일부로 기능할 수 있다.구성요소엘라스틱 서치엘라스틱 서치는 모든 레코드를 JSON 도큐먼트 형태로 입력하고 관리하고 있으며 일반적인 데이터베이스와 같이 쿼리한 결과에 대해 일치하는 도큐먼트를 반환한다. 엘라스틱 서치는 텍스트 외에도 숫자, 날짜, IP 주소, 지리(geo) 정보 등 다양한 데이터 타입에 최적화 되어 있다. 일종의 NoSQL 데이터베이스라고 생각할 수 있다. .. 2024. 11. 25. 부스팅 모델의 발전 트리모델의 진화과정배깅배깅은 부트스트랩(bootstrap) 훈련셋을 사용하는 트리 모델입니다. 부트스트랩은 데이터의 일부분을 무작위로 반복 추출하는 방법입니다. 추출한 데이터의 여러 부분집합을 사용해 여러 트리를 만들어 오버피팅을 방지합니다. 랜덤 포레스트는 배깅에서 한단계 더 발전된 모델입니다.부스팅과 에이다부스트부스팅은 랜덤 포레스트에서 한단계 더 발전한 방법으로 역시 여러 트리를 만드는 모델입니다.가장 큰 차이점은 랜덤 포레스트에서 각 트리는 독립적이나 부스팅에서는 그렇지 않다는 것입니다.다시 말해 랜덤 포레스트에서는 각 트리를 만들 때 이전에 만든 트리와 상관없이 새로운 데이터 부분집합과 변수 부분집합을 이용합니다.반면 부스팅은 각 트리를 순차적으로 만들면서 이전 트리의 정보를 이용합니다. 부분집.. 2024. 11. 13. XGBoost(eXtreme Gradient Boost) 정의랜덤 포레스트는 각 트리를 독립적으로 만드는 알고리즘 입니다. 반면 부스팅은 순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어내는 알고리즘입니다. 부스팅 알고리즘은 트리 모델을 기반으로 한 최신 알고리즘 중 하나로 랜덤 포레스트보다 휠씬 빠른 속도와 더 좋은 예측 능력을 보여줍니다.부스팅 알고리즘 중 XGBoost는 가장 먼저 개발되기도 했고 가장 널리 사용됩니다. 우수한 성능으로 인해 캐글 대회에서 많은 사람들이 사용하는 인기 있는 알고리즘입니다.XGBoost는 Gradient Boosting 알고리즘을 기반으로 사용합니다. XGBoost의 경우 병렬 처리를 기반으로 하기 때문에 속도가 빠른 편이며 과적합 규제 기능이 있습니다. 분류(classification)와 휘귀(regressi.. 2024. 10. 25. 랜덤 포레스트(Random Forest) 정의랜덤 포레스트 모델은 결정 트리의 단점인 오버피팅 문제를 완화 시켜주는 발전된 형태의 트리 모델입니다. 랜덤으로 생성된 무수한 트리를 이용하여 예측을 하기 때문에 랜덤 포레스트라 불립니다.이렇게 여러모델(여기서는 결정트리)을 활용하여 하나의 모델을 이루는 기법을 앙상블이라 부릅니다.랜덤포레스트는 앙상블기법을 사용한 트리 기반 모델 중 가장 보편적인 방법입니다. 이후에 나온 부스팅 모델에 비하면 예측력이나 속도에서 부족한 부분이 있고 시각화에는 결정 트리에 못미치나 부스팅 모델을 이해하려면 알아야 하는 알고리즘입니다. 예시장단점장점단점결정트리와 마찬가지로 아웃라이어에 거의 영향을 받지 않습니다학습 속도가 상대적으로선형/비선형 데이터에 상관없이 잘 작동합니다수많은 트리를 동원하기 때문에 모델에 대한 해석.. 2024. 9. 24. 나이브 베이즈(Naive Bayes) 정의나이브 베이즈는 베이즈 정리를 적용한 조건부 확률 기반의 분류 모델입니다. 여기서 조건부 확률은 A가 일어났을 때 B가 일어날 확률을 의미합니다. 에를 들어 ‘무료라는 단어가 들어 있을 때 해당 메일리 스팸일 확률’ 같은 경우입니다. 이러한 특징으로 스팸 필터링을 위한 대표적인 모델로 꼽힙니다.최근에는 딥러닝 같은 대안이 있어서 나이브 베이즈 모델을 잘 쓰지는 않습니다만 스팸 메일 필터처럼 자연어 처리가 목적일 때는 여전히 나이브 베이즈 모델이 좋은 선택이 될수 있습니다.딥러닝이 자연어 처리에 더 탁월한 모습을 보여주지만 좀더 간단한 방법으로 자연어 처리를 원할때. 예시장단점장점단점비교적 간단한 알고리즘에 속하며 속도 또한 빠릅니다.모든 독립변수가 각각 독립적임을 전제로 하는데 이는 장점이 되기도 하.. 2024. 9. 11. K-최근접이웃(K-NN, K-Nearest Neighbors) K-최근접 이웃은 거리 기반 모델입니다. 각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델입니다. 이 때 가까이에 있는 데이터를 고려하여 예측값이 결정됩니다. K Nearest Neighbors 라는 이름은 이를 반영하고 있는데 K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미입니다.장점단점수식에 대한 설명이 필요 없을 만큼 직관적이고 간단합니다데이터가 커질수록 상당히 느려질수 있습니다선형 모델과 다르게 별도의 가정이 없습니다예를 들어 선형 회귀는 독립변수와 종속변수의 선형 관계를 가정하고 있기 때문에 이 가정이 들어맞지 않는 데이터에 취약하나 kNN은 이러한 가정이 없어서 더 자유롭습니다. 아웃라이어에 취약합니다그림을 보고 이해 해보겠습니다 원(●)은 새로운 데이터인데 과거 데이터를 .. 2024. 8. 30. 이전 1 2 3 4 다음