본문 바로가기
IT/머신러닝

나이브 베이즈(Naive Bayes)

by silvermoon79 2024. 9. 11.

정의

나이브 베이즈는 베이즈 정리를 적용한 조건부 확률 기반의 분류 모델입니다. 여기서 조건부 확률은 A가 일어났을 때 B가 일어날 확률을 의미합니다. 에를 들어 ‘무료라는 단어가 들어 있을 때 해당 메일리 스팸일 확률’ 같은 경우입니다. 이러한 특징으로 스팸 필터링을 위한 대표적인 모델로 꼽힙니다.

최근에는 딥러닝 같은 대안이 있어서 나이브 베이즈 모델을 잘 쓰지는 않습니다만 스팸 메일 필터처럼 자연어 처리가 목적일 때는 여전히 나이브 베이즈 모델이 좋은 선택이 될수 있습니다.

딥러닝이 자연어 처리에 더 탁월한 모습을 보여주지만 좀더 간단한 방법으로 자연어 처리를 원할때.

 

예시

장단점

장점 단점
비교적 간단한 알고리즘에 속하며 속도 또한 빠릅니다. 모든 독립변수가 각각 독립적임을 전제로 하는데 이는 장점이 되기도 하고 단점이 되기도 합니다. 실제로 독립변수들이 모두 독립적이라면 다른 알고리즘보다 우수할 수 있지만 실제 데이터에서 그런 경우가 많지 않기 때문에 단점이기도 합니다.
작은 훈련셋으로도 잘 예측합니다.  

베이즈 정리

베이즈 정리(Bayes' Theorem)는 확률론과 통계학에서 중요한 정리로, 어떤 사건의 사후 확률을 계산하는 데 사용됩니다. 베이즈 정리는 새로운 증거가 주어졌을 때 어떤 가설의 확률을 업데이트하는 방법을 제공합니다. 이를 수식으로 표현하면 다음과 같습니다

Must Have 데싸노트의 실전에서 통하는 머신러닝 / 권시현 / 2022년, 골든래빗