머신러닝

나이브 베이즈 (naïve bayes)

데이터_박과장 2023. 3. 28. 09:41

나이브 베이즈 (Naive Bayes)는 베이즈 이론을 기반으로 하는 확률 분류 모델 중 하나입니다. 이 모델은 데이터의 특성 간 독립적인 가정을 하고, 이를 통해 간단하고 효과적인 분류 모델을 만들 수 있습니다.

 

출처

 

나이브 베이즈는 주어진 입력 변수(x)와 출력 변수(y) 사이의 조건부 확률인 P(y|x)를 추정하는데 사용됩니다. 이 모델은 베이즈 정리를 사용하여 이 확률을 추정합니다.

P(y|x) = P(x|y) * P(y) / P(x)

여기서 P(y|x)는 입력 변수 x가 주어졌을 때 출력 변수 y가 발생할 확률입니다. P(x|y)는 출력 변수 y가 주어졌을 때 입력 변수 x가 발생할 확률입니다. P(y)는 출력 변수 y의 사전 확률이며, P(x)는 입력 변수 x의 확률입니다.

나이브 베이즈 모델에서는 입력 변수들 간에 독립적이라는 가정을 하므로, P(x|y)는 다음과 같이 계산됩니다.

P(x|y) = P(x1|y) * P(x2|y) * ... * P(xn|y)

여기서 x1, x2, ..., xn은 입력 변수의 특성을 나타내며, n은 특성의 개수입니다. 각각의 특성에 대한 확률 분포는 주로 가우시안 분포, 베르누이 분포, 다항 분포 등이 사용됩니다.

나이브 베이즈 모델은 간단하고 빠르게 학습이 가능하며, 대규모 데이터셋에서도 잘 동작합니다. 이 모델은 스팸 메일 분류, 감성 분석 등 다양한 분류 문제에 사용됩니다.

 

 

Naïve Bayes 의 뜻


Naïve와 Bayes라는 두 단어로 구성되어 있는데, 다음과 같이 설명할 수 있습니다:

  • Naïve(순진한): Naïve는 각 특성(feature)의 발생이 다른 특성들의 발생과 독립적이라고 가정하기 때문에 이러한 이름을 갖고 있습니다. 예를 들어, 과일을 색, 모양, 맛 등의 특성으로 구분한다면, 빨간색, 동그란 모양, 달콤한 속성을 가진 과일은 사과로 인식됩니다. 따라서 각 특성이 서로 독립적으로 작동하여, 다른 특성에 의존하지 않고 개별적으로 사과를 식별할 수 있다는 가정입니다.
  • Bayes: Bayes는 Bayes' 정리를 기반으로 하기 때문에 이러한 이름을 갖고 있습니다.

 

 

Naïve Bayes 분류의 장단점

장점:

  • 빠른 속도: 나이브 베이즈 분류기는 간단한 모델 구조로 이루어져 있기 때문에 학습과 예측 속도가 빠릅니다.
  • 작은 데이터셋에서도 잘 작동: 나이브 베이즈 분류기는 작은 크기의 데이터셋에서도 잘 작동합니다.
  • 간단한 구조: 나이브 베이즈 분류기는 구조가 간단하고, 파라미터 수가 적어서 모델의 설명력이 높습니다.
  • 이진 분류에서 효과적: 이진 분류 문제에서 효과적입니다.

 

단점:

  • 독립 변수 가정: 나이브 베이즈 분류기는 독립 변수들이 서로 독립적이라는 가정을 하고 있습니다. 하지만 실제 데이터에서는 독립적인 변수가 드물기 때문에 이 가정이 성립하지 않을 수 있습니다.
  • 깨끗한 데이터셋 필요: 나이브 베이즈 분류기는 품질 좋은 데이터셋에서만 잘 작동합니다. 특히, 불균형한 클래스 분포에서는 정확도가 떨어질 수 있습니다.
  • 과적합 가능성: 나이브 베이즈 분류기는 모델의 유연성이 낮기 때문에 과적합될 가능성이 있습니다.
    예측 성능 제한: 다른 더 복잡한 분류 모델에 비해 예측 성능이 제한될 수 있습니다.

 

 

Naïve Bayes의 종류:

  • 가우시안 (Gaussian): 가우시안 모델은 특징(feature)이 정규 분포를 따른다고 가정합니다. 이는 예측 변수가 이산적(discrete)이 아닌 연속적인 값을 가질 경우, 모델이 이 값들이 가우시안 분포에서 샘플링된 것으로 가정한다는 것을 의미합니다.
  • 다항 분포 (Multinomial): 다항 분포 나이브 베이즈 분류기는 데이터가 다항 분포를 따를 때 사용됩니다. 이 모델은 주로 문서 분류 문제에서 사용되며, 특정 문서가 스포츠, 정치, 교육 등 어떤 범주에 속하는지 예측합니다. 분류기는 예측 변수로 단어의 빈도를 사용합니다.
  • 베르누이 (Bernoulli): 베르누이 분류기는 다항 분포 분류기와 비슷한 방식으로 작동하지만, 예측 변수는 독립적인 부울(boolean) 변수입니다. 즉, 특정 단어가 데이터셋에 있는지 없는지를 사용합니다. 이 모델은 문서 데이터 분류 작업에서도 많이 사용됩니다."