확률통계 4

로지스틱 회귀(Logistic Regression)

로지스틱 회귀(Logistic Regression)는 분류(Classification) 알고리즘 중 하나로, 입력 변수(x)와 이진 종속 변수(y) 사이의 관계를 찾는 모델입니다. 이진 종속 변수는 보통 0과 1로 표현되며, 로지스틱 회귀 모델은 입력 변수와 이진 종속 변수 간의 선형 관계를 모델링하기 때문에 선형 분류 문제에 많이 사용됩니다. 로지스틱 회귀 모델은 이진 분류뿐만 아니라 다중 분류(Multiclass Classification) 문제에도 적용할 수 있습니다. 다중 분류 문제에서는 소프트맥스 함수(Softmax function)를 사용하여 각 클래스에 대한 확률값을 계산하고, 가장 높은 확률값을 가진 클래스로 분류합니다. 로지스틱 회귀에서는 회귀선을 맞추는 대신 "S"자 모양의 로지스틱 함..

정규화 (Regularization)

회귀분석에서 regularization은 모델이 과적합(overfitting)되지 않도록 하기 위해 모델의 복잡도를 제한하는 기법입니다. Regularization은 모델이 예측할 때 사용되는 변수의 개수를 줄이는 것으로, 모델의 복잡도를 줄여서 일반화 성능을 높이는 것을 목적으로 합니다. Regularization은 주로 선형 회귀 모델에서 사용됩니다. 일반적으로 선형 회귀 모델에서 가중치(w)의 크기가 큰 경우, 모델은 과적합될 가능성이 높아집니다. 따라서 regularization은 가중치의 크기를 제한하는 방법으로 모델의 과적합을 방지합니다. 선형 회귀 모델에서는 주로 L1 regularization(Lasso)과 L2 regularization(Ridge)이 사용됩니다. L1 regulariza..

선형회귀(Linear Regression)

선형 회귀는 통계학에서 가장 기본적인 회귀 분석 기법 중 하나로, 하나의 독립 변수와 하나의 종속 변수 간의 선형적인 관계를 모델링하는 것입니다. 선형 회귀 모델은 종속 변수(y)와 독립 변수(x) 사이의 선형 관계를 설명하기 위해 일차 함수의 형태를 사용합니다. 즉, y = mx + b 형태의 방정식으로 표현됩니다. 여기서 m은 기울기(coefficient)를 의미하고, b는 y 절편(intercept)을 나타냅니다. 선형 회귀는 다음과 같은 단계로 수행됩니다. 데이터 수집: 종속 변수와 독립 변수를 포함하는 데이터를 수집합니다. 데이터 전처리: 데이터를 정제하고 결측치를 처리합니다. 모델링: 선형 회귀 모델을 적용하여 종속 변수와 독립 변수 간의 관계를 모델링합니다. 모델 평가: 모델의 성능을 평가하..

확률통계 개념정리

ML/AI 를 공부할 때 등장하는 확률 통계 용어를 정리하고자 합니다. ML/AI에서 이를 다루는 이유는 확률은 불확실성을 표현하는 언어 라고 보시면 됩니다. 머신러닝, 인공지능분야는 확률의 관점에서 결론을 내리기 때문입니다. 사진학습 예시: [p(lion), p(tiger)] = [0.01, 0.99] [p(lion), p(tiger)] = [0.98, 0.02] 향후 관심을 가지고 현업에 계시거나 혹은, 논문을 보실 때 나올만한 용어를 정리합니다. 확률론 (probability theory) : 실제로 발생하는 다양한 결과들의 기회 혹은 가능성을 이해하거나 설명하는 이론. 표본공간과 사건 (Sample space, Event) 표본공간(sample space) : 실험에 의하여 가능한 모든 결과의 집..