용어정리집 (glossary)

ML/AI 용어정리집 (glossary)

데이터_박과장 2023. 3. 16. 09:43

기계가 데이터를 사람처럼 학습하고 인사이트를 도출해 내는 과정이다 보니, 선형대수, 통계, 회귀분석 등 다양한 분야에서 많은 토픽이 등장한다. 주요 용어를 간단히 정리해 보았는데 용어를 보면서 이 용어에 대해 어느정도 이해도가 있는지 스스로 진단하고 부족한 부분에 대해서는 추가적인 학습을 하고 이해도를 높여나가는 방식으로 공부를 진행할 수 있을 것이다.

 

 

인공지능 (Artificial Intelligence): 컴퓨터 프로그램이 인간의 학습 능력, 추론 능력, 언어 이해 능력, 시각 및 청각 인식 능력 등 인간의 지적 능력을 모방하는 기술.

기계 학습 (Machine Learning): 컴퓨터가 데이터를 분석하고 패턴을 인식하여 스스로 학습하고 결정을 내릴 수 있는 능력을 갖춘 기술.

딥 러닝 (Deep Learning): 인공 신경망을 사용하여 컴퓨터가 대규모 데이터 세트에서 복잡한 패턴을 학습하는 기술.

훈련 데이터 (Training Data): 기계 학습 모델을 훈련시키기 위한 입력 데이터 세트.

테스트 데이터 (Test Data): 기계 학습 모델의 성능을 평가하기 위한 입력 데이터 세트.

모델 (Model): 기계 학습 알고리즘을 사용하여 생성된 예측 모형.

분류 (Classification): 기계 학습 모델이 입력 데이터를 분류하고 레이블을 지정하는 작업.

회귀 (Regression): 기계 학습 모델이 입력 데이터와 출력 값 사이의 관계를 학습하여 값을 예측하는 작업.

군집화 (Clustering): 기계 학습 모델이 입력 데이터를 비슷한 그룹으로 묶는 작업.

강화 학습 (Reinforcement Learning): 컴퓨터가 행동을 선택하고 그 결과에 따라 보상을 받아 최적의 결과를 찾는 학습 방법.

신경망 (Neural Network): 인공지능 모델 중 하나로, 뇌의 뉴런을 모방하여 입력 데이터와 출력 값을 연결하는 알고리즘.

모델 평가 (Model Evaluation): 테스트 데이터를 사용하여 모델의 성능을 측정하고 평가하는 작업.

오버피팅 (Overfitting): 모델이 훈련 데이터에 지나치게 적합해져 테스트 데이터에서 성능이 떨어지는 현상.

언더피팅 (Underfitting): 모델이 훈련 데이터에 적합하지 않아 테스트 데이터에서도 성능이 떨어지는 현상.

정확도 (Accuracy): 모델이 올바르게 분류한 데이터 비율.

 

경사 하강법 (Gradient Descent): 기계 학습 모델이 최적의 매개 변수를 찾기 위해 비용 함수의 기울기를 따라 이동하는 최적화 알고리즘.

학습률 (Learning Rate): 경사 하강법에서 매개 변수를 업데이트할 때 적용되는 스칼라 값.

미니 배치 (Mini-batch): 훈련 데이터를 작은 그룹으로 나누어 한 번에 모델에 공급하는 방식.

교차 검증 (Cross-validation): 모델이 일반화되도록 훈련 및 평가를 여러 번 반복하는 검증 방법.

초매개 변수 (Hyperparameter): 기계 학습 모델의 학습 과정 및 알고리즘에 영향을 미치는 매개 변수.

일반화 (Generalization): 모델이 훈련 데이터에서 학습한 내용을 새로운 데이터에 적용하는 능력.

비지도 학습 (Unsupervised Learning): 입력 데이터에 레이블이 없는 경우 사용되는 기계 학습 방법.

지도 학습 (Supervised Learning): 입력 데이터에 레이블이 있는 경우 사용되는 기계 학습 방법.

감독 없는 사전 훈련 (Unsupervised Pre-training): 미리 훈련된 모델을 초기 가중치로 사용하여 다른 작업에 대한 모델을 학습하는 방법.

데이터 마이닝 (Data Mining): 대규모 데이터 세트에서 유용한 정보를 추출하는 프로세스.

오차 역전파 (Backpropagation): 신경망에서 오차를 최소화하기 위해 출력 층에서 입력 층으로 가중치를 역으로 업데이트하는 알고리즘.

가중치 (Weights): 기계 학습 모델에서 입력 데이터와 출력 값 사이의 관계를 표현하는 매개 변수.

편향 (Bias): 기계 학습 모델에서 출력 값을 조정하는 매개 변수.

오차 (Error): 모델이 예측한 값과 실제 값 사이의 차이.

샘플링 (Sampling): 대규모 데이터 세트에서 일부 데이터를 선택하는 과정.

랜덤 포레스트 (Random Forest): 다수의 의사 결정 트리를 조합하여 분류 및 회귀 분석을 수행하는 앙상블 기법.

 

배치 (Batch): 한 번에 모델에 입력되는 데이터의 양.

에포크 (Epoch): 전체 데이터 세트에 대해 모델이 훈련되는 횟수.

학습률 (Learning Rate): 경사하강법에서 가중치와 편향을 업데이트하는 데 사용되는 매개 변수.

정규화 (Regularization): 모델이 오버피팅되지 않도록 가중치를 제한하는 기술.

드롭아웃 (Dropout): 모델에서 무작위로 선택된 뉴런을 제거하여 오버피팅을 방지하는 기술.

컨볼루션 신경망 (Convolutional Neural Network): 이미지 처리와 같은 고차원 데이터에서 작동하는 인공 신경망.

순환 신경망 (Recurrent Neural Network): 시퀀스 데이터에서 작동하는 인공 신경망.

생성적 적대 신경망 (Generative Adversarial Network): 이미지, 음성 및 비디오 같은 데이터를 생성하는 인공 신경망.

자연어 처리 (Natural Language Processing): 인간의 언어를 기계가 이해하고 분석하는 기술.

토큰화 (Tokenization): 자연어 문장을 작은 단위로 나누는 작업.

정규화 (Normalization): 자연어 문장을 규칙에 따라 변환하여 일관된 형식으로 만드는 작업.

단어 임베딩 (Word Embedding): 단어를 벡터 공간에 매핑하여 컴퓨터가 이해할 수 있는 형식으로 변환하는 작업.

감성 분석 (Sentiment Analysis): 텍스트 데이터의 긍정적 또는 부정적인 감정을 분류하는 기술.

토픽 모델링 (Topic Modeling): 텍스트 데이터에서 주제를 추출하는 기술.