머신러닝 17

파이썬 라이브러리를 활용한 머신러닝 (1/3)

본 페이지는 "파이썬 라이브러리를 활용한 머신러닝"의 데이터와 코드 이해를 돕고자 작성한 페이지 입니다. 책을 구매해 주시면 감사하겠습니다. 머신러닝을 위한 질문 어떤 정보를 얻기 위해 질문을 하고 있나요? 그 정보는 제공 가능한 데이터로부터 추론될 수 있나요? 머신러닝의 관점에서, 내가 가진 문제를 가장 잘 기술하는 방법은 무엇일까요? 문제를 해결하는 데 필요한 데이터는 충분히 수집되었나요? 수집한 데이터의 특성은 무엇이며, 좋은 예측 결과를 만들어낼 수 있을까요? 머신러닝 모델의 성능을 어떻게 측정할 수 있나요? 머신러닝 솔루션이 다른 연구나 제품과 어떻게 상호작용할 수 있을까요? 머신러닝으로 해결할 수 있는 문제 예시: 지도 학습: 손으로 쓴 우편번호 숫자 인식 의료 영상을 기반으로 한 종양 판단 ..

머신러닝 2023.03.24

앙상블 기법(Ensemble Technique)

앙상블 기법(Ensemble Technique) 앙상블 기법은 무엇인가요? 앙상블 기법은 여러 개의 기본 모델을 결합하여 하나의 최적 예측 모델을 만드는 머신러닝 기법입니다. 앙상블 기법은 단일 모델보다 높은 예측 성능을 보일 수 있으며, 일반적으로 모델의 안정성과 성능을 향상시킵니다. 의사결정나무 (decision tree)는 조건에 기반하여 예측 값을 결정합니다. 예를 들어, 위의 의사결정나무 예시는 개인이 외출을 해야 할 지 여부를 결정합니다. 여러 날씨 요소를 고려하며 결정하거나 다른 질문으로 넘어갑니다. 여기서는 날씨가 흐릴 때마다 외출할 것입니다. 그러나 비가 오는경우엔, 바람이 불었는지 확인해야 합니다. 바람이 불면 외출하지 않을 것이고 바람이 불지 않는다면 외출 준비를 하면 됩니다. 의사결..

머신러닝 2023.03.23

정규화 (Normalization)

Normalization은 데이터셋의 값을 표준화하여 더 효율적인 분석을 가능하게 하는 데이터 전처리 기법입니다. 일반적으로 정규화는 모든 feature의 값을 0과 1 사이로 조정하는 것을 말합니다. 데이터 분석에서는 일반적으로 다른 feature들과 크기나 단위가 다른 feature이 있을 경우, 그 값들이 분석에 미치는 영향력이 커지고 정확한 예측이 어려울 수 있습니다. 이러한 문제를 해결하기 위해 normalization을 사용합니다. Normalization의 장점 데이터 분포를 표준화하여 데이터 분석에서 좀 더 안정적인 결과를 얻을 수 있습니다. 서로 다른 scale을 가진 feature들을 비교할 수 있습니다. Outlier의 영향을 줄일 수 있습니다. 학습 시 더 빠르게 수렴할 수 있습니다..

머신러닝 2023.03.21

과대적합(Overfitting)과 과소적합(Underfitting)

과대적합(Overfitting)과 과소적합(Underfitting)은 머신러닝에서 모델의 성능과 관련된 중요한 개념입니다. 과대적합은 모델이 학습 데이터에 지나치게 맞추어져 새로운 데이터에 대해서는 일반화(generalization) 능력이 부족한 상태를 의미합니다. 즉, 모델이 훈련 데이터에 대해서는 높은 정확도를 보이지만, 새로운 데이터에 대해서는 성능이 낮아지는 현상입니다. 과대적합이 발생하면 모델은 훈련 데이터에 너무 적합화되어 새로운 데이터를 처리할 때 예측력이 떨어지는 경우가 많습니다. 과소적합은 반대로 모델이 학습 데이터를 제대로 학습하지 못하여, 훈련 데이터에 대한 정확도가 낮은 상태를 의미합니다. 이 경우에는 새로운 데이터나 실제 데이터에서도 성능이 저하될 가능성이 높습니다. 모델의 총 ..

머신러닝 2023.03.20

K-최근접 이웃(K-NN) 알고리즘

KNN(K-Nearest Neighbors, 최근접 이웃)은 지도학습(supervised learning)에서 사용되는 분류(classification) 및 회귀(regression) 알고리즘 중 하나입니다. 여기서 말하는 분류(Classification) 알고리즘은 지도학습(Supervised Learning)의 일종으로, 입력 데이터(input)를 미리 정의된 카테고리 또는 클래스(class) 중 하나로 분류하는 모델을 학습하는 알고리즘입니다. 분류 알고리즘은 다양한 분야에서 활용되며, 예를 들어 스팸 메일 필터링, 질병 진단, 이미지 분류 등 다양한 분야에서 사용됩니다. KNN 알고리즘은 새로운 데이터가 주어졌을 때, 이 데이터와 가장 가까운 K개의 이웃 데이터들을 찾아서 이 데이터의 클래스 또는 ..

머신러닝의 분류 (taxonomy of Machine learning)

머신러닝의 흐름을 이해할 수 있도록 분류체계에 대한 이해를 돕고자 한다. 서플라이체인과 관련하여 머신러닝이 사용된다는 포브스의 기사가 있고 관련 사진을 공유한다. 시간이 되시는 분들은 출처링크에 가서 기사를 읽어보는 것을 추천한다. Forbes - 10 Ways Machine Learning Is Revolutionizing Supply Chain Management 머신러닝의 3가지 분류 지도학습(Supervised Learning) - 분류 , 회귀 정답을 알려주며 학습시키는 것을 의미한다. 환자별 질병 증상데이터에(input) 발병 미발병 등 (labelling)을 기록하여 컴퓨터에 전달한다. 컴퓨터는 학습과 검증데이터를 통해(train set, test set) 학습이 올바로 되었는지 확인할 수 ..

머신러닝 2023.03.16

주성분 분석(Principal component analysis)

주성분 분석(Principal Component Analysis, PCA)은 머신러닝에서 차원 축소에 사용되는 비지도학습 알고리즘입니다. 상관관계가 있는 여러 특성들의 관측치를 직교 변환을 통해 선형적으로 상관성이 없는 주성분으로 변환하고 이러한 변환된 새로운 특성들은 주성분이라고 부릅니다. 주성분 분석은 탐색적 데이터 분석과 예측 모델링에 많이 사용되며 데이터셋의 분산을 줄이기 위해 강력한 패턴을 도출하는 방법입니다. 아래와 같은 3차원 데이터 셋을 가정하는 겁니다. 3개의 축을 기준으로 각 데이터의 위치를 설명해야 합니다. PCA는 일반적으로 고차원 데이터를 투영할 저차원 면을 찾는데, 이는 각 특성의 분산을 고려하여 작동합니다. 분산이 높을수록 좋은 분류가 가능하므로 데이터 차원을 축소시킵니다. P..