병합군집(AGNES: Agglomerative Clustering)은 클러스터링 알고리즘 중 계층적 군집 알고리즘으로, 각 데이터 포인트를 처음에는 하나의 클러스터로 보고, 서로 가장 가까운 클러스터를 합쳐가면서 클러스터링을 수행하는 방법입니다.
알고리즘 실행순서:
- 각 데이터 포인트를 하나의 클러스터로 간주합니다.
- 클러스터 간 거리를 계산하여 가장 가까운 두 클러스터를 찾습니다.
- 두 클러스터를 합쳐서 하나의 클러스터로 만듭니다.
- 모든 클러스터가 하나의 클러스터가 될 때까지 2-3 과정을 반복합니다.
병합군집에서 거리 측정 방법에 따라 Single linkage, Complete linkage, Average linkage 세 가지 방법이 있습니다.
Single linkage: 두 클러스터 내 가장 가까운 두 점 사이의 거리를 사용합니다.
Complete linkage: 두 클러스터 내 가장 멀리 떨어진 두 점 사이의 거리를 사용합니다.
Average linkage: 두 클러스터 내 모든 점 사이의 평균 거리를 사용합니다.
각 방법은 클러스터링 결과에 영향을 미칩니다. Single linkage은 긴 스트립 모양 클러스터를 만들기 쉽고, Complete linkage는 구형 모양 클러스터를 만들기 쉽습니다. Average linkage는 둘 다의 특징을 조합한 것으로, 다양한 모양의 클러스터를 만들 수 있습니다.
병합군집에서는 덴드로그램(Dendrogram)을 사용하여 계층 구조를 시각화할 수 있습니다. 이는 각 데이터 포인트가 하나의 클러스터로 시작하여 서로 합쳐지는 과정을 나타내는 그래프로, 데이터 간 관계를 파악하는 데 도움이 됩니다.