본문 바로가기
Sprint_DA01/위클리 페이퍼

DBSCAN과 K-means의 비교_2

by Toddler_AD 2024. 11. 13.

DBSCAN과 K-means는 데이터 클러스터링에 널리 사용되는 알고리즘이지만, 두 가지는 본질적으로 다른 방법론과 특성을 가지고 있습니다. 여기에서 DBSCAN과 K-means의 공통점과 차이점을 자세히 설명하겠습니다.


공통점

  1. 비지도 학습 알고리즘: DBSCAN과 K-means는 모두 레이블 없는 데이터를 그룹화하는 비지도 학습 방법입니다. 레이블이 없는 데이터를 비슷한 특성을 가진 그룹으로 묶기 위해 사용됩니다.
  2. 거리 기반 클러스터링: 두 알고리즘 모두 거리를 사용하여 데이터의 유사성을 평가합니다. K-means는 유클리드 거리나 코사인 거리 등을 사용하고, DBSCAN은 유클리드 거리뿐만 아니라 밀도 기반의 거리 개념을 도입합니다.
  3. 다차원 데이터 적용 가능: DBSCAN과 K-means는 모두 다차원 데이터를 클러스터링할 수 있습니다. 두 알고리즘 모두 N차원의 데이터에서도 작동하며, 피처의 수가 클 경우에도 적용 가능합니다.

차이점                                                     

특성 K-means   DBSCAN
알고리즘 원리 중심 기반 클러스터링 밀도 기반 클러스터링
클러스터 수 지정 클러스터 수 kk를 미리 설정 자동으로 클러스터 수 결정
클러스터 형태 구형 (원형에 가까운 형태) 다양한 형태의 클러스터 가능
노이즈 처리 노이즈 데이터가 포함될 수 있음 노이즈를 분리하여 클러스터 외부로 처리
클러스터 크기와 밀도 비슷한 크기와 밀도의 클러스터에 적합 서로 다른 크기와 밀도의 클러스터에 적합
복잡도 상대적으로 계산이 간단함 밀도 탐색 과정이 복잡하고 시간이 더 걸림
초기화 민감도 초기 중심점 선택에 민감함 민감도가 낮음
적용 분야 구형 클러스터가 예상되는 경우 다양한 크기와 형태의 클러스터가 존재할 때

K-means의 특징

  1. 알고리즘 과정:
    1. K-means는 처음에 클러스터 수 kk를 지정하고, kk개의 초기 중심을 임의로 선택합니다.
    2. 각 데이터 포인트를 가장 가까운 중심에 할당하고, 할당된 데이터의 중심으로 새 클러스터 중심을 업데이트합니다.
    3. 이 과정을 중심 위치가 수렴할 때까지 반복합니다.
  2. 장점:
    1. 상대적으로 계산이 간단하고 빠릅니다.
    2. 데이터가 구형 클러스터에 가까울 경우 성능이 우수합니다.
  3. 단점:
    1. 클러스터의 수를 미리 지정해야 하므로 클러스터 개수를 모를 때 사용이 어렵습니다.
    2. 클러스터 초기화에 민감하여 초기 중심 선택에 따라 결과가 달라질 수 있습니다.
    3. 구형 클러스터 형태가 아닌 경우 정확도가 떨어질 수 있습니다.

DBSCAN의 특징

  1. 알고리즘 과정:
    1. DBSCAN은 두 가지 주요 매개변수, ε (최대 거리)과 minPts (밀도 기준 점의 수)를 설정합니다.
    2. 각 데이터 포인트에서 ε 거리 이내에 있는 포인트 수를 기준으로 밀집된 영역을 식별하고 클러스터를 형성합니다.
    3. 밀도가 낮은 데이터는 노이즈로 간주하고 클러스터 외부로 처리합니다.
  2. 장점:
    1. 클러스터 수를 미리 지정하지 않아도 됩니다. 다양한 밀도와 크기의 클러스터링에 유연합니다.
    2. 클러스터 외부의 노이즈를 분리하여 특이값 처리가 가능합니다.
  3. 단점:
    1. 밀도가 고르지 않거나, 밀도가 크게 다른 클러스터가 있는 경우 결과가 좋지 않을 수 있습니다.
    2. 고차원 데이터에서는 거리 측정이 어려워 성능이 저하될 수 있습니다.

결론

  • 구형 클러스터가 필요하고, 클러스터 수를 미리 알고 있다면 K-means가 적합합니다. 또한 계산이 상대적으로 간단하고 빠르기 때문에 대규모 데이터에도 적용이 가능합니다.
  • 밀도가 다른 다양한 형태의 클러스터를 원하고, 노이즈를 분리하고자 할 때는 DBSCAN이 더 적합합니다.