본문 바로가기

Sprint_DA01/위클리 페이퍼

DBSCAN과 K-means의 비교_2

by Toddler_AD 2024. 11. 13.

DBSCAN과 K-means는 데이터 클러스터링에 널리 사용되는 알고리즘이지만, 두 가지는 본질적으로 다른 방법론과 특성을 가지고 있습니다. 여기에서 DBSCAN과 K-means의 공통점과 차이점을 자세히 설명하겠습니다.

공통점

비지도 학습 알고리즘: DBSCAN과 K-means는 모두 레이블 없는 데이터를 그룹화하는 비지도 학습 방법입니다. 레이블이 없는 데이터를 비슷한 특성을 가진 그룹으로 묶기 위해 사용됩니다.
거리 기반 클러스터링: 두 알고리즘 모두 거리를 사용하여 데이터의 유사성을 평가합니다. K-means는 유클리드 거리나 코사인 거리 등을 사용하고, DBSCAN은 유클리드 거리뿐만 아니라 밀도 기반의 거리 개념을 도입합니다.
다차원 데이터 적용 가능: DBSCAN과 K-means는 모두 다차원 데이터를 클러스터링할 수 있습니다. 두 알고리즘 모두 N차원의 데이터에서도 작동하며, 피처의 수가 클 경우에도 적용 가능합니다.

차이점

특성	K-means	DBSCAN
알고리즘 원리	중심 기반 클러스터링	밀도 기반 클러스터링
클러스터 수 지정	클러스터 수 kk를 미리 설정	자동으로 클러스터 수 결정
클러스터 형태	구형 (원형에 가까운 형태)	다양한 형태의 클러스터 가능
노이즈 처리	노이즈 데이터가 포함될 수 있음	노이즈를 분리하여 클러스터 외부로 처리
클러스터 크기와 밀도	비슷한 크기와 밀도의 클러스터에 적합	서로 다른 크기와 밀도의 클러스터에 적합
복잡도	상대적으로 계산이 간단함	밀도 탐색 과정이 복잡하고 시간이 더 걸림
초기화 민감도	초기 중심점 선택에 민감함	민감도가 낮음
적용 분야	구형 클러스터가 예상되는 경우	다양한 크기와 형태의 클러스터가 존재할 때

K-means의 특징

알고리즘 과정:
1. K-means는 처음에 클러스터 수 kk를 지정하고, kk개의 초기 중심을 임의로 선택합니다.
2. 각 데이터 포인트를 가장 가까운 중심에 할당하고, 할당된 데이터의 중심으로 새 클러스터 중심을 업데이트합니다.
3. 이 과정을 중심 위치가 수렴할 때까지 반복합니다.
장점:
1. 상대적으로 계산이 간단하고 빠릅니다.
2. 데이터가 구형 클러스터에 가까울 경우 성능이 우수합니다.
단점:
1. 클러스터의 수를 미리 지정해야 하므로 클러스터 개수를 모를 때 사용이 어렵습니다.
2. 클러스터 초기화에 민감하여 초기 중심 선택에 따라 결과가 달라질 수 있습니다.
3. 구형 클러스터 형태가 아닌 경우 정확도가 떨어질 수 있습니다.

DBSCAN의 특징

알고리즘 과정:
1. DBSCAN은 두 가지 주요 매개변수, ε (최대 거리)과 minPts (밀도 기준 점의 수)를 설정합니다.
2. 각 데이터 포인트에서 ε 거리 이내에 있는 포인트 수를 기준으로 밀집된 영역을 식별하고 클러스터를 형성합니다.
3. 밀도가 낮은 데이터는 노이즈로 간주하고 클러스터 외부로 처리합니다.
장점:
1. 클러스터 수를 미리 지정하지 않아도 됩니다. 다양한 밀도와 크기의 클러스터링에 유연합니다.
2. 클러스터 외부의 노이즈를 분리하여 특이값 처리가 가능합니다.
단점:
1. 밀도가 고르지 않거나, 밀도가 크게 다른 클러스터가 있는 경우 결과가 좋지 않을 수 있습니다.
2. 고차원 데이터에서는 거리 측정이 어려워 성능이 저하될 수 있습니다.

결론

구형 클러스터가 필요하고, 클러스터 수를 미리 알고 있다면 K-means가 적합합니다. 또한 계산이 상대적으로 간단하고 빠르기 때문에 대규모 데이터에도 적용이 가능합니다.
밀도가 다른 다양한 형태의 클러스터를 원하고, 노이즈를 분리하고자 할 때는 DBSCAN이 더 적합합니다.

저작자표시 비영리 변경금지 (새창열림)

'Sprint_DA01 > 위클리 페이퍼' 카테고리의 다른 글

위클리 페이퍼 #14 - Group by , Having / NULL (1)	2024.11.15
위클리 페이퍼 #15 (1) - 정규화 (0)	2024.11.15
위클리 페이퍼 #12 - 편향과 분산 / K-폴드 교차검증 (4)	2024.10.26
위클리 페이퍼 # 11 - 지도 학습과 비지도 학습 / 손실함수 (4)	2024.10.20
위클리 페이퍼 #10 - A/B 테스트 / 이벤트 로그 설계 (5)	2024.10.11

티스토리툴바