elbow기법: centroid 간의 평균 거리가 더 이상 많이 감소하지 않는 경우의 K를 선택하는 방법
✔️elbow기법
- centroid 간의 평균 거리가 더 이상 많이 감소하지 않는 경우의 K를 선택하는 방법
특징
클러스터 개수를 늘렸을 때 centroid 간의 평균 거리가 더 이상 많이 감소하지 않는 경우의 K를 선택하는 방법. 개수가 늘 때마다 평균값이 급격히 감소하는데 적절한 K가 발견되면 매우 천천히 감소한다. 참고로, 클러스터 개수가 적으면 centroid 간의 거리가 매우 커지며, 적절한 개수이면 거리가 점점 짧아진다. 개수가 많으면 평균 거리가 매우 조금씩 줄어든다.
✔️실루엣스코어 기법
- 각 군집 간의 거리가 얼마나 효율적으로 분리되어있는지 나타낸다. - 다른 군집과의 거리는 떨어져있고, 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐 있다는 의미 - 실루엣 스코어 기법은 실루엣 계수를 기반 - 실루엣 계수는 개별 데이터가 가지는 군집화 지표
특징) 각 데이터의 실루엣 계수를 계산한다. 클러스터의 개수가 최적화되어 있으면 실루엣 계수는 1에 가까운 값이 된다. 실루엣 계수의 평균이 0.7보다 크면 잘 분류되었다고 본다. 엘보우 기법에 비해 계산하는데 시간이 굉장히 오래걸린다.
엘보우 기법을 사용하기
1. 기초 설정
make_blobs: 모든 방향으로 같은 성질을 가지는 정규분포를 이용해 가상 데이터 생성