Inicialização
Um método recomendado para o algoritmo \( K-Means \) é inicializar aleatoriamente os cluster centroids. Para isso, devemos considerar os seguintes requisitos:
-
\( K < m \): O número de clusters deve ser menor que o número de exemplos de treino;
-
Aleatoriamente escolher \( K \) exemplos de treinos;
-
Definir \( \mu _1, \dots , \mu _K \) serem iguais aos \( K \) exemplos.
Para escolher o número de clusters, usa-se um método chamado elbow method, o qual se analisa a curva da função custo \( J \) e o número de clusters \( K \), representado na Figura 30. A função custo deve decrescer de acordo com o aumento do número de clusters até tender a zero. Escolhemos um valor para \( K \) no ponto em que a função custo começa a se estabilizar.
Figura 30: Representação do método de escolha do valor ótimo de \( K \) para o algoritmo KNN.
Uma outra forma de escolher o número de clusters é de acordo com o objetivo que desejamos atingir com o uso deles.