Inicialização

Um método recomendado para o algoritmo \( K-Means \) é inicializar aleatoriamente os cluster centroids. Para isso, devemos considerar os seguintes requisitos:

  • \( K < m \): O número de clusters deve ser menor que o número de exemplos de treino;

  • Aleatoriamente escolher \( K \) exemplos de treinos;

  • Definir \( \mu _1, \dots , \mu _K \) serem iguais aos \( K \) exemplos.

Para escolher o número de clusters, usa-se um método chamado elbow method, o qual se analisa a curva da função custo \( J \) e o número de clusters \( K \), representado na Figura 30. A função custo deve decrescer de acordo com o aumento do número de clusters até tender a zero. Escolhemos um valor para \( K \) no ponto em que a função custo começa a se estabilizar.

Figura 30: Representação do método de escolha do valor ótimo de \( K \) para o algoritmo KNN.

Uma outra forma de escolher o número de clusters é de acordo com o objetivo que desejamos atingir com o uso deles.