Clustering

Clustering é um método de aprendizado não supervisionado. A principal diferença entre supervised learning e unsupervised learning é que no método não supervisionado não passamos dados previamente classificado, em outras palavras, uma entrada para um algoritmo sem supervisão seria apenas o conjunto de treino \( x _1, x _2, \dots , x _n \).

As principais aplicações de clustering são:

  • Segmentação de mercado;

  • Análise de redes sociais;

  • Organização de clusters de computadores (datacenters);

  • Análise de dados astronômicos.

O primeiro algoritmo de aprendizado não supervisionado que iremos discutir é chamado de K-Means Algorithm que será apresentado na seção seguinte.