k-means, comment ça marche?

k-means


Le k-means est un algorithme de clustering, en d’autres termes il permet de réaliser des analyses non supervisées, d’identifier un pattern au sein des données et de regrouper les individus ayant des caractéristiques similaires. C’est une méthode simple et rapide.

Le cas d’usage le plus classique pour les méthodes de clustering c’est la segmentation client. On peut aussi les utiliser de manière plus descriptive pour comprendre et synthétiser une population. En revanche, pour construire une segmentation client robuste, avec plusieurs axes je vous recommande plutôt d’utiliser la classifiation ascendante hiérarchique ou la méthode mixte.

Revenons aux k-means. C’est un algorithme qui s’applique sur des variables quantitatives uniquement. Il faut donc prévoir de passer d’abord par une ACM pour des variables qualitatives.

Avant de se lancer il faut déterminer le nombre de cluster que l’on souhaite obtenir.

Prenons un exemple simple avec une base de 10 clients pour lesquels on connait l’ancienneté et le panier moyen. On souhaite créer 3 groupes en utilisant la méthode des k-means.

Voilà comment fonctionne l’algorithme :

Etape 0 : Initialisation

lovelyanalytics_kmeans1

 

On tire aléatoirement 3 individus. Ces 3 individus correspondent aux centres initiaux des 3 classes.

 

 

 

Etape 1 :

lovelyanalytics_kmeans2

On calcule la distance entre les individus et chaque centre. Plusieurs métriques existent pour définir la proximité entre 2 individus. La méthode “classique” se base sur la distance euclidienne, vous pouvez aussi utiliser la distance Manhattan ou Minkowski.

 

 

Etape 2 :

lovelyanalytics_kmeans3

On affecte chaque individu au centre le plus proche.

 

 

 

 

Etape 3 :

lovelyanalytics_kmeans4

On calcule les centres de gravité des groupes qui deviennent les nouveaux centres

 

 

 

 

Boucle itérative :

lovelyanalytics_kmeans5

On recommence les étapes 1, 2 et 3 tant que les individus sont réaffectés à de nouveaux groupes après une itération.

 

 

 

 

Avantages : C’est simple, robuste et facile à comprendre. Pour résumer cela permet d’avoir rapidement un premier résultat.

Inconvénients : C’est vous qui décidez le nombre de cluster,… pas de recommandation du meilleur découpage possible donc.
Le résultat est dépendant du tirage initial et l’algorithme est sensible aux valeurs extrêmes (en particulier lors du calcul du barycentre).
Pour avoir des résultats plus robustes tout en conservant la rapidité de calcul des k-means on peut les utiliser avec une CAH, cela s’appelle la méthode mixte.

 

2 commentaires sur « k-means, comment ça marche? »

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s