Comment faire quand la CAH est dépassée?

3 solutions pour faire des clusters avec de gros volumes de données

lovely analytics CAH.png

La CAH permet de créer des groupes d’individus homogènes, c’est une méthode de clustering et elle donne vraiment de bons résultats. L’inconvénient de cette méthode c’est que les temps de calcul peuvent être très longs lorsque le nombre de clients à segmenter augmente. Certains outils refusent même de calculer une CAH à partir d’un certain seuil.

Problème : Comment faire un clustering efficace quand le nombre d’individus devient tellement important qu’on ne peut plus utiliser la CAH?

Solution n°1 : Changer de méthode et utiliser un k-means

La méthode la plus simple ce serait de ne pas utiliser une CAH mais de faire un k-means. Il n’y a pas de limite de taille et les calculs sont très rapides. En revanche les résultats sont moins bons en général. Cela s’explique par les contraintes du k-means :

  • Le nombre de groupes doit être déterminé avant
  • Les centres initiaux des groupes sont tirés aléatoirement

classification k-means

Solution n°2 : Calculer la CAH sur un échantillon

Une autre méthode consiste à calculer la CAH sur un échantillon de données. Vous obtiendrez ainsi le segment pour chaque individus de l’échantillon. Pour ensuite avoir un résultat sur le dataset en entier, il suffit de construire un arbre de décision (ou un autre modèle d’ailleurs mais en évitant le surrapprentissage). On calcule ce modèle sur l’échantillon pour prédire le segment puis on l’applique sur le dataset complet.

Cette méthode est à privilégier dans le cas où vous voulez expliquer simplement la segmentation. Avec l’arbre vous aurez déjà les règles permettant de comprendre chaque segment et vous gagnez ainsi une étape.

CAH et decision tree

Solution n°3 : Utiliser la classification mixte

La méthode mixte a été créée justement pour ce genre de problèmes, c’est en fait une combinaison entre le k-means et la CAH.

On commence par créer un grand nombre de clusters avec la méthode des k-means. Puis on utilise les barycentres de ces clusters comme nouveaux individus pour lancer une CAH. On réduit donc la taille des données qui vont permettre de calculer la CAH et on gagne en temps de calculs.

Classification méthode mixte

Le volume de données n’est pas un vrai problème 🙂

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s