Comment identifier les spécificités d’une sous-population ?

L’indice base 100 est mort, vive la valeur test

lovely-analytics-sous-populationLe profiling c’est un grand classique de l’analyse de données. L’objectif est de décrire le profil d’une population et de mettre en avant ses spécificités par rapport à une population de référence. Par exemple on peut analyser le profil de nos clients par rapport à la population française pour identifier le coeur de cible de notre marque. Ou on peut comparer les différents segments d’une segmentation client (pour en savoir plus sur la segmentation : ici, ou ici )

Souvent les chargés d’études utilisent les indices base 100 pour comparer les populations. Je suis absolument contre l’utilisation de ces index qui ne prennent absolument pas en compte la significativité. J’utilise toujours les valeurs tests. Je vous dis pourquoi et comment les calculer.

Commençons par le commencement, avec les indices base 100. Il faut savoir les lire et les exploiter mais soyons clairs : ne les utilisez pas dans vos propres analyses.

Pour calculer un indice base 100, rien de plus simple : on divise le pourcentage de la sous-population par le pourcentage de la population total que l’on multiplie par 100.

Prenons un exemple : on cherche à identifier les spécificités du segment Ambassadeurs parmi tous les clients. Pour calculer l’index de la catégorie moins de 30 ans on fait : 15.0%/23.8%*100=63

lovely analytics index.png

Quand l’indice base 100 est inférieur à 100 cela signifie que la catégorie est sous-représentée. Dans notre exemple, les moins de 30 ans sont sous-représentés chez les ambassadeurs.

Au contraire une catégorie avec un index supérieur à 100 représente une catégorie sur-représentée.

Le problème de cette méthode c’est qu’elle n »indique pas si les résultats sont significatifs ou non pour les catégories de petite taille. Par exemple pour la catégorie des 51 ans et plus , l’indice vaut 126 ce qui montre que la catégorie est sur-représentée. Mais en y regardant de plus près on voit qu’il n’y  que 0.1% de mes clients qui se trouvent dans cette catégorie. Est ce qu’on peut pour autant affirmer que les 51 ans et plus sont sur-représentés chez les ambassadeurs? Je pense que ce serait vraiment une erreur d’en arriver à une telle conclusion.

Donc on met de côté l’indice base 100 et on passe aux valeurs tests qui conservent les mêmes avantage (lecture des résultats rapide, simple à comprendre et facile à présenter) et qui intègre la significativité des résultats. La valeur test peut être vue comme un test de comparaison des moyennes. Pour connaitre la formule exacte vous pouvez consulter ce lien.  La formule est assez simple et vous pouvez donc implémenter des valeurs tests très facilement sous Excel.

Voilà le résultat, toujours sur le même exemple :

lovely analytics valeur test.png

Interprétation des valeurs tests :

Valeur test > 2 : catégorie significativement sur-représentée
Valeur test < -2 : catégorie significativement sous-représentée
Valeur test entre -2 et 2 : résultats non significatifs, pas de conclusion

Dans notre exemple on voit donc que le résultat de la catégorie 51 ans et + n’est pas significatif (valeur comprise entre -2 et 2).

Quelques inconvénients tout de même à garder en tête :

  • La valeur test est sensible à la taille de la population. Plus la taille de la population est importante, plus les valeurs tests seront grandes. Il est donc inutile de comparer les valeurs tests sur des projets différents.
  • Dans le cas d’une analyse de clustering, pour identifier les spécificités de chaque groupe, les valeurs tests des variables ayant permis de construire les clusters seront toujours significatives. Dans ce cas c’est surtout pour l’analyse des variables illustratrices que la valeur test aura du sens.

A vous de jouer.

 

PS : J’ai trouvé les 2 avatars sur ce site

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s