Faire la moyenne c’est choisir la facilité

lovelyanalytics_moyenne2.png

Combien de fois par jours calculons nous une moyenne? Le salaire moyen, la rentabilité moyenne, l’ancienneté moyenne, … On calcule tellement de moyennes qu’on ne s’en rend plus compte et on va parfois même jusqu’à calculer des moyennes de moyennes (what the fuck?) Mais dans le fond on est bien naïfs de croire que l’on peut résumer autant de situations, autant de données avec un seul et même indicateur !

La moyenne est victime de son succès, on l’aime parce que :

  • Tout le monde la connait, pas la peine de l’expliquer
  • Elle est intuitive
  • Elle est facile à calculer
  • Elle est disponible dans tous les outils

C’est un basique incontournable qui finit par nous piéger et nous nous enfermons dans cette routine de la moyenne. Je ne vais pas vous prouver que la moyenne nous cache des choses, on le sait tous aujourd’hui… Mais alors si nous savons qu’en calculant une moyenne nous risquons d’être à côté de la plaque, POURQUOI? Pourquoi continuons nous inlassablement de calculer des moyennes, toujours des moyennes, que des moyennes?

Haha, tout simplement parce que la moyenne ça va vite (et oui on en revient au 4 points ci-dessus). Et on a besoin d’aller vite  aujourd’hui parce que, à peine un indicateur a été calculé, on nous en demande déjà 3 autres pour essayer de comprendre le précédent. Plus on a de chiffres, plus on a besoin de chiffres et « faire la moyenne » c’est clairement choisir la facilité.

C’est notre rôle, en tant que Data scientist (et autres métiers de la data) de mettre en lumière les données. Si cela prend du temps, alors prenons le temps. Ne restons pas cantonnés à la moyenne quand les enjeux en valent la peine.

Plus facile à dire qu’à faire 🙂 Quelles sont nos alternatives à la moyenne :

  1. L’écart type. Il nous permet de voir l’écart moyen entre les données et la moyenne. Si l’écart type est petit alors il n’est peut être pas utile de se prendre la tête plus que ça, on peut faire confiance à la moyenne.
  2. L’histogramme vous donnera une vision plus fine de vos données. L’avantage c’est que vous pourrez montrer visuellement à votre auditoire pourquoi la moyenne ne permet à elle seule de résumer les données.
  3. Le boxplot (boîte à moustaches en français) qui lui représente la médiane et les autres quartiles. Perso je ne l’utilise pas souvent, j’ai du mal à avoir toutes les informations en un seul coup d’œil. En plus cela donne une image très statistiques et scolaire qui pourrait faire peur à ceux qui ne sont pas fans de datas.

A vous de jouer, posez vous les bonnes questions et explorez d’autres indicateurs.

lovelyanalytics_moyenne.png

 

2 commentaires sur « Faire la moyenne c’est choisir la facilité »

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s