Un échantillon, oui mais représentatif s’il vous plaît!

Comment réaliser un échantillon représentatif, quelle méthode utiliser?

Echantillonnage.pngAvec les technologies Big Data il n’est plus nécessaire d’échantillonner les données, on peut utiliser directement des algorithmes distribués sur des données massives.

Est ce qu’il faut pour autant oublier les bonnes vieilles méthodes d’échantillonnage? Of course not! Il y a bien d’autres contextes pour lesquels vous serez amenés à échantillonner. Par exemple pour extraire un échantillon de client pour faire des tests sur un produit, une offre, un email, ou pour réaliser une enquête de satisfaction, un sondage, …

L’échantillonnage, un seul objectif avoir un échantillon représentatif de la population. Comment s’y prendre?

Il existe plusieurs méthodes :

1. Echantillon aléatoire : C’est la méthode la plus simple, tout le monde la connait et elle n’est composée que d’une seule étape. On tire aléatoirement dans la base le nombre d’éléments souhaités. Avec cette méthode il faut absolument vérifier la significativité de l’échantillon par rapport à la population globale.

tirage aleatoire
Echantillon aléatoire simple

 

La limite de cette méthode c’est justement que pour un échantillon de petite taille il sera difficile d’obtenir un échantillon représentatif… Dommage donc.

En  revanche l’avantage c’est sa simplicité de mise en place puisque vous pouvez l’effectuer simplement avec n’importe quel outil capable de générer un nombre aléatoire et de trier des données. Même Excel peut le faire.

 

2. Echantillon stratifié : La méthode est un peu plus compliquée mais permet de favoriser la représentativité des échantillons. On commence par découper la population en strates, par exemple en fonction de l’âge pour créer des strates 18-30 ans, 30-50 ans et plus de 50 ans.

Tirage stratifie
Echantillon stratifié

 

La méthode est un peu plus compliquée et le choix des strates est important.

Mais l’avantage est que vous serez sûrs d’avoir sélectionné des individus dans chacune des strates.

Pour faire un échantillon stratifié avec SAS vous pouvez consulter ce site, ou directement le site de SAS pour utiliser une proc surveyselect.

 

3. Echantillon en grappes : Principalement utilisé pour les sondages. Au lieu de choisir des individus nous allons sélectionner aléatoirement des grappes d’individus, c’est à dire des regroupements d’individus. Contrairement aux strates, les grappes doivent être assez fines. Il peut s’agir par exemple d’agences, d’immeubles, …

Tirage grappes
Echantillon en grappes

 

Pour les sondages ce type de méthode permet de réduire les coûts en ciblant des lieux plutôt que des individus. Pour les analyses de données c’est tout de même assez peu utilisé, on préférera les tirages aléatoires ou stratifiés.

Dans tous les cas, peu importe la méthode qui a été utilisée il faut toujours vérifier la représentativité après coup en comparant l’échantillon avec la base complète à partir de laquelle il a été extrait.

 

 

 

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s