Ni boîte noire Ni usine à gaz

Simplifiez la Data science !

lovelyanalytics_boite_noire

Un data scientist doit maitriser de nombreux aspects : la collecte, la préparation des données, l’analyse, les algorithmes, les outils, la dataviz, la restitution, … Les sujets ne sont pas simples, c’est sûr et cela demande un réel effort de comprendre et d’expliquer simplement le fonctionnement des algorithmes comme les réseaux de neurones ou les forêts aléatoires. Souvent face à ces difficultés on rencontre 2 comportements : la boîte noire et l’usine à gaz qui sont tous 2 de très mauvais choix. Je vous explique ce que c’est et comment éviter de tomber dans ces pièges.

1- La boîte noire

Face à autant de complexité, certains Data scientists acceptent l’effet boite noire des algorithmes et décident de ne pas expliquer clairement les méthodes qu’ils utilisent. La tentation est grande surtout que de plus en plus d’outils proposent à (presque) n’importe qui d’utiliser des algorithmes de machine learning et de faire du prédictif. Pour résumer le message pourrait être : « Faisons confiance aux algorithmes, nous n’avons pas besoin de comprendre ce qui se cache derrière tout cela. »

Honnêtement, si c’était si simple ça se saurait. A mon sens il est tout à fait impossible d’utiliser une méthode que l’on ne comprend pas. Cela reviendrait à faire une succession de tests jusqu’à ce qu’on obtienne un résultat satisfaisant. Avec de la chance (et un peu de patience) cela donnera un résultat satisfaisant mais vous ne saurez pas pourquoi ni comment l’améliorer.

On rencontre aussi parfois des Data scientists qui maitrisent les méthodes mais qui décident de ne pas les expliquer aux utilisateurs. Là encore c’est une erreur puisque les  utilisateurs ne comprendront finalement pas la vraie complexité du travail ni sa valeur ajoutée. A chaque nouvelle question ils seront bloqués par le manque de clarté globale.

3 conseils pour éviter l’effet boîte noire :

  1. Comprenez les méthodes que vous utilisez, ce ne sont pas les ressources qui manquent (cours, MOOC, tutoriels,… )
  2. Expliquez aux utilisateurs de manière simplifiée les enjeux et la méthodologie
  3. Evitez d’utiliser des termes à la mode pour valoriser un projet. Par exemple il est inutile de dire qu’on fait du Big Data si on calcule un score d’appétence.

2- L’usine à gaz

Face à autant de complexité, d’autres Data scientists mettent en place une suite de méthodes toujours plus complexes pour se retrouver finalement noyés dans beaucoup de difficultés. Et quand les utilisateurs sont curieux et qu’ils veulent des explications sur « comment ça marche » le data scientist se rend compte qu’il vient de construire une usine à gaz.

Certaines personnes vont s’orienter presque naturellement vers des solutions complexes mais il faut garder en tête que les utilisateurs doivent comprendre et s’approprier les résultats voire même les automatiser et les mettre en production. Notre rôle est de leur simplifier la vie en leur restituant le bon niveau d’information pour comprendre la méthodologie même si celle-ci est en réalité plus complexe qu’il n’y parait. Est ce qu’il ne vaut mieux pas un modèle simple, un peu moins performant et utilisé qu’un modèle complexe, plus performant mais mis de côté de peur de mal le maitriser?

3 conseils pour éviter l’effet usine à gaz :

  1. Représentez de manière visuelle la méthodologie. Si vous n’y parvenez pas il est encore temps de se poser les bonnes questions
  2. Demandez vous ce que va vous rapporter une démarche compliquée par rapport à une démarche simple et évaluez les gains et les contraintes
  3. Prenez du recul et mettez vous à la place des futurs utilisateurs qui n’ont pas la même expertise que vous.

Ni boîte noire, ni usine à gaz, cela devrait s’appliquer à tous les projets de Data science. La qualité passe aussi par la transparence et par la compréhension. Albert Einstein a dit « Si vous ne pouvez expliquer quelque chose simplement, c’est que vous ne l’avez pas bien compris« . C’est ce que j’essaye de faire avec ce blog et ma série d’articles sur ce thème que je continue d’enrichir au fur et à mesure :

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s