Orange, un outil de Data Mining vitaminé

Ma participation à un challenge avec l’outil Orange

lovely analytics Orange fruitful and fun

Cela faisait un moment que j’avais envie de tester Orange, c’est un petit outil de Data Mining entièrement gratuit qui est très ludique. D’ailleurs leur slogan c’est « Data Mining Fruitful and fun » en référence à leur logo : une orange à lunette qui semble super happy de faire du Data Mining. Il n’en fallait pas plus pour attiser ma curiosité et j’ai voulu voir si la promesse d’un outil sympa et coloré était tenue ou non. J’ai donc profité d’un Challenge Data Science pour tester Orange.

 

Quelques mots sur ce challenge même si ce n’est qu’un prétexte pour tester un outil. L’objectif est de prédire les ventes de produits par magasin à partir des caractéristiques des produits et des points de vente. Le jeu de données est assez petit et contient un ID, la variable cible à prédire, 4 variables quantitatives et 5 variables qualitatives.

Installation d’Orange & création d’un nouveau projet

L’outil se télécharge sur le site d’Orange c’est facile et bien fait.

Première ouverture de l’outil et visuellement j’ai été satisfaite. C’est joli et tout semble simple, on peut suivre les tutoriels ou utiliser des exemples avec des datasets inclus. Dans mon cas je choisis de créer un nouveau projet.

Orange Nouveau projet

 

Chargement des données

Principalement 2 options pour charger vos données :

  • Fichier
  • Table SQL

C’est un outil open source on ne peut donc pas exiger beaucoup plus de formats de données à charger. Moi ça me va j’ai des fichiers csv. Tout semble simple, on modifie les formats si besoin et on définit quelle est la variable cible pour les futurs modèles. Le seul truc un peu surprenant c’est que je m’attendais à ce qu’il se passe quelque chose mais… il ne se passe rien et c’est comme ça pour chaque composant. On paramètre le composant mais il n’y a pas de bouton d’exécution, tout se lance automatiquement. Après avoir paramétré un composant il suffit donc de le fermer.

Orange Chargement donnees

Exploration & Data Prep

Un peu d’exploration avant de se lancer dans les modèles. Il y a pas mal de choix dans l’onglet Visualize, j’ai beaucoup aimé « Distributions ». Un simple clic sur la variable permet de voir la distribution. C’est pas grand chose mais quand on a l’habitude d’utiliser SAS ou R c’est presque une révolution.

Orange Distributions

Pour continuer dans la data prep, j’ai utilisé le composant « impute » pour compléter les valeurs manquantes d’une des variables. Les options sont intéressantes, on peut par exemple utiliser un arbre ou plus classiquement, la moyenne, une constante, …

Orange Impute

Je m’arrête là pour la préparation des données mais il y a aussi d’autres composants intéressants comme :

  • Outliers pour détecter les valeurs extrêmes et les exclure automatiquement
  • Discretize : pour découper une variable numérique en variable quali
  • Rank : pour trier et ranker les variables

Modélisation

Pour mon modèle j’ai décidé de ne pas faire d’échantillon d’apprentissage et de validation. Orange propose d’évaluer directement la performance en utilisant une validation croisée (cross-validation), j’en profite donc. J’ai testé un Random Forest et un Decision Tree. Les autres algorithmes proposés sont aussi intéressants (régression logistique, SVM, Naïve Bayes, …)

J’ai eu du mal à comprendre comment relier les composants entre eux pour tester le modèle. Voilà le schéma que j’obtiens :

Orange Modele 1

Le composant Test & Score permet de comparer la performance des 2 modèles. Le challenge auquel je participe utilise le critère RMSE pour évaluer la performance. C’est Random Forest qui obtient la plus petite valeur et qui est donc le plus performant. Je choisis donc de continuer avec cet algorithme et de l’appliquer sur mon dataset.

Orange Modele 2 On utilise le composant « Prediction » pour appliquer le modèle sur le dataset de test. C’est celui-ci qui permettra d’évaluer la performance de notre modèle en le chargeant sur la plateforme du challenge.

Orange Modele 3

Résultat & Conclusion

Résultat de tout ça? Mon modèle n’a pas été le meilleur mais il a obtenu un classement tout à fait honorable quand on regarde la simplicité de la préparation et le peu de temps investi.

Et concernant Orange? La promesse est largement tenue. Non seulement c’était fruitful et fun mais en plus la performance est au rendez-vous. Je trouve que c’est un excellent outil pour les débutants mais aussi pour les personnes plus expérimentés. Il propose à la fois des choses simples mais aussi d’autres bien plus évoluées (comme les Pythagoras Trees que j’ai découvert et qu’il faut que je regarde de plus près). En plus si vous avez besoin de développer quelque chose de très spécifique vous aurez toujours la possibilité d’inclure un script Python, … que demander de plus?

Testez,  vous ne serez pas déçus et un peu de bonne humeur dans notre métier ça ne fait pas de mal 🙂

lovely analytics Orange.png

Un commentaire sur « Orange, un outil de Data Mining vitaminé »

  1. Bonjour,
    je l’avais déjà sommairement essayé il y a quelques mois, mais je m’y mets un peu plus. Quand on galère un peu sur R, pouvoir disposer si rapidement d’autant de fonctionnalités, c’est super. On peut tester des idées rapidement, sans avoir à manier tout le langage R… Faire une régression logistique depuis 75% de son dataset et avoir la matrice de confusion (en volume ou en %) des prédictions sur les 25% restants, en quelques clics, c’est terrible.
    « Pythagoras Trees » : ces figures, je les ai vues dans une démonstration du théorème de Pythagore par des mathématiciens chinois… Je me demande ce qu’elles viennent faire dans la visualisation d’une random forest, mais ça a l’air intéressant en effet 🙂

    J'aime

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s