DSS un outil de Data Science collaboratif

 

DataikuPour mener à bien un projet de Datascience nous avons souvent besoin de plusieurs outils. Il faut tout d’abord un ETL pour extraire, agréger et préparer les données. Viens ensuite un outil d’analyse pour calculer des indicateurs, développer et déployer des modèles. On peut aussi utiliser un outil de datavisualisation pour diffuser les résultats. Si à cela vous ajouter des données multi-sources sur des environnements différents, une équipe qui doit collaborer sur un même projet,… on se retrouve vite avec un projet compliqué à gérer et time-consuming.

L’outil DSS de Dataiku est un outil de Datascience collaboratif qui permet de répondre à toutes ces problématiques

La proposition de DSS c’est de répondre à tous les besoins des datascientists au sein d’un seul outil de la collecte de données jusqu’au déploiement des modèles.

DSS WorkflowCollecte  de données : DSS est bien équipé avec de nombreux connecteurs vers des fichiers, des bases de données, des environnements Big Data, des serveurs FTP … et la possibilité de télécharger d’autres plugins pour des besoins plus spécifiques

Préparation des données : Cette partie est vraiment simplifiée avec DSS. J’aime beaucoup le fait de pouvoir visualiser la distribution d’une variable facilement en 2 clics. DSS propose là encore des modules de préparation déjà prêts à l’emploi en fonction du type de données (par exemple pour la géolocalisation ou le traitement des logs). Vous pouvez aussi utiliser SQL si votre source de données l’accepte.

Visualisation : De nombreux graphiques, encore une fois simples d’utilisation et qui peuvent être partagés au sein d’un tableau de bord.

Modélisation :  Il y a d’abord des modèles facilement accessibles et paramétrables. Tout est pensé pour faciliter les analyses avec pas mal d’indicateurs de performance et de graphiques pratiques. Si cela ne suffit pas et que vous voulez allez plus loin, utiliser un autre modèle ou développer votre propre solution, vous pouvez le faire directement en R ou en Python.

Automatisation :  La mise en production est facile avec des modules dédiés et un scheduler.

Mon avis? J’aime utiliser DSS parce qu’il est simple, performant et collaboratif. On peut avoir une vision rapide des données et de leur potentiel. Dataiku innove beaucoup j’espère pouvoir utiliser DSS dans d’autres misions ou challenges.

Pour tester, vous pouvez demander une version d’essai de 2 semaines. Vous pouvez soit tester à partir de la plateforme en ligne (accès au serveur Dataiku) soit en téléchargeant une VM, c’est par ici

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s