DSS un outil de Data Science collaboratif

 

DataikuPour mener à bien un projet de Datascience nous avons souvent besoin de plusieurs outils. Il faut tout d’abord un ETL pour extraire, agréger et préparer les données. Viens ensuite un outil d’analyse pour calculer des indicateurs, développer et déployer des modèles. On peut aussi utiliser un outil de datavisualisation pour diffuser les résultats. Si à cela vous ajouter des données multi-sources sur des environnements différents, une équipe qui doit collaborer sur un même projet,… on se retrouve vite avec un projet compliqué à gérer et time-consuming.

L’outil DSS de Dataiku est un outil de Datascience collaboratif qui permet de répondre à toutes ces problématiques

Lire la suite de « DSS un outil de Data Science collaboratif »

Algorithmes distribués avec la librairie H2O

H2o
Librairie H2O machine learning

Algorithmes distribués avec la librairie H2O

En participant à un challenge sur Datascience.net, j’ai découvert le package H2O. Je voulais développer un réseau de neurones sous R et j’ai vite été limitée par le package Neralnet.

H2O c’est une librairie open source qui regroupe des algorithmes qui peuvent être appliqués sur des données massives et distribuées sur un environnement Hadoop. La librairie peut être utilisée directement à partir de Spark, R ou Python ce qui rend son utilisation vraiment simple pour les Data Scientists qui connaissent déjà ces langages.

Lire la suite de « Algorithmes distribués avec la librairie H2O »

Des développements collaboratifs avec Github

Github est une plateforme collaborative de partage de code.

Github

Je vois de plus en plus de liens qui me ramènent sur Github, en particulier quand je m’intéresse aux concours Datascience comme Kaggle. Il était temps pour moi de regarder plus en détail qu’est ce que Github et quel est l’intérêt pour les Datascientists?

Lire la suite de « Des développements collaboratifs avec Github »