Explorez vos données avec pandas_profiling

Dans un projet de Data Science la data prep prend beaucoup de temps par rapport à l’ensemble du projet. Et soyons honnête ce n’est pas forcément la partie la plus intéressante. Mais avant même d’en arriver à cette étape de préparation des données il faut explorer le Data Set pour commencer à appréhender les données que nous allons utiliser. Et cette partie là aussi peut être fastidieuse.

Dans cet article je vous parle de pandas_profiling 🐼 , une librairie Python que j’adore et qui va vous faire gagner un temps fou. Oui oui une librairie Python! Je n’avais pas encore fait d’article Python, seulement quelques liens pour apprendre à coder en Python mais Python prend de plus en plus de place dans mon travail de Data Scientist, j’essayerai donc de vous proposer des articles sur R et Python (pas de jaloux).

Lire la suite de « Explorez vos données avec pandas_profiling »

Premiers pas avec Python

Apprendre à coder avec Python

Apprendre Python.pngRécemment on m’a demandé si je prévoyais d’inclure des exemples avec Python. Good question…
Je ne vois que des points positifs sur le fait d’utiliser Python :
Python et R sont les 2 principaux langages utilisés par les data scientists pour le machine learning. Historiquement, R est issu du monde des statisticiens tandis que Python vient de l’univers des développeurs. Aujourd’hui il y a un vrai battle entre les 2. En 2017, une étude menée par KDnuggets montre même que Python est officiellement passé devant R pour le machine learning et la Data Science :

python-r-other-2016-2017

De ce que j’ai pu lire, si vous partez de zero et que vous ne connaissez ni l’un ni l’autre, il vaut mieux apprendre Python. Cela vous permettra d’être plus à l’aise sur les projets Big Data en utilisant PySpark par exemple (tandis que SparkR n’est pas très développé).
Si vous connaissez plutôt R (comme moi), on ne va pas tout jeter à la poubelle pour autant et on peut tout aussi bien faire de la data science avec R. Mais autant ne pas mourir idiot et tester la concurrence 🙂

Me voici donc, grande débutante Python à vouloir tester et commencer à apprendre.

Lire la suite de « Premiers pas avec Python »

Algorithmes distribués avec la librairie H2O

H2o
Librairie H2O machine learning

Algorithmes distribués avec la librairie H2O

En participant à un challenge sur Datascience.net, j’ai découvert le package H2O. Je voulais développer un réseau de neurones sous R et j’ai vite été limitée par le package Neralnet.

H2O c’est une librairie open source qui regroupe des algorithmes qui peuvent être appliqués sur des données massives et distribuées sur un environnement Hadoop. La librairie peut être utilisée directement à partir de Spark, R ou Python ce qui rend son utilisation vraiment simple pour les Data Scientists qui connaissent déjà ces langages.

Lire la suite de « Algorithmes distribués avec la librairie H2O »