Premiers pas avec Python

Apprendre à coder avec Python

Apprendre Python.pngRécemment on m’a demandé si je prévoyais d’inclure des exemples avec Python. Good question…
Je ne vois que des points positifs sur le fait d’utiliser Python :
Python et R sont les 2 principaux langages utilisés par les data scientists pour le machine learning. Historiquement, R est issu du monde des statisticiens tandis que Python vient de l’univers des développeurs. Aujourd’hui il y a un vrai battle entre les 2. En 2017, une étude menée par KDnuggets montre même que Python est officiellement passé devant R pour le machine learning et la Data Science :

python-r-other-2016-2017

De ce que j’ai pu lire, si vous partez de zero et que vous ne connaissez ni l’un ni l’autre, il vaut mieux apprendre Python. Cela vous permettra d’être plus à l’aise sur les projets Big Data en utilisant PySpark par exemple (tandis que SparkR n’est pas très développé).
Si vous connaissez plutôt R (comme moi), on ne va pas tout jeter à la poubelle pour autant et on peut tout aussi bien faire de la data science avec R. Mais autant ne pas mourir idiot et tester la concurrence 🙂

Me voici donc, grande débutante Python à vouloir tester et commencer à apprendre.

Lire la suite de « Premiers pas avec Python »

Algorithmes distribués avec la librairie H2O

H2o
Librairie H2O machine learning

Algorithmes distribués avec la librairie H2O

En participant à un challenge sur Datascience.net, j’ai découvert le package H2O. Je voulais développer un réseau de neurones sous R et j’ai vite été limitée par le package Neralnet.

H2O c’est une librairie open source qui regroupe des algorithmes qui peuvent être appliqués sur des données massives et distribuées sur un environnement Hadoop. La librairie peut être utilisée directement à partir de Spark, R ou Python ce qui rend son utilisation vraiment simple pour les Data Scientists qui connaissent déjà ces langages.

Lire la suite de « Algorithmes distribués avec la librairie H2O »