Inspirez-moi, inspirez-vous

Liens utiles pour Data Scientist

Prenez mes idées j'en aurai d'autresJ’ai commencé ce blog sur l’analyse de données pour moi, puis je me suis rendue compte que je le faisais aussi pour vous. Je me suis demandée jusqu’où je pourrais aller dans mes articles avec toujours un peu d’inquiétude : « Si je publie tout ce que je sais, que me restera t-il? ». Après un peu plus d’un an, je me rends surtout compte que plus on donne et plus on progresse. Chaque article que j’écris sur un sujet que je connaissais déjà me permet d’attaquer un nouveau sujet. Je m’enrichie aussi énormément de vos commentaires et de vos messages d’encouragement.

Coco Chanel a dit « Prenez mes idées j’en aurai d’autres » et j’adore cette citation. Alors j’ai décidé de partager avec vous mes sources d’inspiration.

Chacun de ces liens mérite toute votre attention. D’ailleurs j’espère secrètement que lovelyanalytics est aussi dans votre liste de liens préférés. Alors n’attendez plus et ajoutez cette page à vos favoris, je suis sûre qu’elle vous aidera un jour ou l’autre.

Lire la suite de « Inspirez-moi, inspirez-vous »

Orange, un outil de Data Mining vitaminé

Ma participation à un challenge avec l’outil Orange

lovely analytics Orange fruitful and fun

Cela faisait un moment que j’avais envie de tester Orange, c’est un petit outil de Data Mining entièrement gratuit qui est très ludique. D’ailleurs leur slogan c’est « Data Mining Fruitful and fun » en référence à leur logo : une orange à lunette qui semble super happy de faire du Data Mining. Il n’en fallait pas plus pour attiser ma curiosité et j’ai voulu voir si la promesse d’un outil sympa et coloré était tenue ou non. J’ai donc profité d’un Challenge Data Science pour tester Orange.

Lire la suite de « Orange, un outil de Data Mining vitaminé »

Random Forest, tutoriel pas à pas avec R

Apprenez à utiliser un Random Forest avec R

lovely analytics Random Forest

L’algorithme Random Forest (forêt aléatoire) fait partie de la famille des modèles d’agrégation et donne de très bons résultats dans la plupart des problématiques de prédiction. Je vous propose dans ce tutoriel de voir comment appliquer un algorithme Random Forest avec R de la préparation des données jusqu’à la restitution des résultats.

Lire la suite de « Random Forest, tutoriel pas à pas avec R »

Vous pensez que les graphiques R ne sont pas présentables?

3 librairies R à connaitre

lovelyanalytics_graphiquesR

Si quand vous entendez parler de graphiques R, vous pensez à la fonction plot, difficile à paramétrer avec un rendu que vous n’oseriez pas présenter, alors cet article est fait pour vous. Parce que ça c’était avant. Il existe maintenant des librairies qui permettent de faire facilement des graphiques beaucoup plus visuels. Je vous parle de 3 packages : ggplot2, plotly et gganimate (qui permet de faire des GIF animés).

Lire la suite de « Vous pensez que les graphiques R ne sont pas présentables? »

Réseaux de neurones comment ça marche ?

lovelyanalytics Réseaux de neuronesS’il y a un algorithme qui fait parler de lui en ce moment, un algorithme que tout le monde veut afficher fièrement sur son CV, c’est bien celui des réseaux de neurones (Neural Network). C’est l’algorithme de base qui se cache derrière le Deep Learning et les intelligences artificielles. Il est souvent utilisé pour les reconnaissances d’image et de voix. Mais sans aller jusque là, je vous propose de comprendre comment les réseaux de neurones fonctionnent pour pouvoir les utiliser. Alors accrochez vous, à la fin de l’article vous saurez comment ça marche.  Lire la suite de « Réseaux de neurones comment ça marche ? »

Préparer ses données avec Talend : 6 composants indispensables

lovelyanalytics_Talend.pngOn dit souvent que la préparation des données représente 75% du temps de travail d’un Data Scientist. Cela comprend le Data engineering qui consiste à transformer les données pour la création du modèle mais également une partie de data management plus classique. Pour préparer un dataset, souvent à partir de plusieurs sources de données, on peut utiliser un ETL (Extract Transform Load) qui s’avère plus pratique que les outils réservés à l’analyse. Parmi les ETL, je vous propose de tester Talend qui a l’avantage d’inclure une partie complètement gratuite, bien suffisante pour nos besoins de Data management.

Lire la suite de « Préparer ses données avec Talend : 6 composants indispensables »

Faire la moyenne c’est choisir la facilité

lovelyanalytics_moyenne2.png

Combien de fois par jours calculons nous une moyenne? Le salaire moyen, la rentabilité moyenne, l’ancienneté moyenne, … On calcule tellement de moyennes qu’on ne s’en rend plus compte et on va parfois même jusqu’à calculer des moyennes de moyennes (what the fuck?) Mais dans le fond on est bien naïfs de croire que l’on peut résumer autant de situations, autant de données avec un seul et même indicateur !

Lire la suite de « Faire la moyenne c’est choisir la facilité »