Optimiser un modèle avec Grid Search

Grid Search 3La plupart des modèles de machine learning doivent être paramétrés pour donner les meilleurs résultats. Par exemple pour un Random Forest, on doit choisir le nombre d’arbres à créer et le nombre de variables à utiliser à chaque division d’un noeud. Si on paramètre à la main, cela peut vite s’avérer très coûteux en temps (et pas forcément très intéressant) …

C’est là que le Grid search intervient. C’est une méthode d’optimisation (hyperparameter optimization) qui va nous permettre de tester une série de paramètres et de comparer les performances pour en déduire le meilleur paramétrage.

Lire la suite de « Optimiser un modèle avec Grid Search »

Publicités

Orange, un outil de Data Mining vitaminé

Ma participation à un challenge avec l’outil Orange

lovely analytics Orange fruitful and fun

Cela faisait un moment que j’avais envie de tester Orange, c’est un petit outil de Data Mining entièrement gratuit qui est très ludique. D’ailleurs leur slogan c’est « Data Mining Fruitful and fun » en référence à leur logo : une orange à lunette qui semble super happy de faire du Data Mining. Il n’en fallait pas plus pour attiser ma curiosité et j’ai voulu voir si la promesse d’un outil sympa et coloré était tenue ou non. J’ai donc profité d’un Challenge Data Science pour tester Orange.

Lire la suite de « Orange, un outil de Data Mining vitaminé »

Réseaux de neurones comment ça marche ?

lovelyanalytics Réseaux de neuronesS’il y a un algorithme qui fait parler de lui en ce moment, un algorithme que tout le monde veut afficher fièrement sur son CV, c’est bien celui des réseaux de neurones (Neural Network). C’est l’algorithme de base qui se cache derrière le Deep Learning et les intelligences artificielles. Il est souvent utilisé pour les reconnaissances d’image et de voix. Mais sans aller jusque là, je vous propose de comprendre comment les réseaux de neurones fonctionnent pour pouvoir les utiliser. Alors accrochez vous, à la fin de l’article vous saurez comment ça marche.  Lire la suite de « Réseaux de neurones comment ça marche ? »

Ni boîte noire Ni usine à gaz

Simplifiez la Data science !

lovelyanalytics_boite_noire

Un data scientist doit maitriser de nombreux aspects : la collecte, la préparation des données, l’analyse, les algorithmes, les outils, la dataviz, la restitution, … Les sujets ne sont pas simples, c’est sûr et cela demande un réel effort de comprendre et d’expliquer simplement le fonctionnement des algorithmes comme les réseaux de neurones ou les forêts aléatoires. Souvent face à ces difficultés on rencontre 2 comportements : la boîte noire et l’usine à gaz qui sont tous 2 de très mauvais choix. Je vous explique ce que c’est et comment éviter de tomber dans ces pièges.

Lire la suite de « Ni boîte noire Ni usine à gaz »

Classification ascendante hiérarchique comment ça marche?

Apprenez à utiliser simplement une CAH en comprenant le fonctionnement de l’algorithme.

lovely analytics CAH

La CAH est un algorithme de machine learning qui permet, comme les K-means d’identifier des groupes homogènes dans une population. C’est par exemple la méthode de prédilection pour faire des segmentations clients sur des volumes de données acceptables (sinon on préférera utiliser la méthode mixte qui combine CAH et k-means). C’est une méthode que j’adore parce qu’elle m’a toujours surprise par son efficacité et sa capacité à mettre en avant des groupes très cohérents d’un point de vue métier. Typiquement avec la CAH on se dit toujours « Mais c’est tellement évident » en voyant les résultats.

Regardons de plus près comment ça marche :

Lire la suite de « Classification ascendante hiérarchique comment ça marche? »

Comment réussir sa segmentation client?

segmentation-clientUn grand classique du marketing c’est la segmentation client. Il en existe plusieurs sortes mais elles ont toutes le même objectif, celui de passer d’une vision complexe et individuelle des clients à une vision agrégée en créant des groupes de clients suivant leur ressemblance. Certains pièges sont à éviter pour construire une segmentation efficace pour les équipes marketing

Lire la suite de « Comment réussir sa segmentation client? »

Apprenez à utiliser 6 algorithmes de machine learning sur R

Apprendre à coder 6 algos avec R

Tutoriel 6 algos.png

GitHub vous connaissez? Je vous en parlais dans un article ici. J’y ai trouvé un tutoriel très intéressant qui présente 6 algorithmes d’apprentissage supervisé avec des détails pour les implémenter sur R. C’est idéal pour se former ou pour revoir ses bases. Je vous en dis un peu plus sur les 6 algorithmes en question :

Lire la suite de « Apprenez à utiliser 6 algorithmes de machine learning sur R »