Ni boîte noire Ni usine à gaz

Simplifiez la Data science !

Publicités

lovelyanalytics_boite_noire

Un data scientist doit maitriser de nombreux aspects : la collecte, la préparation des données, l’analyse, les algorithmes, les outils, la dataviz, la restitution, … Les sujets ne sont pas simples, c’est sûr et cela demande un réel effort de comprendre et d’expliquer simplement le fonctionnement des algorithmes comme les réseaux de neurones ou les forêts aléatoires. Souvent face à ces difficultés on rencontre 2 comportements : la boîte noire et l’usine à gaz qui sont tous 2 de très mauvais choix. Je vous explique ce que c’est et comment éviter de tomber dans ces pièges.

Lire la suite de « Ni boîte noire Ni usine à gaz »

Classification ascendante hiérarchique comment ça marche?

Apprenez à utiliser simplement une CAH en comprenant le fonctionnement de l’algorithme.

lovely analytics CAH

La CAH est un algorithme de machine learning qui permet, comme les K-means d’identifier des groupes homogènes dans une population. C’est par exemple la méthode de prédilection pour faire des segmentations clients sur des volumes de données acceptables (sinon on préférera utiliser la méthode mixte qui combine CAH et k-means). C’est une méthode que j’adore parce qu’elle m’a toujours surprise par son efficacité et sa capacité à mettre en avant des groupes très cohérents d’un point de vue métier. Typiquement avec la CAH on se dit toujours « Mais c’est tellement évident » en voyant les résultats.

Regardons de plus près comment ça marche :

Lire la suite de « Classification ascendante hiérarchique comment ça marche? »