Apprenez à utiliser 6 algorithmes de machine learning sur R

Apprendre à coder 6 algos avec R

Tutoriel 6 algos.png

GitHub vous connaissez? Je vous en parlais dans un article ici. J’y ai trouvé un tutoriel très intéressant qui présente 6 algorithmes d’apprentissage supervisé avec des détails pour les implémenter sur R. C’est idéal pour se former ou pour revoir ses bases. Je vous en dis un peu plus sur les 6 algorithmes en question :

Les arbres de décision permettent de résoudre les problèmes de classification et de régression. Ce sont des modèles assez simples qui ont l’avantage de produire un résultat intuitif et compréhensible. En termes de performance, vous serez rapidement limités par ce type d’algorithmes. Les 2 arbres les plus connus sont CART et C4.5 et se distinguent par l’indicateur permettant de scinder une feuille. L’arbre CART se base sur l’indice de Gini, tandis que C4.5 se base sur le calcul de l’entropie.

Pour en savoir plus sur le fonctionnement des arbres de décision : c’est ici

L’algorithme de Random Forest est un cas particulier de Bagging et correspond en fait à plusieurs modèles d’arbres de décision dont les résultats ont été agrégés. Pour chaque arbre, on tire aléatoirement un échantillon d’individus et à chaque étape de construction d’un noeud, on tire aléatoirement un échantillon de variables. Une fois tous les arbres construits, on sélectionne soit la modalité la plus fréquente dans le cas d’une classification, soit la moyenne dans le cas d’une régression. Un des avantages de cet algorithme c’est que les calculs peuvent être parallélisés.

Pour en savoir plus sur le fonctionnement des Random Forest : c’est ici

GBM c’est un cas particulier de Boosting. Comme l’algorithme de Random Forest, il s’agit d’une méthode d’agrégation de modèles. On construit et on évalue un première arbre puis, pour construire le suivant on donne un poids plus important aux individus qui ont été ma prédits dans le premier arbre. Ainsi, chaque modèle est une version adaptative du précédent. L’agrégation finale correspond à la moyenne de tous les modèles pondérés par leur qualité d’ajustement.

Pour en savoir plus sur le fonctionnement du Gadient Boosting Machines : c’est ici

Les modèles linéaires généralisés regroupent plusieurs méthodes comme la la régression linéaire, la régression logistique, les régressions ridge et lasso… Il s’agit d’une catégorie de modèles linéaires associés à une fonction de lien (logit, probit, log,…).

Vous pouvez voir l’algorithme de Deep Neural Networks comme un algorithme de Neural Network qui comporte plusieurs couches cachées (hidden layers). Les réseaux de neurones permettent de transformer des problèmes non linéaires en problèmes linéaires, en transformant les données en entrée. L’objectif de l’algorithme est de déterminé les poids associés à chaque neurone et pour y parvenir il procède par itérations. Ces algorithmes sont assez complexes à cause d’un nombre de paramètres importants à calibrer. De plus ils nécessitent des données volumineuses et une puissance machine élevée.

Pour en savoir plus sur le fonctionnement du Deep Neural Networks : c’est ici

Le Stacking est une autre méthode d’agrégation de modèles pour laquelle il est possible d’utiliser plusieurs algorithmes différents pour les combiner. L’idée de base est toujours la même, c’est de capitaliser sur plusieurs modèles pour mieux généraliser les résultats.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s