Préparer ses données avec Talend : 6 composants indispensables

lovelyanalytics_Talend.pngOn dit souvent que la préparation des données représente 75% du temps de travail d’un Data Scientist. Cela comprend le Data engineering qui consiste à transformer les données pour la création du modèle mais également une partie de data management plus classique. Pour préparer un dataset, souvent à partir de plusieurs sources de données, on peut utiliser un ETL (Extract Transform Load) qui s’avère plus pratique que les outils réservés à l’analyse. Parmi les ETL, je vous propose de tester Talend qui a l’avantage d’inclure une partie complètement gratuite, bien suffisante pour nos besoins de Data management.

J’utilise Talend Data Integration, que vous pouvez télécharger gratuitement sur le site de Talend.

Il existe beaucoup de tutoriel et de cours pour apprendre à utiliser Talend. Vous pouvez par exemple jeter un œil à la chaine Youtube de Talend.

La première fois que je me suis retrouvée face à Talend je me suis dit « OK, mais par quoi je commence? » Surtout que j’ai rarement la patience de faire les tutos en entier, je préfère me lancer rapidement dans le vif du sujet. Donc si vous aussi vous voulez vous lancer sans perdre de temps, voici 6 composants qui me paraissent indispensables :

1) Importer des fichiers : tFileInputExcel 

Le plus simple pour importer un nouveau fichier est de créer une nouvelle table. En sélectionnant le type de fichier à charger, Talend créera directement le bon composant pour importer les données ( tFileImputExcel, tFileInputDelimited,…)  Pour utiliser ce fichier, il suffit de le sélectionner et de le faire glisser sur le job à alimenter.

tfileinoutexcel1tfileinputExcel2tfileinputExcel3

A ce stade Talend sait comment lire ce fichier de données mais il ne le fait pas encore. C’est seulement lorsque vous ajouterez d’autres composants pour faire des transformations et surtout lorsque vous exécuterez le job que Talend chargera les données pour les traiter.

2) Joindre plusieurs tables : tMap

Ce composant est un peu le couteau suisse de Talend. Nous l’utiliserons principalement pour faire des jointures entre plusieurs tables et pour créer de nouvelles colonnes.

Comme pour le composant précédent et pour les suivants, nous n’obtenons pas encore de résultat lors de cette étape, nous ne faisons que paramétrer Talend. Nous exécuterons le job en exportant les résultats plus tard.

tMap1tMap2tMap3tMap4tMap5tMap6

3) Empiler plusieurs tables : tUnite. C’est l’équivalent d’une union. Il suffit de mettre les tables à empiler en entrée et de récupérer une unique table en sortie.

tUnite1tUnite2tUnite3tUnite4

4) Agréger des données : tAggregateRow. C’est le composant qui vous permettra de faire des group by. Vous sélectionnez la ou les variables sur lesquelles faire les regroupements puis les opérations (somme, moyenne, count,…) à effectuer. On s’en sert principalement pour calculer quelques chiffres clés sur notre Dataset : vérifier un nombre de clients, calculer une moyenne, …

tAggregateRow1tAggregateRow2tAggregateRow3

5) Filtrer des lignes : tFilterRow

Pour créer un échantillon ou pour séparer un jeu de données en apprentissage et test, vous pourrez utiliser ce composant.

tFilterRow1tFilterRow2

6) Exporter des résultats : tFileOutputExcel

La fin est proche, on va pouvoir exporter les résultats dans un fichier Excel. Là encore on peut choisir d’autres formats de sortie pour le fichier des résultats. A ne pas oublier : l’extension du fichier de sortie, inclure l’en-tête des colonnes et synchroniser avec le schéma de la table à exporter. Après cette étape nous allons pouvoir exécuter le job.

tfileinoutexcel1tFileOutputExcel2tFileOutputExcel3

Vous avez maintenant toutes les cartes en main pour vous lancer et tester Talend. A vous de jouer 😉

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s