Préparer ses données avec Talend : 6 composants indispensables

lovelyanalytics_Talend.pngOn dit souvent que la préparation des données représente 75% du temps de travail d’un Data Scientist. Cela comprend le Data engineering qui consiste à transformer les données pour la création du modèle mais également une partie de data management plus classique. Pour préparer un dataset, souvent à partir de plusieurs sources de données, on peut utiliser un ETL (Extract Transform Load) qui s’avère plus pratique que les outils réservés à l’analyse. Parmi les ETL, je vous propose de tester Talend qui a l’avantage d’inclure une partie complètement gratuite, bien suffisante pour nos besoins de Data management.

J’utilise Talend Data Integration, que vous pouvez télécharger gratuitement sur le site de Talend.

Il existe beaucoup de tutoriel et de cours pour apprendre à utiliser Talend. Vous pouvez par exemple jeter un œil à la chaine Youtube de Talend.

La première fois que je me suis retrouvée face à Talend je me suis dit « OK, mais par quoi je commence? » Surtout que j’ai rarement la patience de faire les tutos en entier, je préfère me lancer rapidement dans le vif du sujet. Donc si vous aussi vous voulez vous lancer sans perdre de temps, voici 6 composants qui me paraissent indispensables :

1) Importer des fichiers : tFileInputExcel 

Le plus simple pour importer un nouveau fichier est de créer une nouvelle table. En sélectionnant le type de fichier à charger, Talend créera directement le bon composant pour importer les données ( tFileImputExcel, tFileInputDelimited,…)  Pour utiliser ce fichier, il suffit de le sélectionner et de le faire glisser sur le job à alimenter.

tfileinoutexcel1tfileinputExcel2tfileinputExcel3

A ce stade Talend sait comment lire ce fichier de données mais il ne le fait pas encore. C’est seulement lorsque vous ajouterez d’autres composants pour faire des transformations et surtout lorsque vous exécuterez le job que Talend chargera les données pour les traiter.

2) Joindre plusieurs tables : tMap

Ce composant est un peu le couteau suisse de Talend. Nous l’utiliserons principalement pour faire des jointures entre plusieurs tables et pour créer de nouvelles colonnes.

Comme pour le composant précédent et pour les suivants, nous n’obtenons pas encore de résultat lors de cette étape, nous ne faisons que paramétrer Talend. Nous exécuterons le job en exportant les résultats plus tard.

tMap1tMap2tMap3tMap4tMap5tMap6

3) Empiler plusieurs tables : tUnite. C’est l’équivalent d’une union. Il suffit de mettre les tables à empiler en entrée et de récupérer une unique table en sortie.

tUnite1tUnite2tUnite3tUnite4

4) Agréger des données : tAggregateRow. C’est le composant qui vous permettra de faire des group by. Vous sélectionnez la ou les variables sur lesquelles faire les regroupements puis les opérations (somme, moyenne, count,…) à effectuer. On s’en sert principalement pour calculer quelques chiffres clés sur notre Dataset : vérifier un nombre de clients, calculer une moyenne, …

tAggregateRow1tAggregateRow2tAggregateRow3

5) Filtrer des lignes : tFilterRow

Pour créer un échantillon ou pour séparer un jeu de données en apprentissage et test, vous pourrez utiliser ce composant.

tFilterRow1tFilterRow2

6) Exporter des résultats : tFileOutputExcel

La fin est proche, on va pouvoir exporter les résultats dans un fichier Excel. Là encore on peut choisir d’autres formats de sortie pour le fichier des résultats. A ne pas oublier : l’extension du fichier de sortie, inclure l’en-tête des colonnes et synchroniser avec le schéma de la table à exporter. Après cette étape nous allons pouvoir exécuter le job.

tfileinoutexcel1tFileOutputExcel2tFileOutputExcel3

Vous avez maintenant toutes les cartes en main pour vous lancer et tester Talend. A vous de jouer 😉

3 commentaires sur « Préparer ses données avec Talend : 6 composants indispensables »

  1. Bonjour, tout d’abord bravo pour ce très joli site j’adore le style class, épuré, moderne !
    Ensuite, suite à cet article une petite question : auriez vous des conseils pour l’utilisation de Talend? Je suis actuellement en stage pour valider un DUT informatique , en télétravail, avec pour mission de chercher comment intégrer talend dans une appli client pour extraire les données du client et en faire au moins pour la démo un annuaire professionnel. J’ai suivi les tuttos sur Talend, je suis aussi un cours sur Udemy… mais il me manque quelques éléments. Je pense avoir saisi la prodédure pour la connexion à une base de données, (c’est à finaliser avec mes collegues pour les identifiants), le tri je pense que je vois comment faire également. Ce qui me bloque pour l’instant c’est comment transformer ou utilisées mes données finales (pour l’instant je les ai mis dans un fichier XML pour créer justement cet annuaire. Auriez vous quelques conseils svp ? Je vous souhaite une bonne journée.
    Carole

    J'aime

    1. Bonjour Carole,

      Talend est un outil qui permet de se connecter à une base de données, faire des transformations et ré-injecter le résultat dans une base de données (enfin c’est une vision assez simplifiée d’un outil très complet). Dans votre cas il pourra donc vous permettre de récupérer vos données, les modifier, les mettre au bon format et les injecter dans une base de données ou les extraire dans le format qui convient.
      Pour la suite, la création d’un annuaire, peut être avec une interface, je ne sais pas trop ce qu’il est possible de faire avec Talend. Il existe d’autres outils plus orientés pour la visualisation des données comme Tableau Software.
      Sous quel format devez vous restituer cet annuaire?

      J'aime

      1. Merci de répondre si vite. Pour l’instant je n’ai pas de directive sur le format final de l’annuaire. J’attends un rdv avec des responsables pour en savoir plus, ou si cela fait parti de ma mission aussi de proposer des solutions.
        Je vais me renseigner sur Tableau Software.
        J’ai réfléchi aujourd’hui que le fait de récupérer les données sur une base de donnée me permettrait de s’y connecter pour mettre à jour un petit site web qui serait l’annuaire. Je dois approfondir mes recherches.
        Merci .

        J'aime

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s