Extraction, transformation, chargement (ETL), un processus automatisé qui prend les données brutes, extrait l'information nécessaire à l'analyse, la transforme en un format qui peut répondre aux besoins opérationnels et la charge dans un Data Warehouse. L'ETL résume généralement les données afin de réduire leur taille et d'améliorer leur performance pour des types d'analyse spécifiques.
Webinar Oracle Technology Data Week
Temps de lecture : 5 mn
Vous devez charger régulièrement votre entrepôt de données afin qu'il puisse servir à faciliter l'analyse commerciale. Pour ce faire, les données d'un ou plusieurs systèmes opérationnels doivent être extraites et copiées dans l'entrepôt de données. Le défi dans les environnements d'entrepôt de données consiste à intégrer, réorganiser et consolider de grands volumes de données sur de nombreux systèmes, fournissant ainsi une nouvelle base d'information unifiée pour la Business Intelligence.
Le processus d'extraction des données des systèmes sources et de leur transfert dans l'entrepôt de données est communément appelé ETL, qui signifie extraction, transformation et chargement. Il est à noter que l'ETL fait référence à un processus général et non à trois étapes bien définies. L'acronyme ETL est peut-être trop simpliste, car il omet la phase de transport et implique que chacune des autres phases du processus est distincte.
Que se passe-t-il pendant le processus ETL ? Les tâches suivantes sont les principales actions du processus.
La première étape de l'ETL est l'extraction. Au cours de l'extraction, les données sont spécifiquement identifiées et ensuite prélevées à de nombreux endroits différent. Ces données peuvent provenir d’une variété de choses, comme des fichiers, des feuilles de calcul, des systèmes de bases de données et des applications, etc. Il n'est généralement pas possible d'identifier le sous-ensemble exact d'intérêt, de sorte que l'on extrait plus de données que nécessaire pour s'assurer qu'il couvre tous les besoins.
Selon les capacités du système source (par exemple, les ressources du système d'exploitation), certaines transformations peuvent avoir lieu pendant ce processus d'extraction. La taille des données extraites varie de quelques centaines de kilo-octets à plusieurs giga-octets, selon le système source et la situation commerciale. C'est également le cas pour la période entre deux extractions ; certaines peuvent varier de jours ou d'heures à presque en temps réel.
Une fois les données extraites, elles doivent être physiquement transportées vers le système cible ou vers un système intermédiaire pour traitement ultérieur. Selon le mode de transport choisi, certaines transformations peuvent également être effectuées au cours de ce processus.
La prochaine étape du processus ETL est la transformation. Une fois les données extraites, elles doivent être physiquement transportées vers la destination cible et converties dans le format approprié. Cette transformation de données peut inclure des opérations telles que le nettoyage, l'assemblage et la validation des données.
La dernière étape du processus ETL consiste à charger les données transformées dans la cible de destination. Cette cible peut être une bases de données ou un Data Warehouse. Il existe deux méthodes principales pour charger les données dans un entrepôt : chargement complet et chargement incrémentale. La méthode du chargement complet implique un déchargement complet des données qui a lieu la première fois que la source est chargée dans l'entrepôt. La charge incrémentale, par contre, a lieu à intervalles réguliers. Ces intervalles peuvent être des incréments de flux (meilleurs pour de plus petits volumes de données) ou des incréments de lots (meilleurs pour de plus grands volumes de données).
Les équipes de Business Intelligence (BI) lancent ensuite des requêtes sur ces données, qui sont ensuite présentées aux utilisateurs finaux ou aux personnes chargées de prendre des décisions commerciales, ou utilisées comme entrées pour des algorithmes de Machine Learning. Un problème courant rencontré ici est que si les résumés OLAP ne peuvent pas supporter le type d'analyse que l'équipe BI veut faire, alors tout le processus doit être relancé, cette fois avec différentes transformations.
Dans la plupart des cas, les entreprises et les sociétés qui ont besoin de construire et de maintenir des Data Warehouse complexes investiront dans des outils ETL et ELT, mais d'autres organisations peuvent aussi les utiliser à une plus petite échelle.
Les entreprises s'appuient sur le processus ETL depuis de nombreuses années pour obtenir une vue consolidée des données qui leur permet de prendre de meilleures décisions commerciales. Aujourd'hui, cette méthode d'intégration de données provenant de multiples systèmes et sources demeure un élément central de la boîte à outils d'intégration de données d'une organisation.
Les technologies émergentes et l’automatisation imprègnent tous les aspects de notre travail et de notre vie d’aujourd’hui.
La véritable opportunité de ces technologies, qui incluent l’intelligence artificielle (IA), le machine learning, l’Internet des Objets (IoT) et les interfacent humaines, est de nous permettre d’adopter l’innovation à une échelle jamais vue auparavant.
Ces technologies nous aident à réimaginer ce qu’il est possible de faire au travail et dans la vie : des voitures à la médecine personnalisée à l’agriculture de précision et aux villes intelligentes qui changent notre façon de vivre notre monde.
Ce guide complet donne un aperçu détaillé sur la façon dont Oracle Autonomous Database permet aux entreprises d’optimiser la gestion de leur base de données. Ce guide décrit également comment Autonomous Database permet de capitaliser sur les technologies émergentes (machine learning et IA) pour créer de nouvelles applications et exploiter la valeur de leurs données.