Aucun résultat trouvé

Votre recherche n’a donné aucun résultat.

Qu’est-ce qu’un entrepôt de données ?

Un data warehouse est un type de système de gestion de données conçu pour permettre et faciliter les activités de Business Intelligence (BI), en particulier l’analytique. Les data warehouses sont uniquement destinés à l’exécution de requêtes et d’analyses et contiennent souvent de grands volumes de données historiques. Les données contenues dans un data warehouse proviennent généralement d’un large éventail de sources telles que les fichiers journaux d’applications et les applications transactionnelles.

Un data warehouse centralise et consolide de grands volumes de données provenant de sources multiples. Ses capacités analytiques permettent aux organisations de tirer de leurs données de précieuses informations exploitables pour améliorer la prise de décision. Au fil du temps, il constitue un historique qui peut être inestimable pour les data scientists et les analystes métier. En raison de ces capacités, un data warehouse peut être considéré comme la “source unique d’informations valides” d’une organisation.

Un data warehouse type comprend souvent les éléments suivants :

  • Une base de données relationnelle pour stocker et gérer les données
  • Une solution d’extraction, de chargement et de transformation (ELT) pour la préparation des données en vue de l’analyse
  • Des capacités d’analyse statistique, de reporting et d’exploration des données
  • Des outils d’analyse client pour la visualisation et la présentation des données aux utilisateurs métier
  • D’autres applications analytiques plus sophistiquées générant des informations
  • exploitables en appliquant des algorithmes de Machine Learning et d’intelligence artificielle (IA)

Pourquoi ne pas exécuter nos fonctions analytiques sur notre environnement OLTP ?

Les data warehouses sont des environnements relationnels utilisés pour l’analyse des données, en particulier l’analyse des données historiques. Les organisations utilisent des data warehouses pour découvrir dans leurs données des modèles et des relations qui se développent au fil du temps.

En revanche, les environnements transactionnels servent à traiter les transactions de manière continue et sont couramment utilisés pour la saisie des commandes et les transactions financières et commerciales. Ils ne s’appuient pas sur des données historiques ; en fait, dans les environnements OLTP, les données historiques sont souvent archivées ou simplement supprimées dans le but d’améliorer les performances.

Les data warehouses et les systèmes OLTP sont très différents.

Data warehouse Système OLTP
Charge de travail Prend en charge les requêtes ad hoc et l’analyse des données Prend en charge uniquement les opérations prédéfinies
Modifications de données Se met à jour automatiquement et régulièrement Les mises à jour sont effectuées par les utilisateurs finaux émettant des relevés individuels
Design de schéma Utilise des schémas partiellement dénormalisés pour optimiser les performances Utilise des schémas entièrement normalisés pour garantir la cohérence des données
Balayage des données Englobe des milliers, voire des millions, de lignes Accède à une poignée d’enregistrements à la fois
Données historiques Stocke plusieurs mois ou années de données Stocke les données pour quelques semaines ou mois seulement

Data warehouses, data marts et magasins de données opérationnelles

Bien qu’ils remplissent des rôles similaires, les data warehouses sont différents des data marts et des magasins de données opérationnelles (ODS). Un data mart remplit les mêmes fonctions qu’un data warehouse mais dans un champ beaucoup plus limité, généralement un seul département ou secteur d’activité. Cela rend les data marts plus faciles à mettre en place que les data warehouses. Cependant, ils ont tendance à introduire des incohérences car il peut être difficile de gérer et de contrôler de manière uniforme des données réparties dans de nombreux data marts.

Les magasins ODS ne prennent en charge que les opérations quotidiennes ; leur vue sur les données historiques est donc très limitée. Bien qu’elles fonctionnent très bien comme sources de données actuelles et soient souvent utilisées à ce titre par les data warehouses, elles ne prennent pas en charge les requêtes riches en données historiques.

Ai-je besoin d’un lac de données ?

Les organisations utilisent à la fois des lacs de données et des data warehouses pour d’importants volumes de données provenant de différentes sources. Le recours à l’un ou l’autre dépend de ce que l’organisation veut accomplir avec les données. Les descriptions suivantes indiquent les cas d’utilisation indiqués pour chacun :

  • Les lacs de données stockent un grand volume de données disparates non filtrées qui seront utilisées ultérieurement dans un but particulier. Les données provenant d’applications de secteur d’activité, d’applications mobiles, de médias sociaux, d’appareils IoT et autres sont capturées sous forme de données brutes dans un lac de données. La structure, l’intégrité, la sélection et le format des divers ensembles de données sont dérivés au moment de l’analyse par la personne qui effectue l’analyse. Lorsque les organisations ont besoin d’un stockage à faible coût pour des données non formatées et non structurées provenant de plusieurs sources qu’elles comptent utiliser à l’avenir, un lac de données peut constituer un bon choix.
  • Les data warehouses sont spécifiquement destinés à l’analyse des données. Le traitement analytique au sein d’un data warehouse est effectué sur les données préparées pour l’analyse (rassemblées, contextualisées et transformées) dans le but de générer des informations exploitables basées sur l’analyse. Les data warehouses sont également aptes à traiter de grandes quantités de données provenant de diverses sources. Lorsque les organisations ont besoin de fonctions d’analytique ou d’analyse des données qui s’appuient sur des données historiques provenant de plusieurs sources au sein de leur entreprise, le data warehouse est probablement le bon choix.

Avantages d’un data warehouse

Les data warehouses offrent l’avantage singulier et essentiel de permettre aux organisations d’analyser de grandes quantités de variantes de données et d’en extraire une valeur significative, ainsi que de constituer un historique.

Quatre caractéristiques uniques (décrites par l’informaticien William Inmon, considéré comme le père du data warehouse) permettent aux data warehouses d’offrir cet avantage primordial. D’après cette définition, les data warehouses sont

  • Orientés sujet. Ils peuvent analyser des données sur un sujet ou un domaine fonctionnel particulier (comme les ventes).
  • Intégrés. Les data warehouses créent une cohérence entre différents types de données provenant de sources disparates.
  • Non volatiles. Une fois que les données sont dans un data warehouse, elles sont stables et ne changent pas.
  • À variance temporelle. L’analyse de data warehouse examine l’évolution des données dans le temps.

Un data warehouse bien conçu exécutera les requêtes très rapidement, fournira un débit de données élevé et offrira suffisamment de flexibilité aux utilisateurs finaux pour “décomposer” ou réduire le volume de données et permettre un examen plus approfondi afin de répondre à une variété de demandes, que ce soit à un niveau global ou à un niveau très fin et détaillé. Le data warehouse sert de base fonctionnelle pour les environnements BI middleware fournissant aux utilisateurs finaux des rapports, des tableaux de bord et d’autres interfaces.

Architecture d’un data warehouse

L’architecture d’un data warehouse est déterminée par les besoins spécifiques de l’organisation. Les architectures courantes offrent les caractéristiques suivantes :

  • Simplicité. Tous les data warehouses partagent un design de base dans laquelle les métadonnées, les données de synthèse et les données brutes sont stockées dans le référentiel central du warehouse. Le référentiel est alimenté par des sources de données d’un côté et accessible par les utilisateurs finaux de l’autre à des fins d’analyse, de reporting et d’exploration.
  • Simplicité avec une zone intermédiaire. Les données opérationnelles doivent être nettoyées et traitées avant d’être placées dans le warehouse. Bien que cela puisse être fait par programmation, de nombreux data warehouses ajoutent une zone intermédiaire pour les données avant leur entrée dans le warehouse, afin de simplifier la préparation des données.
  • Hub and Spoke. L’ajout de data marts entre le référentiel central et les utilisateurs finaux permet à une organisation de personnaliser son data warehouse afin de desservir divers secteurs d’activité. Lorsque les données sont prêtes à être utilisées, elles sont déplacées vers le data mart approprié.
  • Bacs à sable. Les bacs à sable (ou Sandboxes) sont des zones privées, sécurisées et sûres qui permettent aux entreprises d’explorer rapidement et de manière informelle de nouveaux ensembles de données ou méthodes d’analyse des données sans avoir à se conformer aux règles et au protocole formels du data warehouse.

L’évolution des data warehouses : de l’analytique des données à l’IA et au Machine Learning

Quand les data warehouses ont fait leur apparition à la fin des années 80, leur but était de faciliter la circulation des données depuis les systèmes opérationnels vers les systèmes d’aide à la décision (DSS). Ces premiers data warehouses nécessitaient une redondance énorme. La plupart des organisations disposaient de plusieurs environnements DSS adaptés à leurs différents utilisateurs. Même si les environnements DSS utilisaient une grande partie des mêmes données, la collecte, le nettoyage et l’intégration des données étaient souvent répliqués pour chaque environnement.

À mesure que les data warehouses ont gagné en efficacité, ils sont passés de magasins d’informations prenant en charge les plateformes de BI traditionnelles à de larges infrastructures analytiques prenant en charge une grande variété d’applications, telles que l’analytique opérationnelle et la gestion des performances.

Les itérations de data warehouse ont progressé au fil du temps pour fournir une valeur supplémentaire incrémentielle à l’entreprise.

Étape Fonctionnalité Valeur ajoutée
1 Reporting transactionnel Fournit des informations relationnelles pour créer des instantanés des performances de l’entreprise
2 Décomposition des données, requête ad hoc, outils de BI Étend les fonctionnalités pour des informations exploitables approfondies et une analyse plus robuste
3 Prévision des performances futures (exploration de données) Développe des visualisations et une Business Intelligence tournée vers l’avenir
4 Analyse tactique (spatiale, statistique) Propose des scénarios What-If pour éclairer les décisions pratiques basées sur une analyse plus complète
5 Stocke plusieurs mois ou années de données Stocke les données pour quelques semaines ou mois seulement

La prise en charge de chacune de ces cinq étapes a nécessité une variété croissante d’ensembles de données. Les trois dernières étapes en particulier créent la nécessité d’une gamme encore plus étendue de données et de fonctionnalités analytiques.

Aujourd’hui, l’IA et le Machine Learning bouleversent presque tous les secteurs d’activité, services et assets d’entreprise, et les data warehouses ne font pas exception. L’expansion du Big Data et l’application de nouvelles technologies digitales font évoluer les exigences et les fonctionnalités liées aux data warehouses.

Le data warehouse autonome marque la dernière étape de cette évolution, offrant aux entreprises la possibilité de dégager encore plus de valeur de leurs données tout en réduisant les coûts et en améliorant la fiabilité et les performances des data warehouses.

Vous trouverez plus d’informations sur les data warehouses autonomes dans notre eBook. Vous pourrez ensuite commencer avec votre propre data warehouse autonome.

Design d’un data warehouse

Lorsqu’une organisation entreprend de concevoir un data warehouse, elle doit commencer par définir ses besoins métier spécifiques, convenir de sa portée et élaborer un design conceptuel. L’organisation peut ensuite créer le design à la fois logique et physique du data warehouse. Le design logique concerne les relations entre les objets, et le design physique représente le meilleur moyen de stocker et de récupérer les objets. Le design physique englobe également les processus de transport, de sauvegarde et de récupération.

Le design de tout data warehouse doit prendre en compte les éléments suivants :

  • Les contenus de données spécifiques
  • Les relations au sein et entre groupes de données
  • L’environnement des systèmes qui prendra en charge le data warehouse
  • Les types de transformations de données nécessaires
  • La fréquence d’actualisation des données

Les besoins des utilisateurs finaux constituent un facteur primordial du design. La plupart des utilisateurs finaux souhaitent effectuer des analyses et examiner les données au niveau global plutôt qu’au niveau des transactions individuelles. Cependant, souvent, les utilisateurs finaux ne savent pas vraiment ce qu’ils veulent avant qu’un besoin spécifique ne survienne. Ainsi, le processus de planification devrait inclure une exploration suffisante pour anticiper les besoins. Enfin, le design du data warehouse doit offrir des possibilités d’expansion et d’évolution pour répondre aux besoins en constante évolution des utilisateurs finaux.

Le Cloud et le data warehouse

Les data warehouses dans le Cloud offrent les mêmes caractéristiques et avantages que les data warehouses sur site, mais avec les atouts du Cloud Computing en plus, tels que la flexibilité, l’évolutivité, l’agilité, la sécurité et les coûts réduits. Les data warehouses Cloud permettent aux entreprises de se concentrer uniquement sur l’extraction de valeur de leurs données plutôt que de devoir créer et gérer l’infrastructure matérielle et logicielle nécessaire à la prise en charge du data warehouse.

En savoir plus sur Oracle Cloud et les data warehouses (PDF)

Déploiement sans complexité : le data warehouse autonome

L’avancée la plus récente du data warehouse est le data warehouse autonome, qui repose sur l’IA et le Machine Learning pour éliminer les tâches manuelles et simplifier la configuration, le déploiement et la gestion des données. Un data warehouse autonome en tant que service dans le Cloud ne nécessite aucune intervention humaine pour l’administration des bases de données, la configuration matérielle, la gestion matérielle ou l’installation logicielle.

La création du data warehouse, la sauvegarde, l’application de correctifs et la mise à niveau de la base de données, ainsi que l’extension ou la réduction de la base de données sont toutes des tâches effectuées automatiquement, avec le même niveau de flexibilité, d’évolutivité, d’agilité et de coûts réduits qu’offrent les plateformes Cloud. Le data warehouse autonome élimine la complexité, accélère le déploiement et libère des ressources pour que les organisations puissent se concentrer sur les activités à valeur ajoutée.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse est un data warehouse entièrement autonome, simple d’utilisation qui évolue de manière élastique, offre une exécution rapide des requêtes et ne nécessite aucune administration de base de données. La configuration d’Oracle Autonomous Data Warehouse est très simple et rapide.

En savoir plus sur Oracle Autonomous Data Warehouse Cloud (PDF)