metadata data warehouse explained with examples
Ce didacticiel explique le rôle des métadonnées dans ETL, des exemples et des types de métadonnées, un référentiel de métadonnées et des défis dans la gestion des métadonnées:
Data Mart dans ETL a été expliqué en détail dans notre précédent tutoriel.
Le concept de métadonnées est très important dans ETL et ce tutoriel vous expliquera tout sur les métadonnées.
Il couvre le rôle des métadonnées, des exemples de métadonnées, ainsi que ses types, le référentiel de métadonnées, comment gérer les métadonnées de l'entrepôt de données, les défis de la gestion des métadonnées.
Vous apprendrez également ce qu'est l'ETL basé sur les métadonnées et la différence entre les données et les métadonnées.
=> Lisez la série de formation gratuite sur l'entrepôt de données ici.
Public cible
- Développeurs et testeurs d'entrepôt de données / ETL.
- Professionnels des bases de données ayant une connaissance de base des concepts de bases de données.
- Administrateurs de bases de données / experts en big data qui souhaitent comprendre les domaines de l'entrepôt de données / ETL.
- Diplômés / étudiants de niveau collégial à la recherche d'emplois dans l'entrepôt de données.
Ce que vous apprendrez:
qu'est-ce qu'un bon téléchargeur de musique gratuit
Métadonnées dans ETL
Les utilisateurs de l'équipe (ou) de l'entrepôt de données peuvent utiliser des métadonnées dans diverses situations pour créer, maintenir et gérer le système. La définition de base des métadonnées dans l'entrepôt de données est, 'Ce sont des données sur les données' .
Les métadonnées peuvent contenir toutes sortes d'informations sur les données DW telles que:
- Source pour toutes les données extraites.
- Utilisation de ces données DW.
- Tout type de données et ses valeurs.
- Caractéristiques des données.
- Logique de transformation pour les données extraites.
- Tables DW et leurs attributs.
- Objets DW
- Horodatages
Les métadonnées agissent comme une table des matières pour les données dans le système DW, qui montre la technique avec plus de détails sur ces données. En termes simples, vous pouvez penser à un index dans n'importe quel livre qui sert de métadonnées, pour le contenu de ce livre.
De même, les métadonnées fonctionnent comme un index du contenu DW. Toutes ces métadonnées sont stockées dans un référentiel. En parcourant les métadonnées, les utilisateurs finaux savent d'où ils peuvent commencer à analyser le système DW. Sinon, il est difficile pour les utilisateurs finaux de savoir par où commencer l'analyse des données dans un système DW aussi énorme.
Rôle des métadonnées dans l'entrepôt de données
Dans les premiers jours, les métadonnées étaient créées et conservées sous forme de documents. Mais dans le monde numérique d’aujourd’hui, divers outils ont rendu ce travail plus facile en enregistrant des métadonnées à chaque niveau du processus DW.
Les métadonnées créées par un outil peuvent être standardisées (c'est-à-dire que les données peuvent être introduites dans un format unique) et peuvent être réutilisées dans les autres outils n'importe où dans le système DW.
Comme nous savons que les systèmes opérationnels conservent les données actuelles, les systèmes DW conservent les données historiques et actuelles.
Les métadonnées doivent garder une trace de tous les changements qui se produisent dans les systèmes sources, les méthodes d'extraction / transformation des données et dans la structure (ou) le contenu des données qui surviendront dans ce processus. Les métadonnées conserveront différentes versions pour garder une trace de tous ces changements sur plusieurs années.
Des métadonnées suffisantes fournies dans le référentiel aideront tout utilisateur à analyser le système de manière plus efficace et indépendante. En comprenant les métadonnées, vous pouvez exécuter toutes sortes de requêtes sur les données DW pour obtenir les meilleurs résultats.
Représentation illustrée du rôle des métadonnées:
convertisseurs vidéo gratuits pour windows 10
Exemples de métadonnées en termes simples
Vous trouverez ci-dessous quelques exemples de métadonnées.
- Les métadonnées d'une page Web peuvent contenir la langue dans laquelle elle est codée, les outils utilisés pour la créer, les navigateurs pris en charge, etc.
- Les métadonnées d'une image numérique peuvent contenir la taille de l'image, la résolution, l'intensité des couleurs, la date de création de l'image, etc.
- Les métadonnées d’un document peuvent contenir la date de création du document, la date de la dernière modification, sa taille, son auteur, sa description, etc.
Comparaison entre les données et les métadonnées
S. Non | Données | Métadonnées |
---|---|---|
1 | Les données sont un ensemble d'informations. | Les métadonnées sont des informations sur les données. |
deux | Les données peuvent (ou) ne pas être traitées. | Les métadonnées sont toujours des données traitées. |
Types de métadonnées
La classification des métadonnées en différents types nous aidera à mieux les comprendre. Cette classification peut être basée sur son utilisation (ou) les utilisateurs, etc.
Explorons les différents types de métadonnées ci-dessous:
# 1) Métadonnées Backroom: Dirige les DBA (ou) les utilisateurs finaux sur les processus d'extraction, de nettoyage et de chargement.
# 2) Métadonnées de la pièce avant: Indique aux utilisateurs finaux de travailler avec des outils et des rapports BI.
# 3) Métadonnées de processus: Cela stocke les métadonnées de processus ETL telles que le nombre de lignes chargées, rejetées, traitées et le temps de chargement dans un système DW, etc. Ces informations peuvent également être accessibles aux utilisateurs finaux.
Dans le même temps, les statistiques des tables de transfert sont également importantes pour l'équipe ETL. Ces métadonnées stockeront les données de processus des tables de transfert, telles que le nombre de lignes chargées, rejetées, traitées et le temps de chargement dans chaque table de transfert.
# 4) Lignée de données: Cela stocke la transformation logique de chaque élément du système source vers l'élément cible DW.
# 5) Définitions commerciales: Le contexte des tables DW a été dérivé des définitions métier. Chaque attribut d'une table est associé à une définition métier. Par conséquent, ceux-ci doivent être stockés sous forme de métadonnées (ou) de tout autre document pour référence future. Les utilisateurs finaux et l'équipe ETL dépendent de ces définitions d'entreprise.
# 6) Définitions techniques: Les définitions techniques sont utilisées exclusivement dans la zone de transfert des données plus que les définitions métier. L'objectif principal est de réduire l'ambiguïté lors de la création de tables intermédiaires et de réutiliser toutes les tables existantes. Les définitions techniques stockeront les détails de chaque table de transfert, tels que son emplacement et sa structure.
Chaque table intermédiaire est techniquement documentée ici, si elle n'est pas documentée, cela signifie que la table intermédiaire n'est pas existante. Cela évite la recréation de la même table intermédiaire.
# 7) Métadonnées commerciales: Les données seront stockées en termes commerciaux au profit des utilisateurs finaux / analystes / gestionnaires / de tout utilisateur. Les métadonnées commerciales sont proxy pour les données du système source, c'est-à-dire qu'aucune manipulation de données ne sera effectuée dessus. Il peut être dérivé de tous les documents commerciaux et règles de gestion.
# 8) Métadonnées techniques: Cela stockera des données techniques telles que les attributs des tables, leurs types de données, leur taille, les attributs de clé primaire, les attributs de clé étrangère et tous les index. Ceci est plus structuré par rapport aux métadonnées commerciales.
Les métadonnées techniques sont principalement destinées à l'équipe DW telle que les développeurs / testeurs / analystes / DBA pour construire (ou) maintenir le système. Ceci est également utilisé de manière significative par les administrateurs pour surveiller les charges de base de données et les sauvegardes de données, etc.
# 9) Métadonnées opérationnelles: Comme nous le savons, les données du système DW proviennent de nombreux systèmes opérationnels avec divers types et champs de données. Les extraits DW transforment ces données en un type unique et chargent toutes ces données dans le système.
Dans le même temps, il doit être capable de relier les données à ses données système source. Les métadonnées qui stockent toutes ces informations sur les sources de données opérationnelles sont appelées métadonnées opérationnelles.
# 10) Informations sur le système source:
Vous pouvez collecter les métadonnées suivantes à partir de divers systèmes sources:
- Base de données (ou) système de fichiers: Cela stockera les noms des bases de données du système source (ou) des fichiers.
- Spécifications de la table: Cela stockera tous les détails sur les tables tels que le nom de la table, son objectif, sa taille, les attributs, les clés primaires et les clés étrangères.
- Règles de gestion des exceptions: Cela stockera différentes méthodes de récupération du système en cas de défaillance du système.
- Définitions commerciales: Cela stockera les définitions d'entreprise pour une brève compréhension des données.
- Règles métier: Cela stockera un ensemble de règles pour chaque table afin de comprendre ses données et d'éviter les incohérences.
Les métadonnées du système source font gagner beaucoup de temps à l'équipe DW lors de l'analyse des données.
# 11) Métadonnées du travail ETL: Les métadonnées de travail ETL sont très importantes car elles stockent les détails de tous les travaux à traiter dans la planification, pour charger le système ETL.
Ces métadonnées stockent les informations suivantes:
- Nom du travail: Nom du travail ETL.
- Objectif de l'emploi: Le but de l'exécution du travail.
- Tables / fichiers source: Il fournit les noms et l'emplacement de toutes les tables et fichiers à partir desquels les données proviennent de ce travail ETL. Cela peut avoir plus d'un nom de fichier (ou) de table.
- Tables / fichiers cibles: Il fournit les noms et l'emplacement de toutes les tables et fichiers vers lesquels les données sont transformées par ce travail ETL. Cela peut avoir plus d'un nom de fichier (ou) de table.
- Données rejetées: Il fournit les noms et l'emplacement de toutes les tables et fichiers à partir desquels les données source prévues n'ont pas été chargées dans la cible.
- Pré processus: Il fournit les noms de travaux (ou) de script dont dépend le travail en cours. Cela signifie que ceux-ci doivent être exécutés avec succès avant d'exécuter le travail en cours.
- Post processus: Il fournit les noms de tâches (ou) de script qui doivent être exécutés immédiatement après la tâche en cours pour terminer le processus.
- La fréquence: Il fournit des informations sur la fréquence à laquelle le travail doit être exécuté, c'est-à-dire quotidiennement, hebdomadairement (ou) mensuellement.
# 12) Métadonnées de transformation: Les métadonnées de transformation stockent toutes les informations de construction liées au processus ETL. Chaque manipulation de données dans le processus ETL est connue sous le nom de transformation de données.
Tout ensemble de fonctions, procédures stockées, curseurs, variables et boucles du processus ETL peut être considéré comme des transformations. Mais ces transformations ne peuvent pas être documentées séparément sous forme de métadonnées.
L'ensemble du processus ETL est construit avec des transformations de données. Peu de transformations dans ETL peuvent être prédéfinies et utilisées dans le système DW. Les développeurs ETL passent leur temps à construire (ou) retraiter toutes les transformations de données. La réutilisation des transformations prédéfinies pendant le développement du processus ETL accélérera le travail.
Lisez les transformations de données ci-dessous que vous pouvez trouver dans ETL:
- Extractions de données source: Cela implique des transformations de données à lire à partir des données du système source telles qu'une requête SQL Select (ou) FTP (ou) la lecture de données XML / mainframe.
- Générateurs de clés de substitution: Le nouveau numéro de séquence qui doit être généré pour chaque ligne de table de base de données est stocké sous forme de métadonnées.
- Recherches: Les recherches peuvent être formées avec toutes les instructions IN, les jointures internes et les jointures externes. Celles-ci sont principalement utilisées pour contenir les clés de substitution de toutes les tables de dimension respectives lors du chargement d'un fait.
- Filtres: Les filtres sont recommandés pour trier les données qui doivent être extraites, chargées et rejetées dans le processus ETL. Le filtrage des données au tout début du système ETL est une bonne pratique. Les filtres sont appliqués en fonction des règles métier (ou) des contraintes.
- Agrégats: Selon le niveau de granularité des données, les métadonnées liées aux fonctions d'agrégation peuvent être utilisées telles que la somme, le nombre, la moyenne, etc.
- Stratégies de mise à jour: Ce sont les règles appliquées à un enregistrement lors de la mise à jour des données. S'il y a une modification dans les données existantes, cela indiquera si un enregistrement doit être ajouté, supprimé (ou) mis à jour.
- Chargeur cible: Le chargeur cible stockera les détails de la base de données, les noms de table et les noms de colonne dans lesquels les données doivent être chargées via le processus ETL. De plus, cela stockera également les détails de l'utilitaire de chargement en bloc, le cas échéant, qui est effectué lors du chargement des données dans le système ETL.
Chaque transformation peut être nommée de manière distincte avec une brève note sur son objectif.
Quelques exemples de conventions de dénomination sont inclus ici pour la liste de transformations ci-dessus.
client ssh gratuit pour windows 10
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Référentiel de métadonnées dans ETL
Un référentiel de métadonnées est un endroit où tout type de métadonnées est stocké dans une base de données locale (ou) dans une base de données virtuelle. Chaque type de métadonnées telles que les métadonnées métier (ou) les métadonnées techniques peuvent être séparés logiquement dans un référentiel.
En plus des deux types ci-dessus, le référentiel comporte également un autre composant nommé Navigateur d'informations.
Le navigateur d'informations peut être utilisé pour effectuer les tâches ci-dessous:
- Interface de l'éditeur de requêtes: Cela fournit une interface aux outils de requête pour accéder aux métadonnées DW.
- Explorez les détails: Cela permet à l'utilisateur d'explorer les métadonnées pour obtenir des informations plus détaillées. Par exemple, au premier niveau, l'utilisateur peut obtenir une définition de table de données. En explorant vers le bas, il peut obtenir les attributs de la table au niveau suivant. En explorant davantage les données, il peut obtenir les détails de chaque attribut, etc.
- Examiner les requêtes et les rapports prédéfinis: Cela permet à l'utilisateur d'examiner les requêtes et les rapports prédéfinis. Cela sert de référence aux requêtes de trame de son propre chef avec des paramètres appropriés, etc.
Représentation illustrée du référentiel de métadonnées:
Comment les métadonnées d'entreposage de données peuvent-elles être gérées?
Les personnes, les processus et les outils sont les principales sources de gestion des métadonnées.
- Les gens doivent comprendre les métadonnées pour une utilisation appropriée.
- Le processus incorporera des métadonnées dans le référentiel d'outils (ou) avec la progression du cycle de vie DW pour une utilisation future.
- Ensuite, les métadonnées peuvent être gérées par des outils.
Défis pour la gestion des métadonnées
Une fois les métadonnées créées, vous pouvez faire face aux défis ci-dessous lors de l'intégration et de la gestion des métadonnées dans le système.
- Intégrer divers formats de métadonnées dans un format standard peut nécessiter plus d'efforts si divers outils sont utilisés dans le système DW, car les métadonnées peuvent être stockées dans des feuilles de calcul, des applications (ou) des bases de données.
- Les formats de métadonnées n'ont pas de normes établies à l'échelle de l'industrie. En raison de ce manque de processus normalisé, il est difficile de transmettre des métadonnées à différents niveaux du système et des outils DW.
- La gestion constante de diverses versions de métadonnées historiques est une tâche complexe.
Qu'est-ce que l'ETL basé sur les métadonnées?
ETL basé sur les métadonnées établit une couche pour simplifier le processus de chargement des données dans un système DW. Vous pouvez décider de traiter les données dans le système (ou) sans dépendre des métadonnées. Par conséquent, vous pouvez l'appeler comme ETL basé sur les métadonnées.
Conclusion
Le rôle important des métadonnées dans la détermination du succès (ou) de l'échec d'un système DW a été expliqué en détail dans ce didacticiel.
Nous avons également exploré en détail la signification, le rôle, les exemples, les types et les défis des métadonnées ainsi que la représentation picturale concernée.
Nous espérons que ces didacticiels informatifs de cette série Data Warehouse ont enrichi vos connaissances sur l'entreposage de données et les concepts associés !!!
Bonne lecture!!
=> Visitez ici pour apprendre l'entreposage de données à partir de zéro.
lecture recommandée
- Tutoriel de test de l'entrepôt de données avec des exemples | Guide de test ETL
- Didacticiel de test de l'entrepôt de données de test ETL (un guide complet)
- Modèle de données dimensionnelles dans l'entrepôt de données - Tutoriel avec des exemples
- Tutoriel Data Mart - Types, exemples et implémentation de Data Mart
- Qu'est-ce que le processus ETL (extraction, transformation, chargement) dans l'entrepôt de données?
- 10 meilleurs outils de mappage de données utiles dans le processus ETL (2021 LIST)
- Exemples d'exploration de données: applications les plus courantes de l'exploration de données 2021
- Questions et réponses d'entrevue de test ETL