data mart tutorial types
Ce didacticiel explique les concepts du magasin de données, y compris la mise en œuvre, les types et la structure du magasin de données, ainsi que les différences entre l'entrepôt de données et le magasin de données:
Dans ce Série complète de formations sur l'entrepôt de données , nous avons examiné les différents Schémas d'entrepôt de données en détail.
Ce didacticiel vous aidera à apprendre en détail les concepts de Data Mart avec des exemples simples.
Nous verrons Qu'est-ce qu'un data mart? Quand avons-nous besoin d'un data mart? Data Marting rentable, Coût d'un data mart, Types de data marts, Etapes de mise en œuvre d'un data mart, Structure d'un data mart, Quand un Data Mart pilote est-il utile? Inconvénients de Datamart et différences entre Data Warehouse et Data Mart.
Public cible
- Développeurs et testeurs d'entrepôt de données / ETL.
- Professionnels des bases de données ayant une connaissance de base des concepts de bases de données.
- Administrateurs de bases de données / experts Big Data qui souhaitent comprendre les concepts d'entrepôt de données / ETL.
- Diplômés du Collège / Freshers qui recherchent des emplois dans l'entrepôt de données.
Ce que vous apprendrez:
- Qu'est-ce qu'un magasin de données?
- Comparaison entre l'entrepôt de données et le magasin de données
- Types de Data Marts
- Étapes de mise en œuvre d'un magasin de données
- Structure d'un magasin de données
- Quand un centre de données pilote est-il utile?
- Inconvénients du Data Mart
- Conclusion
Qu'est-ce qu'un magasin de données?
Un data mart est une petite partie de l'entrepôt de données qui est principalement liée à un domaine commercial particulier comme le marketing (ou) les ventes, etc.
Les données stockées dans le système DW sont énormes, c'est pourquoi les magasins de données sont conçus avec un sous-ensemble de données appartenant à des départements individuels. Ainsi, un groupe spécifique d'utilisateurs peut facilement utiliser ces données pour leur analyse.
Contrairement à un entrepôt de données qui a de nombreuses combinaisons d'utilisateurs, chaque magasin de données aura un ensemble particulier d'utilisateurs finaux. Le plus petit nombre d'utilisateurs finaux se traduit par un meilleur temps de réponse.
Les data marts sont également accessibles aux outils de Business Intelligence (BI). Les magasins de données ne contiennent pas de données dupliquées (ou) inutilisées. Ils sont mis à jour à intervalles réguliers. Ce sont des bases de données flexibles et orientées sujet. Chaque équipe a le droit de développer et de maintenir ses data marts sans modifier les données de l'entrepôt de données (ou) des autres données du data mart.
Un data mart est plus adapté aux petites entreprises car il coûte très moins cher qu'un système d'entrepôt de données. Le temps requis pour créer un magasin de données est également inférieur au temps requis pour créer un entrepôt de données.
Représentation illustrée de plusieurs Data Marts:
Quand avons-nous besoin de Data Mart?
En fonction de la nécessité, planifiez et concevez un data mart pour votre service en impliquant les parties prenantes, car le coût opérationnel du data mart peut parfois être élevé.
html css entretien questions et réponses
Considérez les raisons ci-dessous pour créer un data mart:
- Si vous souhaitez partitionner les données avec un ensemble de stratégie de contrôle d'accès utilisateur.
- Si un service particulier souhaite voir les résultats de la requête beaucoup plus rapidement au lieu d'analyser d'énormes données DW.
- Si un service souhaite que les données soient construites sur d'autres plates-formes matérielles (ou) logicielles.
- Si un service souhaite que les données soient conçues d'une manière adaptée à ses outils.
Data Mart rentable
Un data mart rentable peut être créé en suivant les étapes suivantes:
- Identifiez les divisions fonctionnelles: Divisez les données d'organisation dans chaque data mart (départemental) des données spécifiques pour répondre à ses besoins, sans aucune dépendance organisationnelle supplémentaire.
- Identifier les exigences de l'outil d'accès utilisateur: Il peut y avoir différents outils d'accès utilisateur sur le marché qui nécessitent différentes structures de données. Les data marts sont utilisés pour supporter toutes ces structures internes sans perturber les données DW. Un magasin de données peut être associé à un outil selon les besoins de l'utilisateur. Les data marts peuvent également fournir quotidiennement des données mises à jour à ces outils.
- Identifiez les problèmes de contrôle d'accès: Si différents segments de données dans un système DW ont besoin de confidentialité et doivent être accédés par un ensemble d'utilisateurs autorisés, toutes ces données peuvent être déplacées dans des data marts.
Coût du magasin de données
Le coût du data mart peut être estimé comme suit:
- Coût matériel et logiciel: Tout nouveau magasin de données ajouté peut nécessiter du matériel, des logiciels, une puissance de traitement, un réseau et un espace de stockage sur disque supplémentaires pour répondre aux requêtes demandées par les utilisateurs finaux. Cela fait du data marting une stratégie coûteuse. Par conséquent, le budget doit être planifié avec précision.
- L'accès au réseau: Si l'emplacement du magasin de données est différent de celui de l'entrepôt de données, toutes les données doivent être transférées avec le processus de chargement du magasin de données. Ainsi, un réseau devrait être fourni pour transférer d'énormes volumes de données qui peuvent être coûteux.
- Contraintes de fenêtre de temps: Le temps nécessaire au processus de chargement du data mart dépendra de divers facteurs tels que la complexité et les volumes de données, la capacité du réseau, les mécanismes de transfert de données, etc.
Comparaison entre l'entrepôt de données et le magasin de données
S. Non | Entrepôt de données | Data Mart |
---|---|---|
un | Complexe et coûte plus cher à mettre en œuvre. | Simple et moins coûteux à mettre en œuvre. |
deux | Travaille au niveau de l'organisation pour toute l'entreprise. | La portée est limitée à un département particulier. |
3 | L'interrogation du DW est difficile pour les utilisateurs professionnels en raison des énormes dépendances de données. | L'interrogation du data mart est facile pour les utilisateurs professionnels en raison du manque de données. |
4 | Le temps de mise en œuvre est plus peut être en mois ou en années. | Le temps de mise en œuvre est moindre peut être en jours, semaines ou mois. |
5 | Collecte des données à partir de divers systèmes sources externes. | Collecte des données à partir de quelques systèmes source centralisés DW (ou) internes (ou) externes. |
6 | Des décisions stratégiques peuvent être prises. | Des décisions commerciales peuvent être prises. |
Types de Data Marts
Les data marts sont classés en trois types, à savoir dépendants, indépendants et hybrides. Cette classification est basée sur la façon dont ils ont été peuplés, c'est-à-dire à partir d'un entrepôt de données (ou) de toute autre source de données.
L'extraction, la transformation et le transport (ETT) est le processus utilisé pour alimenter les données du data mart à partir de n'importe quel système source.
Jetons un œil à chaque type en détail !!
# 1) Magasin de données dépendant
Dans un magasin de données dépendant, les données proviennent de l'entrepôt de données existant lui-même. Il s'agit d'une approche descendante car la partie des données restructurées dans le magasin de données est extraite de l'entrepôt de données centralisé.
Un magasin de données peut utiliser les données DW de manière logique ou physique, comme indiqué ci-dessous:
- Vue logique: Dans ce scénario, les données du magasin de données ne sont pas physiquement séparées du DW. Il fait référence aux données DW via des vues virtuelles (ou) des tables de manière logique.
- Sous-ensemble physique: Dans ce scénario, les données du data mart sont physiquement séparées du DW.
Une fois qu'un ou plusieurs data marts sont développés, vous pouvez autoriser les utilisateurs à accéder uniquement aux data marts (ou) pour accéder à la fois aux Data marts et aux Data Warehouses.
ETT est un processus simplifié dans le cas des data marts dépendants car les données utilisables existent déjà dans le DW centralisé. L'ensemble précis de données résumées doit être simplement déplacé vers les magasins de données respectifs.
Une image du magasin de données dépendant est présentée ci-dessous :
# 2) Data Mart indépendant
Un data mart indépendant est le mieux adapté aux petits départements d'une organisation. Ici, les données ne proviennent pas de l'entrepôt de données existant. Le data mart indépendant ne dépend ni de l'entreprise DW ni d'autres data marts.
Les data marts indépendants sont des systèmes autonomes où les données sont extraites, transformées et chargées à partir de sources de données externes (ou) internes. Celles-ci sont faciles à concevoir et à entretenir jusqu'à ce qu'elles répondent aux besoins opérationnels simples des services.
Vous devez travailler avec chaque phase du processus ETT dans le cas de data marts indépendants de la même manière que la manière dont les données ont été traitées dans DW centralisé. Cependant, le nombre de sources et les données alimentées dans les magasins de données peuvent être inférieurs.
Représentation picturale d'un Data Mart indépendant :
# 3) Magasin de données hybride
Dans un data mart hybride, les données sont intégrées à la fois à partir du DW et d'autres systèmes opérationnels. Les data marts hybrides sont flexibles avec de grandes structures de stockage. Il peut également faire référence à d'autres données de data marts.
Représentation illustrée d'un magasin de données hybride:
Étapes de mise en œuvre d'un magasin de données
La mise en œuvre de Data Mart qui est considérée comme un peu complexe est expliquée dans les étapes ci-dessous:
- Conception: Étant donné que les utilisateurs métier demandent un data mart, la phase de conception implique la collecte des exigences, la création de données appropriées à partir de sources de données respectives, la création des structures de données logiques et physiques et des diagrammes ER.
- Construire: L'équipe concevra toutes les tables, vues, index, etc., dans le système de data mart.
- Peuplement: Les données seront extraites, transformées et chargées dans le magasin de données avec les métadonnées.
- Accès: Les données du Data Mart sont accessibles aux utilisateurs finaux. Ils peuvent interroger les données pour leurs analyses et rapports.
- Gérant: Cela implique diverses tâches de gestion telles que les contrôles d'accès des utilisateurs, le réglage fin des performances du data mart, la maintenance des data marts existants et la création de scénarios de récupération du data mart en cas de panne du système.
Structure d'un magasin de données
La structure de chaque data mart est créée selon l'exigence. Les structures Data Mart sont appelées jointures en étoile. Cette structure sera différente d'un data mart à l'autre.
Les jointures en étoile sont des structures multidimensionnelles formées avec des tables de faits et de dimensions pour prendre en charge de grandes quantités de données. La jointure en étoile aura une table de faits au centre entourée par les tables de dimension.
Les données de table de faits respectives sont associées aux données de table de dimension avec une référence de clé étrangère. Une table de faits peut être entourée de 20 à 30 tables de dimension.
Comme pour le système DW, dans les jointures en étoile également, les tables de faits ne contiennent que des données numériques et les données textuelles respectives peuvent être décrites dans des tables de dimension. Cette structure ressemble à un schéma en étoile dans DW.
Représentation picturale d'une structure de jointure en étoile.
Mais les données granulaires du DW centralisé constituent la base des données de tout data mart. De nombreux calculs seront effectués sur les données DW normalisées pour les transformer en données multidimensionnelles de data marts qui sont stockées sous forme de cubes.
Cela fonctionne de la même manière que la façon dont les données des systèmes source hérités sont transformées en données DW normalisées.
Quand un centre de données pilote est-il utile?
Un pilote peut être déployé dans un petit environnement avec un nombre limité d'utilisateurs pour s'assurer que le déploiement est réussi avant le déploiement complet. Cependant, ce n'est pas toujours essentiel. Les déploiements pilotes ne seront d'aucune utilité une fois l'objectif atteint.
convertir youtube en mp3 pendant plus de 30 minutes
Vous devez considérer les scénarios ci-dessous qui recommandent pour le déploiement pilote:
- Si les utilisateurs finaux sont nouveaux dans le système de l'entrepôt de données.
- Si les utilisateurs finaux veulent se sentir à l'aise pour récupérer les données / rapports par eux-mêmes avant de passer à la production.
- Si les utilisateurs finaux veulent utiliser les derniers outils (ou) technologies.
- Si la direction veut voir les avantages comme une preuve de concept avant d'en faire une grande version.
- Si l'équipe souhaite s'assurer que tous les composants ETL (ou) les composants d'infrastructure fonctionnent bien avant la publication.
Inconvénients du Data Mart
Bien que les data marts présentent certains avantages par rapport à DW, ils présentent également certains inconvénients, comme expliqué ci-dessous:
- Les data marts indésirables qui ont été créés sont difficiles à maintenir.
- Les data marts sont destinés aux besoins des petites entreprises. L'augmentation de la taille des data marts diminuera ses performances.
- Si vous créez un plus grand nombre de magasins de données, la direction doit prendre correctement en charge leur gestion des versions, leur sécurité et leurs performances.
- Les magasins de données peuvent contenir des données historiques (ou) résumées (ou) détaillées. Cependant, les mises à jour des données DW et des données du magasin de données peuvent ne pas se produire en même temps en raison de problèmes d'incohérence des données.
Conclusion
De nombreuses organisations se tournent vers les data marts dans une perspective de réduction des coûts. Par conséquent, ce tutoriel s'est concentré sur les aspects techniques des data marts dans le système d'entrepôt de données.
Les métadonnées en ETL sont expliquées en détail dans notre prochain tutoriel.
=> Visitez ici pour voir la série de formation sur l'entreposage de données pour tous.
lecture recommandée
- Tutoriel de test de l'entrepôt de données avec des exemples | Guide de test ETL
- Types de données Python
- Types de données C ++
- Modèle de données dimensionnelles dans l'entrepôt de données - Tutoriel avec des exemples
- Algorithme Apriori dans l'exploration de données: mise en œuvre avec des exemples
- Exemples d'exploration de données: applications les plus courantes de l'exploration de données 2021
- Principes de base de l'entreposage de données: un guide ultime avec des exemples
- Tutoriel de test de volume: exemples et outils de test de volume