data warehousing fundamentals
Pour tout savoir sur les principes de base de l'entreposage de données. Ce guide détaillé explique ce qu'est l'entreposage de données ainsi que ses types, ses caractéristiques, ses mérites et ses inconvénients:
Un entrepôt de données est la dernière tendance en matière de stockage dans l’industrie informatique d’aujourd’hui.
Ce didacticiel va expliquer Qu'est-ce qu'un entrepôt de données? Pourquoi l'entreposage de données est-il crucial? Types d'applications d'entrepôt de données, caractéristiques d'un entrepôt de données, avantages et inconvénients de l'entreposage de données.
comment afficher un fichier .dat
Liste des didacticiels sur l'entreposage de données de cette série:
Tutoriel n ° 1: Principes de base de l'entreposage de données
Tutoriel n ° 2: Qu'est-ce que le processus ETL dans l'entrepôt de données?
Tutoriel n ° 3: Test d'entrepôt de données
Tutoriel n ° 4: Modèle de données dimensionnelles dans l'entrepôt de données
Tutoriel n ° 5: Types de schéma dans la modélisation de l'entrepôt de données
Tutoriel n ° 6: Tutoriel Data Mart
Tutoriel n ° 7: Métadonnées dans ETL
Présentation des didacticiels de cette série d'entreposage de données
Tutorial_Num | Ce que vous apprendrez |
---|---|
Tutoriel # 7 | Métadonnées dans ETL Ce didacticiel explique le rôle des métadonnées dans ETL, les exemples et types de métadonnées, le référentiel de métadonnées et les défis dans la gestion des métadonnées. |
Tutoriel n ° 1 | Principes de base de l'entreposage de données Apprenez tout sur les concepts d'entreposage de données dans ce didacticiel. Ce guide détaillé explique ce qu'est l'entreposage de données avec ses types, ses caractéristiques, ses mérites et ses inconvénients. |
Tutoriel # 2 | Qu'est-ce que le processus ETL dans l'entrepôt de données? Ce didacticiel approfondi sur le processus ETL explique le flux de processus et les étapes impliquées dans le processus ETL (extraction, transformation et chargement) dans l'entrepôt de données. |
Tutoriel # 3 | Test d'entrepôt de données Objectifs et importance des tests d'entrepôt de données, responsabilités des tests ETL, erreurs dans le déploiement DW et ETL en détail dans ce didacticiel. |
Tutoriel # 4 | Modèle de données dimensionnelles dans l'entrepôt de données Ce didacticiel explique les avantages et les mythes du modèle de données dimensionnelles dans Data Warehouse. Vous découvrirez également les tableaux de dimensions et les tableaux de faits avec des exemples. |
Tutoriel # 5 | Types de schéma dans la modélisation de l'entrepôt de données Ce didacticiel explique différents types de schéma de l'entrepôt de données. Découvrez Qu'est-ce que Star Schema et Snowflake Schema et la différence entre Star et Snowflake Schema. |
Tutoriel # 6 | Tutoriel Data Mart Ce didacticiel explique les concepts du Data Mart, y compris l'implémentation, les types, la structure du Data Mart, ainsi que les différences entre Data Warehouse et Data Mart. |
Ce que vous apprendrez:
- Principes de base de l'entreposage de données: un guide complet
- Conclusion
Principes de base de l'entreposage de données: un guide complet
Public cible
- Développeurs et testeurs d'entrepôt de données / ETL.
- Professionnels des bases de données ayant une connaissance de base des concepts de bases de données.
- Administrateurs de bases de données / Experts Big Data qui souhaitent comprendre les concepts d'entreposage de données.
- Diplômés du Collège / Freshers qui recherchent des emplois d'entrepôt de données.
Qu'est-ce que l'entreposage de données?
Un Data Warehouse (DW) est un référentiel d'une énorme quantité de données organisées. Ces données sont consolidées à partir d'une ou plusieurs sources de données différentes. DW est une base de données relationnelle qui est principalement conçue pour le reporting analytique et la prise de décision ponctuelle dans les organisations.
Les données à cet effet sont isolées et optimisées des données de transaction source, ce qui n'aura aucun impact sur l'activité principale. Si une organisation introduit un changement commercial, alors DW est utilisé pour examiner les effets de ce changement, et par conséquent DW est également utilisé pour surveiller le processus non décisionnel.
L'entrepôt de données est principalement un système en lecture seule car les données opérationnelles sont très séparées de DW. Cela fournit un environnement pour récupérer la plus grande quantité de données avec une bonne écriture de requête.
Ainsi DW agira en tant que moteur backend pour les outils de Business Intelligence qui affiche les rapports, tableaux de bord pour les utilisateurs métier. DW est largement utilisé dans les secteurs bancaire, financier, de détail, etc.
Pourquoi l'entreposage de données est-il crucial?
Voici quelques-unes des raisons pour lesquelles l'entrepôt de données est crucial.
- L'entrepôt de données rassemble toutes les données opérationnelles de plusieurs sources hétérogènes de «différents formats» et, à travers le processus d'extraction, de transformation et de chargement (ETL), il charge les données dans DW dans un «format dimensionnel normalisé» à travers une organisation.
- L'entrepôt de données conserve à la fois les «données actuelles et les données historiques» pour les rapports analytiques et la prise de décision factuelle.
- Il aide les organisations à prendre des «décisions plus intelligentes et rapides» pour réduire les coûts et augmenter les revenus, en comparant les rapports trimestriels et annuels pour améliorer leurs performances.
Types d'applications d'entrepôt de données
La Business Intelligence (BI) est une branche de l'entreposage de données conçue pour la prise de décision. Une fois les données chargées dans le DW, la BI joue un rôle majeur en analysant les données et en les présentant aux utilisateurs métier.
En pratique, le terme «applications d'entrepôt de données» implique dans combien de types différents les données peuvent être traitées et utilisées.
Nous avons trois types d'applications DW comme mentionné ci-dessous.
- Traitement d'informations
- Traitement analytique
- L'exploration de données au service de la BI
# 1) Traitement de l'information
Il s'agit d'une sorte d'application où l'entrepôt de données permet un contact direct avec les données qui y sont stockées.
Comme les données peuvent être traitées en écrivant des requêtes directes sur les données (ou) avec une analyse statistique de base sur les données et les résultats finaux seront communiqués aux utilisateurs professionnels sous forme de rapports, de tableaux, de graphiques ou de graphiques.
DW prend en charge les outils suivants pour le traitement de l'information:
(i) Outils de requête: L'entreprise (ou) l'analyste exécute les requêtes à l'aide d'outils de requête pour explorer les données et générer la sortie sous la forme de rapports ou de graphiques selon les besoins de l'entreprise.
(ii) Outils de reporting: Si l'entreprise souhaite voir les résultats dans n'importe quel format défini et sur une base planifiée, c'est-à-dire quotidiennement, hebdomadairement ou mensuellement, des outils de reporting seront utilisés. Ces types de rapports peuvent être enregistrés et révisés à tout moment.
(iii) Outils statistiques: Si l'entreprise souhaite faire une analyse sur une vue large des données, des outils statistiques seront utilisés pour générer de tels résultats. Les entreprises peuvent tirer des conclusions et des prévisions en comprenant ces résultats stratégiques.
# 2) Traitement analytique
Il s'agit d'une sorte d'application où un entrepôt de données permet le traitement analytique des données qui y sont stockées. Les données peuvent être analysées par les opérations suivantes telles que Slice-and-Dice, Drill Down, Roll Up et Pivoting.
(i) Couper et dés : L'entrepôt de données permet aux opérations de tranche et de dés d'analyser les données accessibles à partir de plusieurs niveaux avec une combinaison de différentes perspectives. L'opération slice-and-dice utilise en interne le mécanisme d'exploration. Le découpage fonctionne sur des données dimensionnelles.
Dans le cadre des exigences commerciales, si nous nous concentrons sur un seul domaine, le découpage analyse les dimensions de ce domaine particulier selon les exigences et donne les résultats. La découpe fonctionne sur des opérations analytiques. Couper les zooms pour un ensemble spécifique d'attributs sur toutes les dimensions pour fournir des perspectives diverses. Les dimensions sont considérées à partir d'une ou plusieurs tranches consécutives.
(ii) Exploration vers le bas : Si l'entreprise souhaite passer à un niveau plus détaillé d'un numéro de résumé, alors l'exploration descendante est une opération permettant de parcourir ce résumé à des niveaux de détail mineurs. Cela donne une excellente idée de ce qui se passe et des domaines dans lesquels l'entreprise doit se concentrer plus étroitement.
Parcourez les pistes depuis le niveau de la hiérarchie jusqu'au niveau de détail mineur pour l'analyse des causes profondes. Cela peut être facilement compris avec un exemple, car l'analyse des ventes peut se produire à partir de Au niveau du pays -> Au niveau de la région -> Au niveau de l'État -> Au niveau du district -> Au niveau du magasin.
(iii) Roll up : Roll up fonctionne à l'opposé de l'opération de forage. Si l'entreprise veut des données résumées, le roll up entre en jeu. Il agrège les données de niveau de détail en remontant dans la hiérarchie dimensionnelle.
Les roll-ups sont utilisés pour analyser le développement et les performances d'un système.
Cela peut être compris avec un Exemple comme dans un cumul de ventes où les totaux peuvent être cumulés à partir de Niveau de la ville -> Au niveau de l'état -> Niveau de la région -> Au niveau du pays .
(iv) Pivot : Le pivotement analyse les données de dimension en faisant pivoter les données sur les cubes. Par exemple, la dimension de ligne peut être permutée dans la dimension de colonne et vice versa.
# 3) Exploration de données
Il s'agit d'une sorte d'application où l'entrepôt de données permet la découverte des connaissances des données et les résultats seront représentés avec des outils de visualisation. Dans les deux types d'applications ci-dessus, les informations peuvent être gérées par les utilisateurs.
Étant donné que les données sont vastes dans diverses entreprises, il est difficile d'interroger et d'explorer l'entrepôt de données pour obtenir toutes les informations possibles sur les données. Ensuite, l'exploration de données entre en jeu pour accomplir la découverte de connaissances.
continuer à obtenir la passerelle par défaut non disponible
Cela conduit dans les données avec toutes les associations passées, les résultats, etc. et prédit l'avenir. C'est donc basé sur les données et non sur l'utilisateur. Les données peuvent être découvertes en trouvant des modèles cachés, des associations, des classifications et des prédictions.
L'exploration de données approfondit les données pour prédire l'avenir. Sur la base des prévisions, il suggère également les actions à entreprendre.
Vous trouverez ci-dessous les différentes activités de Data Mining:
- Motifs: L'exploration de données découvre les modèles qui se produisent dans la base de données. Les utilisateurs peuvent fournir les données commerciales sur lesquelles une certaine connaissance des modèles est attendue pour la prise de décision.
- Associations / relations: L'exploration de données découvre les relations entre les objets avec la fréquence de leurs règles d'association. Cette relation peut être entre deux ou plusieurs objets (ou) il peut découvrir les règles dans les propriétés du même objet.
- Classification: L'exploration de données organise les données dans un ensemble de classes prédéfinies. Ainsi, si un objet est extrait des données, la classification associe l'étiquette de classe respective à cet objet.
- Prédiction: L'exploration de données compare un ensemble de valeurs existantes pour trouver les meilleures valeurs / tendances futures possibles dans les affaires.
Ainsi, sur la base de tous les résultats ci-dessus, l'exploration de données propose également un ensemble d'actions à mener.
Caractéristiques d'un entrepôt de données
Un entrepôt de données est construit sur la base des caractéristiques suivantes des données en tant que variante orientée sujet, intégrée, non volatile et temporelle.
# 1) Orienté sujet: Nous pouvons définir un entrepôt de données aussi orienté sujet que nous pouvons analyser les données par rapport à un domaine spécifique plutôt que par l'application de données judicieuses. Cela fournit des résultats plus définis pour faciliter la prise de décision. En ce qui concerne un système éducatif, les matières peuvent être les élèves, les matières, les notes, les enseignants, etc.
# 2) Intégré: Les données de l'entrepôt de données sont intégrées à partir de sources distinctes telles que d'autres bases de données relationnelles, des fichiers plats, etc. Une telle quantité de données est extraite pour une analyse efficace des données. Mais il peut y avoir des conflits de données car différentes sources de données peuvent être dans des formats différents. L'entrepôt de données apporte toutes ces données dans un format cohérent sur l'ensemble du système.
# 3) Non volatile: Une fois les données chargées dans l'entrepôt de données, elles ne peuvent plus être modifiées. Logiquement, cela est acceptable car des changements fréquents de données ne vous permettront pas d'analyser les données. Les changements fréquents dans la base de données opérationnelle peuvent être chargés dans un entrepôt de données sur une base planifiée, au cours de ce processus, de nouvelles données sont ajoutées, cependant, les données antérieures ne sont pas effacées et restent en tant que données historiques.
# 4) Variante temporelle: Toutes les données historiques ainsi que les données récentes de l'entrepôt de données jouent un rôle crucial pour récupérer des données de n'importe quelle durée. Si l'entreprise souhaite des rapports, des graphiques, etc., pour les comparer aux années précédentes et analyser les tendances, toutes les anciennes données datant de 6 mois, d'un an ou même plus anciennes, etc. sont nécessaires.
Avantages d'un entrepôt de données
Lorsqu'un système d'entrepôt de données est productif, une organisation obtient les avantages suivants en l'utilisant:
- Intelligence d'affaires améliorée
- Amélioration des performances du système et des requêtes
- Business Intelligence à partir de plusieurs sources
- Accès en temps opportun aux données
- Meilleure qualité et cohérence des données
- Intelligence historique
- Retour sur investissement élevé
# 1) Intelligence d'affaires améliorée: Dans les premiers temps, lorsque l'entreposage de données et l'intelligence d'affaires n'étaient pas au rendez-vous, les utilisateurs métier et les analystes prenaient les décisions avec une quantité limitée de données et avec leur propre instinct.
DW & BI ont apporté un changement en donnant un aperçu des faits réels et des données réelles de l'organisation qui sont collectées sur une période de temps. Les utilisateurs métier peuvent interroger directement toutes les données de processus métier telles que le marketing, les finances, les ventes, etc., en fonction de leurs besoins en matière de prise de décision stratégique et de décisions commerciales intelligentes.
# 2) Amélioration des performances du système et des requêtes: L'entreposage de données rassemble des informations volumineuses à partir de systèmes hétérogènes et les place sous un seul système afin qu'un seul moteur de requête puisse être utilisé pour une récupération rapide des données.
# 3) Business Intelligence à partir de plusieurs sources: Savez-vous comment la Business Intelligence fonctionne généralement sur les données? Il absorbe les données de plusieurs systèmes, sous-systèmes, plates-formes et sources de données pour travailler sur un projet. Cependant, l'entrepôt de données résout ce problème pour la BI, en consolidant toutes les données du projet sans aucun doublon.
# 4) Accès en temps opportun aux données: Les utilisateurs professionnels en bénéficieront en consacrant moins de temps à la récupération de données. Ils ont quelques outils à portée de main, avec lesquels ils peuvent interroger les données avec un minimum de connaissances techniques et générer les rapports. Cela permet aux utilisateurs professionnels de consacrer suffisamment de temps à l'analyse des données plutôt qu'à la collecte de données.
# 5) Qualité et cohérence des données améliorées: L'entreposage de données transforme les données avec des formats de système source différents en un seul format. Par conséquent, les mêmes unités commerciales qui acheminent les données vers l'entrepôt de données peuvent réutiliser le référentiel DW pour leurs rapports commerciaux et leurs requêtes.
Par conséquent, du point de vue de l’organisation, toutes les unités d’affaires resteront en attente avec des résultats / rapports cohérents. Ainsi, ces données de bonne qualité et cohérentes aident à gérer une entreprise prospère.
# 6) Intelligence historique: L'entrepôt de données conserve toutes les données historiques qui ne sont gérées par aucun système transactionnel. Cette grande quantité de données est utilisée pour analyser les données pour une durée spécifique et pour les rapporter, et pour analyser les tendances pour prédire l'avenir.
# 7) Haut retour sur investissement (ROI): Tout le monde démarre une entreprise en s'attendant à de bons retours sur investissement, en termes de bénéfices plus importants et de dépenses moindres. Dans le monde réel des données, de nombreuses études ont prouvé que la mise en œuvre de l'entrepôt de données et des systèmes de Business Intelligence générait des revenus élevés et économisait des coûts.
À présent, vous devriez être en mesure de comprendre comment un système DW bien conçu ajoute des avantages à votre entreprise.
Inconvénients de l'entreposage de données
Bien qu'il s'agisse d'un système très efficace, il est bon de connaître certains des pièges du système:
- La création d'un entrepôt de données est certainement un processus long et complexe.
- Le coût de maintenance est lourd car le système nécessite des mises à niveau continues. Il peut également augmenter s'il n'est pas correctement utilisé.
- Une formation appropriée doit être donnée aux développeurs, testeurs et utilisateurs pour comprendre le système DW et l'implémenter techniquement.
- Il peut y avoir des données sensibles qui ne peuvent pas être chargées dans DW pour la prise de décision.
- La restructuration de tout processus métier (ou) système source a un effet majeur sur DW.
Conclusion
Nous espérons que ce didacticiel d'introduction a fourni un aperçu des principes fondamentaux de l'entreposage de données. Nous avons examiné en profondeur tous les concepts fondamentaux de l'entreposage de données.
Nous avons appris la définition, les types, les caractéristiques, les avantages et les inconvénients de l'entreposage de données dans ce didacticiel complet.
=> Lisez la série de formations Easy Data Warehousing.
lecture recommandée
- Exemples d'exploration de données: applications les plus courantes de l'exploration de données 2021
- Fonctionnement des tests pilotés par les données (exemples de QTP et de sélénium)
- Exploration de données: processus, techniques et problèmes majeurs dans l'analyse des données
- Didacticiel de test de l'entrepôt de données de test ETL (un guide complet)
- Meilleure série de tutoriels C # GRATUITS: Le guide ultime de C # pour les débutants
- Tutoriel de mise en réseau informatique: le guide ultime
- Tutoriel QTP n ° 18 - Explication des cadres basés sur les données et hybrides avec des exemples QTP
- 10+ meilleurs outils de collecte de données avec des stratégies de collecte de données