oracle data warehouse
Guide Oracle Data Warehouse avec avantages, architecture, risques et comparaison avec le système OLTP (Online Transaction Processing):
Dans le tutoriel précédent de Guide complet d'Oracle , nous avons découvert les produits et services Oracle dans divers domaines tels que les applications, les bases de données, le système d'exploitation, etc. Cet article fournira une connaissance approfondie d'Oracle Data Warehousing. Mais avant cela, comprenons d'abord le concept de Business Intelligence (BI).
L'intelligence d'entreprise
La Business Intelligence est un domaine logiciel qui incarne certaines méthodes, technologies, outils et applications qui aident à structurer, affiner et transformer des données en vrac dans un format intelligent et compréhensible qui peut être utilisé par les clients pour générer des rapports personnalisés et aide également à prendre des affaires. les décisions.
Différentes options sont disponibles pour répondre à ce besoin comme l'entreposage de données, OLAP (traitement des transactions en ligne), l'exploration de données, l'intégration de données, l'ingénierie de décision, les feuilles de calcul, etc.
L'entreposage de données d'entreprise (EDW) est l'un des composants clés de la BI qui répond aux besoins analytiques et de reporting des entreprises. L'entrepôt de données est un système de gestion de base de données relationnelle (SGBDR), qui contient des données consolidées reçues de plusieurs sources pour une utilisation ultérieure.
ado net questions et réponses d'entrevue pour les expérimentés
Ce que vous apprendrez:
- Présentation d'Oracle Data Warehouse
- Comparaison de l'entrepôt de données OLTP et de l'entrepôt de données
- Entrepôt de données et magasin de données contrastés
- Aperçu du processus ETL
- Architecture de l'entrepôt de données
- Conclusion
Présentation d'Oracle Data Warehouse
Pourquoi est-il appelé «entrepôt de données»?
Essayons de rappeler le sens du mot «entrepôt» pour se rapporter au terme «entrepôt de données».
Un entrepôt physique est un référentiel utilisé pour stocker les marchandises reçues de diverses sources, qui peuvent ensuite être fournies au client en fonction de ses besoins.
(image la source )
De même, l'entrepôt de données est un référentiel de données reçues de divers systèmes sources. Ces sources peuvent être des systèmes de stockage tels que des magasins de données, des fichiers plats ou tout périphérique de stockage multimédia contenant des données pour différents domaines d'entreprise tels que les RH, les ventes, les opérations, la gestion des ressources et le marketing, etc.
Objectif d'avoir un entrepôt de données
Une entreprise peut avoir entendu parler du concept d'entrepôt de données, mais elle peut ne pas savoir si elle doit inclure celui-ci dans son entreprise. Pourtant, il serait toujours nécessaire de vider les données de différentes sources sur un terrain commun et de les archiver afin que l'espace de stockage puisse être libéré des systèmes de transaction. C'est là que le système d'entreposage de données devient une exigence commerciale.
Pour se développer sur le marché, la direction doit être douée pour la prise de décision qui ne peut être prise qu'après une étude approfondie des tendances passées d'une organisation. Par conséquent, ces données archivées sont conservées dans l'entrepôt de données dans un format bien organisé et calculé afin qu'elles puissent être référencées pour une analyse commerciale à l'avenir.
Avantages de l'entreposage de données
L'entrepôt de données, s'il est mis en œuvre avec succès, pourrait être bénéfique des manières suivantes:
#1) Il a simplifié le travail des analystes en proposant une version améliorée des solutions de Business Intelligence. Il extrait les données de plusieurs systèmes sources, les transforme et les stocke, qui peuvent être directement interrogées par l'entreprise pour analyse.
Il propose également divers outils prenant en charge les éléments suivants:
- Génération de rapports commerciaux personnalisés.
- Tableaux de bord interactifs affichant les informations requises.
- Capacité à explorer les tableaux de bord uniquement pour obtenir les détails.
- Exploration de données et analyse des tendances.
#deux) Même après avoir reçu des données de divers systèmes sources, les données d'un entrepôt de données restent cohérentes en raison des transformations qui se sont produites pendant le processus ETL. Des données cohérentes donnent confiance au décideur en termes de précision.
# 3) Les entrepôts de données sont également définis comme un gain de temps, car les données critiques requises par les parties prenantes pour prendre des décisions commerciales sont disponibles en un seul endroit et peuvent être facilement récupérées.
# 4) Ceux-ci sont conçus pour contenir des données historiques et peuvent donc être interrogés pour étudier les tendances au cours de différentes périodes. Il aide également les parties prenantes à déterminer le chemin de la croissance future.
Risques liés à l'utilisation de l'entrepôt de données
Outre les avantages, chaque nouvelle mise en œuvre comporte également un ensemble de risques qui doivent être pris en compte.
Voici quelques-uns des risques encourus:
- La non-compatibilité des systèmes sources avec le système d'entreposage de données peut finir par faire beaucoup de travail manuel.
- Une estimation incorrecte du temps du processus ETL peut entraîner une interruption du travail.
- Ce sont des systèmes de stockage très haut de gamme et nécessitent donc une maintenance élevée. Tout changement de flux de travail ou d'entreprise peut coûter très cher.
- La mise en place d'un entrepôt de données est un processus qui prend du temps car il faut beaucoup de temps pour comprendre les flux commerciaux et identifier les capacités d'intégration pour concevoir un entrepôt.
- La sécurité des données est toujours un risque ici car elle contient des données historiques séculaires qui, en cas de fuite, peuvent avoir un impact sur l'entreprise.
Comparaison de l'entrepôt de données OLTP et de l'entrepôt de données
Les différences entre OLTP et Data Warehouse peuvent être comprises dans le tableau ci-dessous.
OLTP | Entreposage de données |
---|---|
Les insertions et les mises à jour sont les principales opérations effectuées par les utilisateurs finaux sur les systèmes OLTP. | Les entrepôts de données sont principalement interrogés à l'aide de l'instruction SELECT et ne peuvent être mis à jour qu'à l'aide des services ETL. |
Les systèmes OLTP prennent en charge les transactions commerciales. | Data Warehouse prend en charge les décisions commerciales prises après l'analyse des transactions commerciales terminées. |
Les données restent volatiles, c'est-à-dire ne cessent de changer | Les données ne sont pas censées être modifiées. |
Ils contiennent les données les plus récentes. | Ils contiennent les données historiques. |
Contient les données brutes sans aucun calcul. | Contient des données résumées et bien calculées. |
Les données seront normalisées. | Les données resteront dénormalisées. |
La taille de la base de données Oracle peut varier de 50 Mo à 100 Go. | La taille de la base de données Oracle peut varier de 100 Go à 2 To. |
Entrepôt de données et magasin de données contrastés
Data Warehouse et DataMart, les deux termes ne sont pas similaires et semblent liés au stockage de données.
Oui, ils sont liés et les deux sont utilisés pour stocker des données. La principale différence entre les deux est la capacité à contenir les données et cette différence aide les utilisateurs finaux à choisir la bonne unité de stockage pour leurs systèmes.
Data Mart a moins de capacité pour contenir des données que l'entrepôt de données et peut donc être considéré comme un sous-ensemble de celui-ci. Les magasins de données sont généralement identifiés pour stocker des données limitées qui pourraient provenir d'un service ou d'un secteur d'activité particulier, tandis que les entrepôts de données peuvent être utilisés pour conserver les données consolidées pour tous.
Prenons un exemple de site Web de commerce électronique comportant différentes catégories de marchandises telles que la mode, les accessoires, les articles ménagers, les livres et fournitures scolaires, les appareils électroniques, etc.
Ainsi, les Data Marts peuvent être conçus pour stocker les données de produit par catégorie, tandis que les entrepôts de données peuvent être utilisés pour stocker des données complètes du site Web, y compris l'historique, en un seul endroit.
Les data marts sont de plus petite taille, ils peuvent être créés beaucoup plus rapidement sans trop d'analyses, comme cela est nécessaire pour la conception d'un entrepôt de données. Cependant, il faut beaucoup d'efforts pour synchroniser plusieurs data marts afin de maintenir la cohérence des données.
Aperçu du processus ETL
ETL (Extraction, Transformation, and Loading) est un processus d'extraction de données à partir de différents systèmes sources, de transformation et de chargement dans le système Data Warehouse. C'est un processus complexe qui doit interagir avec une variété de systèmes sources pour l'extraction de données et donc techniquement difficile.
La transformation nécessite à nouveau beaucoup d'analyses pour comprendre le format des systèmes sources et amener les données au format commun afin que les mêmes données puissent être stockées dans l'entrepôt de données.
Le processus ETL est un travail récurrent qui peut s'exécuter quotidiennement, hebdomadairement ou même mensuellement selon les besoins de l'entreprise.
Architecture de l'entrepôt de données
Comprenons l'architecture d'un entrepôt de données qui est principalement conçu pour stocker des données raffinées pour des besoins métier prédéfinis. L'architecture se compose de 5 composants avec un flux de données de haut en bas.
Les composants sont les suivants:
- Source d'information
- Staging des données
- Entrepôt de données (stockage de données)
- Data March (stockage de données)
- Présentation des données
Comprenons toutes les étapes inscrites ci-dessus une par une.
comment utiliser arrays.sort en java
# 1) Sources de données
Il existe différents systèmes source qui agissent comme une entrée dans les systèmes d'entrepôt de données.
Ces systèmes sources peuvent être:
- Bases de données relationnelles comme Oracle, DB2, MySQL, MS Access, etc. qui peuvent être utilisées pour enregistrer les transactions quotidiennes de toute organisation. Ces transactions commerciales quotidiennes peuvent être liées à l'ERP, au CRM, aux ventes, aux finances et au marketing, etc.
- Fichiers plats
- services Web
- Flux RSS et sources similaires.
# 2) Staging des données
Une fois les sources de données en place, l'étape suivante consiste à extraire ces données des systèmes source dans la zone de transit de l'entrepôt.
Étant donné que les données ont été extraites de différents systèmes qui suivent différents formats de stockage, il est nécessaire de restructurer les données de manière à les amener à un format commun. Par conséquent, la transformation des données a lieu comme étape suivante.
Lors de la transformation, le nettoyage des données se produit, ce qui comprend l'application de règles métier, le filtrage des données, la suppression de la redondance, le formatage des données, le tri des données, etc.
# 3) Entrepôt de données (stockage de données)
Une fois que les données sont extraites et transformées, elles seront chargées dans un environnement multidimensionnel, à savoir l'entrepôt de données. Désormais, ces données traitées peuvent être utilisées à des fins d'analyse et à d'autres fins par les utilisateurs finaux.
# 4) Data Marts (stockage de données)
Comme mentionné ci-dessus, les données sont maintenant prêtes à être utilisées par les utilisateurs finaux, il existe un processus facultatif de création de Data Marts comme étape suivante. Ces magasins de données peuvent être utilisés pour stocker des données résumées d'un département particulier ou d'une ligne d'activité pour une utilisation dédiée.
Par exemple, des data marts séparés peuvent être ajoutés pour des départements tels que les ventes, les finances et le marketing, etc. comme étape suivante qui contiendra des données spécifiques et permettra à un analyste d'effectuer des requêtes détaillées pour les besoins de l'entreprise. Cela empêche également tout autre utilisateur final d'accéder à l'entrepôt complet et sécurise ainsi les données.
# 5) Outils d'accès aux données (présentation des données)
Il existe un certain nombre d'outils de Business Intelligence prédéfinis qui peuvent être utilisés par les utilisateurs pour accéder aux entrepôts de données ou aux data marts. Ces outils frontaux sont conçus de manière extrêmement conviviale en offrant aux utilisateurs une variété d'options pour accéder aux données.
Les options sont mentionnées ci-dessous:
- En appliquant la requête à Oracle ou à toute autre base de données directement via SQL.
- Génération de rapports.
- Développement de l'application.
- Utilisation d'outils d'exploration de données, etc.
Peu d'outils d'entreposage populaires disponibles sur le marché sont:
- Analytix DS
- Amazon Redshift
- Logiciel Ab Initio
- Code Futures
- Gestion holistique des données
- Société d'informatique
Entreposage de données dans le cloud
Les entrepôts de données sont trop reconnus dans le monde. La prochaine question qui se pose: utilisons-nous une approche optimisée pour déployer des entrepôts de données?
Ensuite, Cloud Data Warehousing a été introduit, qui prend le dessus sur l'Enterprise Data Warehousing (EDW). Le concept des entrepôts de données basés sur le cloud a offert divers avantages.
Ce sont les suivants:
(i) Évolutivité: Les données sur les systèmes cloud sont facilement évolutives de haut en bas sans tracas, tout en consommant beaucoup de temps et de ressources pour effectuer une mise à l'échelle sur les entrepôts de données traditionnels.
(ii) Réduction des coûts: Les entrepôts de données basés sur le cloud ont fait une différence remarquable en termes d'investissement requis pour la configuration d'un entrepôt. Ils ont réduit le coût initial de gros en éliminant le coût de
-
- Entretien des salles de matériel / serveurs.
- Personnel requis pour la maintenance.
- Autres coûts opérationnels.
(iii) Performance: Les performances sont un autre facteur qui a permis aux systèmes cloud de dominer les systèmes traditionnels. Si l'entreprise est étendue à l'échelle mondiale et que les données doivent être accessibles à partir de différentes parties du monde avec un délai d'exécution plus rapide, les entrepôts basés sur le cloud sont les meilleurs à utiliser.
Le traitement massivement parallèle (MPP) est l'une des méthodes de traitement collaboratif utilisées par les entrepôts pour y parvenir.
meilleur site Web pour regarder l'anime gratuitement
(iv) Connectivité: Comme mentionné ci-dessus, si les données doivent être accessibles à partir de plusieurs emplacements géographiques, les utilisateurs ont besoin d'une excellente connectivité à ces entrepôts et un entrepôt basé sur le cloud offre la même chose.
Conclusion
Nous espérons que vous avez tous une bonne idée du système Oracle Data Warehousing après avoir lu l'article ci-dessus. Faites-nous savoir si vous avez besoin d'informations sur un sujet particulier concernant l'entreposage de données afin que nous puissions couvrir la même chose dans les prochains tutoriels.
Tutoriel PREV | Tutoriel SUIVANT
lecture recommandée
- Qu'est-ce qu'un lac de données | Entrepôt de données et Data Lake
- Tutoriel de test de l'entrepôt de données avec des exemples | Guide de test ETL
- Top 10 des outils d'entrepôt de données et des technologies de test populaires
- Modèle de données dimensionnelles dans l'entrepôt de données - Tutoriel avec des exemples
- Métadonnées dans l'entrepôt de données (ETL) expliquées avec des exemples
- Didacticiel de test de l'entrepôt de données de test ETL (un guide complet)
- Types de schéma dans la modélisation de l'entrepôt de données - Schéma Star & SnowFlake
- Qu'est-ce que le processus ETL (extraction, transformation, chargement) dans l'entrepôt de données?