what is data lake data warehouse vs data lake
Ce didacticiel explique tout sur Data Lake, y compris ses besoins, sa définition, son architecture, ses avantages et ses différences entre Data Lake et Data Warehouse:
Le terme «Data Lake» est assez souvent utilisé dans le monde informatique d’aujourd’hui. Vous êtes-vous déjà demandé ce que c'était et d'où venait exactement le terme?
À l'ère des technologies de l'information, où les données s'amplifient jour et nuit sous de nombreuses formes, le concept de lac de données devient certainement important et utile.
Explorons en détail ce qu'est un lac de données et quels sont ses avantages, ses utilisations, etc.
Ce que vous apprendrez:
- Qu'est-ce qu'un lac de données et comment fonctionne-t-il?
- Analogie de Data Lake
- Marché Data Lake - Croissance, tendances et prévisions
- Pourquoi Data Lake est-il nécessaire?
- Différence entre l'entrepôt de données et Data Lake
- Architecture du lac de données
- Principales caractéristiques de Data Lake
- Avantages
- Défis et risques
- Mise en œuvre
- Fournisseurs de Data Lake
- Conclusion
Qu'est-ce qu'un lac de données et comment fonctionne-t-il?
Un lac de données est un système ou un référentiel centralisé de données qui vous permet de stocker toutes vos données structurées, semi-structurées, non structurées et binaires dans son format naturel / natif / brut.
Les données structurées peuvent inclure des tableaux des SGBDR; les données semi-structurées comprennent les fichiers CSV, les fichiers XML, les journaux, JSON, etc. les données non structurées peuvent inclure des PDF, des documents Word, des fichiers texte, des e-mails, etc. et les données binaires peuvent inclure des fichiers audio, vidéo, images.
Il suit une architecture plate pour stocker les données. En général, les données sont stockées sous la forme d'objets blob ou de fichiers.
[image la source ]
Avec un lac de données, vous pouvez stocker toute votre entreprise telle quelle en un seul endroit, sans avoir besoin de structurer d'abord les données. Vous pouvez y exécuter directement les différents types d'analyses, notamment l'apprentissage automatique, l'analyse en temps réel, le mouvement de données sur site, le mouvement de données en temps réel, les tableaux de bord et les visualisations.
Il conserve toutes les données qu'il contient dans leur forme d'origine et suppose que l'analyse se fera plus tard, à la demande.
Analogie de Data Lake
[image la source ]
Le terme Data Lake a été inventé par James Dixon, alors directeur technique de Pentaho. Il définit le data mart (un sous-ensemble d'un entrepôt de données) comme similaire à une bouteille d'eau remplie d'eau purifiée et distillée, emballée et structurée pour une utilisation directe et facile.
En revanche, il est analogue à un plan d'eau dans sa forme naturelle. Les données circulent des flux (diverses fonctions commerciales / systèmes sources) vers le lac. Les consommateurs du lac de données, c'est-à-dire les utilisateurs ont accès au lac afin d'analyser, d'examiner, de collecter des échantillons et de plonger.
Tout comme l'eau du lac répond aux différents besoins des gens comme la pêche, la navigation de plaisance, l'approvisionnement en eau potable, etc., de même, l'architecture du lac de données sert à plusieurs fins.
comment mettre à jour le bios de Windows 10
Un data scientist peut l'utiliser pour explorer les données et créer une hypothèse. Il offre aux analystes de données l'occasion d'analyser les données et de découvrir des modèles. Il fournit un mode aux utilisateurs métier et aux parties prenantes pour explorer les données.
Il offre également aux analystes de rapports la possibilité de concevoir des rapports et de les présenter à l'entreprise. Au contraire, l'entrepôt de données a emballé des données à des fins bien définies, tout comme une bouteille de bisleri qui ne peut être utilisée que pour l'eau potable.
Marché Data Lake - Croissance, tendances et prévisions
Le marché des lacs de données est divisé en fonction du produit (solution ou service), du déploiement (sur site ou dans le cloud), de l'industrie des clients (commerce de détail, banque, services publics, assurance, informatique, santé, télécom, édition, fabrication) et géographique Régions.
Selon le rapport publié par Mordor Intelligence, Voici un aperçu du marché pour le lac de données:
[image la source ]
# 1) Résumé du marché
Le marché des lacs de données a été évalué à 3,74 milliards USD en 2019 et devrait atteindre 17,60 milliards USD d'ici 2025, à un TCAC (taux de croissance annuel composé) de 29,9% sur la période de projection 2020-2025.
Ces réservoirs de données se révèlent de plus en plus comme une option économique pour de nombreuses organisations par rapport aux entrepôts de données. Contrairement aux lacs de données, l'entreposage de données nécessite un traitement supplémentaire des données avant d'entrer dans l'entrepôt.
Les frais de gestion d'un lac de données sont moindres par rapport à un entrepôt de données en raison du traitement important et de l'espace nécessaire pour créer la base de données pour les entrepôts.
# 2) Acteurs majeurs
Il est prévu que le marché de Data Lake sera un marché consolidé dominé par les cinq acteurs clés, comme le montre l'image ci-dessous.
# 3) Principales tendances
- Son utilisation devrait augmenter considérablement dans le secteur bancaire. Les banques adoptent des lacs de données pour fournir des analyses en déplacement. En outre, il contribue à dissoudre de nombreux silos dans le secteur bancaire.
- Comme il y a une augmentation considérable des paiements numériques / de l'utilisation des portefeuilles mobiles à travers le monde, la portée de l'analyse des mégadonnées et, par conséquent, leur opportunité augmente.
- On prévoit que l'Amérique du Nord aura une forte adoption des lacs de données. Une étude réalisée par Capgemini indique que plus de 60% des organisations financières aux États-Unis pensent que l'analyse du Big Data agit comme un différenciateur pour les entreprises et leur donne un avantage concurrentiel. Plus de 90% des entreprises estiment qu'investir dans des projets Big Data augmente les chances de succès à l'avenir.
- Ils sont nécessaires pour l'utilisation des applications de compteurs intelligents et aux États-Unis, on s'attend à ce qu'environ 90 millions de compteurs intelligents soient installés en 2021. Par conséquent, il y a une forte demande prévue pour eux.
Pourquoi Data Lake est-il nécessaire?
Le but d'un lac de données est de donner une vue non traitée des données (données dans leur forme la plus pure).
Exemples
De nos jours, de nombreuses grandes entreprises telles que Google, Amazon, Cloudera, Oracle, Microsoft et quelques autres proposent des offres de data lake.
De nombreuses organisations utilisent des services de stockage dans le cloud comme Azure Data Lake ou Amazon S3. Les entreprises utilisent également un système de fichiers distribué comme Apache Hadoop. Le concept d'un lac de données personnelles qui vous permet de gérer et de partager vos propres big data a également évolué.
Si nous parlons d'utilisations industrielles, alors c'est une solution très appropriée pour le domaine de la santé. En raison du format non structuré d'un grand nombre de données dans le domaine de la santé ( Par exemple, Notes du médecin, données cliniques, antécédents de maladie des patients, etc.) et l'exigence d'informations en temps réel, un lac de données est une excellente option par rapport à l'entrepôt de données.
entretien de support technique questions et réponses pour bpo
Il propose également des solutions flexibles dans le secteur de l'éducation où les données sont très vastes et très brutes.
Dans le secteur des transports, principalement dans la gestion de la chaîne d'approvisionnement ou la logistique, il aide à faire des prévisions et à réaliser des avantages de réduction des coûts.
Les industries de l'aviation et de l'énergie électrique utilisent également des lacs de données.
Un exemple de sa mise en œuvre est GE Predix (développé par General Electric) qui est une plate-forme de lac de données industriel offrant de solides compétences en gouvernance des données pour créer, déployer et gérer des applications industrielles reliées aux actifs industriels, collecter et analyser des données et fournir en temps réel perspectives pour améliorer l'infrastructure et les processus industriels.
Différence entre l'entrepôt de données et Data Lake
Les gens ont souvent du mal à comprendre en quoi un lac est différent d'un entrepôt de données. Ils affirment également qu'il s'agit de la même chose que l'entrepôt de données. Mais ce n'est pas la réalité.
Le seul point commun entre le lac de données et l'entrepôt de données est que les deux sont des référentiels de stockage de données. Reste, ils sont différents. Ils ont des cas d'utilisation et des objectifs différents.
Les différences sont clarifiées ci-dessous:
Data Lake | Entrepôt de données | |
---|---|---|
Analytique | Un lac de données peut être utilisé pour l'apprentissage automatique, le profilage des données de découverte de données et l'analyse prédictive. | Un entrepôt de données peut être utilisé pour la Business Intelligence, les visualisations et les rapports par lots. |
Données | Un Data Lake y conservera toutes les données brutes. Il peut être structuré, non structuré ou semi-structuré. Il est possible que certaines des données du lac de données ne soient jamais utilisées. | Un entrepôt de données n'incorpore que les données qui sont traitées et affinées, c'est-à-dire les données structurées nécessaires pour signaler et résoudre des problèmes commerciaux spécifiques. |
Utilisateurs | En général, les utilisateurs d'un lac de données sont des data scientists et des développeurs de données. | En règle générale, les utilisateurs de l'entrepôt de données sont des professionnels, des utilisateurs opérationnels et des analystes commerciaux. |
Accessibilité | Le lac de données est hautement accessible et facile et rapide à mettre à jour car il n'a aucune structure. | Dans l'entrepôt de données, la mise à jour des données est une opération plus compliquée et coûteuse car les entrepôts de données sont structurés par conception. |
Schéma | Schéma à l'écriture. Conçu avant la mise en œuvre DW. | Schéma à la lecture. Rédigé au moment de l'analyse. |
Architecture | Architecture plate | Architecture hiérarchique |
But | Le but des données brutes stockées dans les lacs de données n'est pas fixe ou est indéterminé. Parfois, les données peuvent s'écouler dans un lac de données avec une utilisation future spécifique à l'esprit ou simplement pour avoir les données à portée de main. Le lac de données contient des données moins organisées et moins filtrées. | Les données traitées stockées dans l'entrepôt de données ont une finalité spécifique et définie. Un DW a organisé et filtré les données. Par conséquent, il nécessite moins d'espace de stockage que le lac de données. |
Espace de rangement | Conçu pour un stockage à faible coût. Le matériel du lac de données est très différent du matériel de l'entrepôt de données. Il utilise des serveurs standard combinés à un stockage bon marché. Cela rend le lac de données assez économique et hautement évolutif en téraoctets et pétaoctets. Ceci est fait pour conserver toutes les données dans un lac de données afin que vous puissiez revenir à l'heure à tout moment pour effectuer une analyse. | Cher pour les gros volumes de données. L'entrepôt de données dispose d'un stockage sur disque coûteux pour le rendre très performant. Par conséquent, afin d'économiser de l'espace, le modèle de données est simplifié et seules les données réellement nécessaires pour prendre des décisions commerciales sont conservées dans l'entrepôt de données. |
Prise en charge des types de données | Un Data Lake prend très bien en charge les types de données non traditionnels tels que les journaux de serveur, les données de capteur, l'activité des réseaux sociaux, le texte, les images, le multimédia, etc. Toutes les données sont conservées indépendamment de la source et de la structure. | En règle générale, un entrepôt de données est constitué de données extraites de systèmes transactionnels. Il ne prend pas très bien en charge les types de données non traditionnels. Le stockage et la consommation des données non traditionnelles peuvent être coûteux et difficiles avec l'entrepôt de données. |
Sécurité | La sécurité des lacs de données est à un stade de «maturation» car il s’agit d’un concept relativement nouveau que l’entrepôt de données. | La sécurité des entrepôts de données est au stade «mûr». |
Agilité | Très agile; configurer et reconfigurer selon les besoins. | Moins agile; configuration fixe. |
Architecture du lac de données
Diagramme d'architecture
Ci-dessus se trouve le diagramme d'architecture conceptuelle du lac de données. Dans la partie la plus à gauche, vous pouvez voir que nous avons les sources de données qui peuvent être structurées, semi-structurées ou non structurées.
Ces sources de données sont combinées dans un magasin de données brutes qui utilise les données sous leur forme brute, c'est-à-dire des données sans aucune transformation. Il s'agit d'un stockage à faible coût, permanent et évolutif.
Ensuite, nous avons des sandbox analytiques qui peuvent être utilisées pour la découverte de données, l'analyse de données exploratoire et la modélisation prédictive. Fondamentalement, cela est utilisé par les scientifiques des données pour explorer les données, construire de nouvelles hypothèses et définir des cas d'utilisation.
Ensuite, il y a un moteur de traitement par lots qui traite les données brutes sous une forme utilisable par le consommateur, c'est-à-dire dans un format structuré qui peut être utilisé pour les rapports aux utilisateurs finaux.
Ensuite, nous avons un moteur de traitement en temps réel qui prend en charge les données en continu et les transforme.
Principales caractéristiques de Data Lake
Pour être classé comme Data Lake, un référentiel Big Data doit posséder les trois attributs suivants:
# 1) Un référentiel commun unique de données généralement hébergé dans un système de fichiers distribués (DFS).
Les lacs de données Hadoop conservent les données dans leur forme native et capturent les modifications apportées aux données et la sémantique relative au cours du cycle de vie des données. Cette approche est particulièrement avantageuse pour les contrôles de conformité et les audits internes.
Il s'agit d'une amélioration par rapport à l'entrepôt de données d'entreprise conventionnel dans lequel, lorsque les données subissent des transformations, des agrégations et des modifications, il est difficile de regrouper les données lorsque cela est nécessaire, et les entreprises s'efforcent de découvrir la source / l'origine des données.
# 2) Incorpore des capacités de planification et de planification des travaux (par exemple, via n'importe quel outil de planification comme YARN, etc.).
L'exécution de la charge de travail est un besoin essentiel pour l'entreprise Hadoop et YARN offre une gestion des ressources et une plate-forme centrale pour fournir des processus constants, Sécurité et des outils de gouvernance des données dans tous les clusters Hadoop, garantissant que les flux de travail analytiques possèdent le niveau requis d'accès aux données et de puissance de calcul.
# 3) Comprend l'ensemble des utilitaires et des fonctions nécessaires pour consommer, traiter ou travailler avec les données.
L'accessibilité facile et rapide pour les utilisateurs est l'une des caractéristiques clés d'un lac de données, car les organisations stockent les données dans leur forme native ou pure.
Quelle que soit la forme des données, c'est-à-dire structurées, non structurées ou semi-structurées, elles sont insérées telles quelles dans le lac de données. Il permet aux propriétaires de données de combiner les données des clients, des fournisseurs et des opérations, en éliminant les obstacles techniques ou politiques au partage des données.
Avantages
[image la source ]
- Polyvalent : Suffisamment compétent pour stocker toutes sortes de données structurées / non structurées allant des données CRM aux activités des réseaux sociaux.
- Plus de flexibilité du schéma : N'a pas besoin de planification ou de connaissance préalable de l'analyse des données. Il stocke toutes les données telles quelles dans leur forme originale et suppose que l'analyse se fera plus tard, à la demande. Ceci est très utile pour OLAP. Par exemple, le lac de données Hadoop vous permet d'être sans schéma dans lequel vous pouvez découpler le schéma des données.
- Analyse décisionnelle en temps réel : Ils profitent d'une énorme quantité de données cohérentes et d'algorithmes d'apprentissage en profondeur pour atteindre des analyses de décision en temps réel. Capable d'obtenir de la valeur à partir de types de données illimités.
- Évolutif: Ils sont beaucoup plus évolutifs que les entrepôts de données traditionnels et sont également moins coûteux.
- Analyse avancée / compatibilité avec SQL et d'autres langages: Avec les lacs de données, il existe de nombreuses façons d'interroger les données. Contrairement aux entrepôts de données traditionnels qui ne prennent en charge que SQL pour des analyses simples, ils vous offrent de nombreuses autres options et une prise en charge linguistique pour analyser les données. Ils sont également compatibles avec les outils d'apprentissage automatique tels que Spark MLlib.
- Démocratiser les données: Accès démocratisé aux données grâce à une vue unique et intégrée des données dans toute l'organisation tout en utilisant une plate-forme de gestion de données efficace. Cela garantit la disponibilité totale des données.
- Meilleure qualité des données: Dans l'ensemble, vous obtenez une meilleure qualité de données avec des lacs de données grâce à des avantages technologiques tels que le stockage de données au format natif, l'évolutivité, la polyvalence, la flexibilité des schémas, la prise en charge de SQL et d'autres langages et des analyses avancées.
Défis et risques
Les lacs de données offrent de nombreux avantages. Mais oui, il y a aussi quelques défis et risques qui y sont associés qu'une organisation doit aborder avec soin.
Elles sont:
- S'ils ne sont pas correctement conçus, ils peuvent se transformer en marais de données. Parfois, les organisations finissent simplement par continuer à déverser des données illimitées dans ces lacs sans aucune stratégie ni objectif en tête.
- Parfois, les analystes qui souhaitent utiliser les données ne savent pas comment le faire, car il est assez difficile de faire de l'exploration dans des lacs de données. Ainsi, ils perdent leur pertinence et leur élan après un certain temps. Les organisations doivent s'efforcer d'éliminer cet obstacle pour les analystes.
- Comme nous avons beaucoup de données désorganisées dans les lacs de données, elles ne sont pas suffisamment récentes ou actuelles pour être utilisées dans la production. Ainsi, les données de ces lacs restent en mode pilote et ne sont jamais mises en production.
- Les données non structurées peuvent conduire à des données inutilisables.
- Parfois, les organisations constatent que cela n'a pas d'impact significatif sur les entreprises par rapport aux investissements réalisés. Cela nécessite un changement de mentalité. Pour que les impacts se produisent, les entreprises doivent encourager les gestionnaires et les dirigeants à prendre des décisions basées sur les analyses dérivées de ces réservoirs de données.
- La sécurité et le contrôle d'accès sont également l'un des risques lorsque vous travaillez avec eux. Certaines des données qui peuvent avoir la confidentialité et les réglementations requises sont placées dans des lacs de données sans aucune surveillance.
Mise en œuvre
Dans une entreprise, il est tout à fait judicieux de faire l'implémentation du lac de données de manière agile.
Autrement dit, pour implémenter d'abord un Data Lake MVP, il est testé par les utilisateurs en ce qui concerne la qualité, la facilité d'accès, le stockage et les capacités analytiques, recevez des commentaires, puis ajoutez les exigences et fonctionnalités complexes pour ajouter de la valeur au lac.
En règle générale, une organisation passe par les quatre étapes de base de mise en œuvre ci-dessous:
[image la source ]
Étape 1:
Le lac de données de base: À ce stade, l'équipe se fixe sur l'architecture de base, la technologie (basée sur le cloud ou héritée) et les pratiques de sécurité et de gouvernance pour le lac de données. Il est rendu capable de stocker toutes les données brutes provenant de diverses sources d'entreprise et de combiner les données internes et externes pour fournir des informations enrichies.
Étape 2:
Le bac à sable: amélioration des capacités analytiques: À ce stade, les scientifiques des données accèdent au réservoir de données pour exécuter des expériences préliminaires pour utiliser les données brutes et concevoir des modèles analytiques pour répondre aux besoins de l'entreprise.
Étape 3:
meilleures applications vr pour vr box
Entrepôts de données et collaboration Data Lake: À ce stade, l'organisation commence à utiliser le data lake en synergie avec les entrepôts de données existants. Les données de faible priorité leur sont envoyées afin que la limite de stockage des entrepôts de données ne soit pas dépassée.
Il présente une perspective pour produire des informations à partir de données froides ou pour les interroger pour découvrir des informations qui ne sont pas indexées par des bases de données conventionnelles.
Étape 4:
Adoption de bout en bout de Data Lake: Il s’agit de la dernière étape d’acquisition de maturité au cours de laquelle il se transforme en un élément clé de l’architecture des données de l’organisation et dirige efficacement les opérations de recherche. À ce moment-là, le lac de données aurait remplacé EDW et ils sont devenus la seule source de toutes les données d'entreprise.
Une organisation peut effectuer les opérations suivantes via le lac de données:
- Créez des solutions complexes de modélisation et d'analyse de données pour différents besoins commerciaux.
- Concevez des tableaux de bord interactifs qui consolident les compréhensions du lac de données ainsi que diverses applications et sources de données
- Mettez en œuvre des programmes avancés d'analyse ou de robotique, car il gère les opérations de calcul.
À ce stade, il dispose également de mesures de sécurité et de gouvernance solides.
Fournisseurs de Data Lake
Il existe différents fournisseurs fournissant des outils de data lake dans l'industrie.
[image la source ]
Si nous regardons les grandes entreprises:
- L'informatique fournit un outil de lac de données intelligent. BDM (Big Data Management) 10.2.2 est la dernière version disponible.
- Il y a un vendeur appelé spectateur qui fournit également l'outil.
- L'entreprise Talend qui est populaire pour ses outils ETL fournit également l'outil Data Lake.
- Ensuite, nous avons un outil open-source appelé Kylo du Teradata compagnie. L’équipe appelée «Think Big» de la société Teradata a développé cet outil.
- L'entreprise Données de fût Inc fournit également ces services.
- De Microsoft , tu peux trouver Lac de données Azure disponible dans l'industrie.
- Logiciel Hvr fournit également des solutions de consolidation de lac de données.
- Données du podium, une société Qlik fournit des produits d'outils tels que des pipelines de lac de données, un lac de données multizone.
- Flocon de neige a également un produit de lac de données.
- Zaloni est une entreprise de data lake qui gère d'énormes données à l'aide du Big Data.
Donc, ce sont tous les fournisseurs de services populaires ainsi que les fournisseurs de tels outils.
Si vous cherchez à pratiquer et à développer vos connaissances sur les lacs de données, vous pouvez opter pour Informatica ou Kylo. Si vous recherchez un service basé sur le cloud, vous pouvez opter pour Looker, Informatica et Talend. Ces trois fournisseurs fournissent des lacs de données AWS cloud. Vous pouvez également obtenir un essai gratuit d'un mois auprès de Kylo.
Conclusion
Dans ce didacticiel, nous avons discuté en détail du concept de lac de données. Nous avons passé en revue l'idée de base du data lake, son architecture, ses principales caractéristiques, ses avantages, ainsi que ses exemples, cas d'utilisation, etc.
Nous avons également vu en quoi un lac de données est différent de l'entrepôt de données. Nous avons également couvert les principaux fournisseurs fournissant des services connexes.
Bonne lecture!!
lecture recommandée
- Tutoriel de test de l'entrepôt de données avec des exemples | Guide de test ETL
- Top 10 des outils de test et de validation de données structurées pour le référencement
- Exploration de données: processus, techniques et problèmes majeurs dans l'analyse des données
- Tutoriel Data Mart - Types, exemples et implémentation de Data Mart
- Top 10 des outils d'entrepôt de données et des technologies de test les plus populaires
- Modèle de données dimensionnelles dans l'entrepôt de données - Tutoriel avec des exemples
- 10+ meilleurs outils de collecte de données avec des stratégies de collecte de données
- Fonction de pool de données dans IBM Rational Quality Manager for Test Data Management