big data tutorial beginners what is big data
Ce tutoriel explique tout sur les bases du Big Data. Le didacticiel comprend les avantages, les défis, les technologies et les outils ainsi que les applications du Big Data:
Dans ce monde numérique aux avancées technologiques, nous échangeons quotidiennement de grandes quantités de données comme dans Téraoctets ou pétaoctets .
Si nous échangeons quotidiennement cette quantité de données, nous devons également les maintenir et les stocker quelque part. La solution pour gérer les gros volumes de données avec une vitesse élevée et une variété différente est Big Data.
Il peut gérer des données complexes provenant de sources multiples telles que différentes bases de données, sites Web, widgets, etc. En outre, il peut lier et faire correspondre les données provenant de différentes sources. Il donne en effet un accès plus rapide aux données ( Par exemple, des médias sociaux).
Liste des didacticiels de cette série Big Data
Tutoriel n ° 1: Qu'est-ce que le Big Data? (Ce tutoriel)
Tutoriel n ° 2: Qu'est-ce que Hadoop? Tutoriel Apache Hadoop pour les débutants
Tutoriel n ° 3: Hadoop HDFS - Système de fichiers distribués Hadoop
Tutoriel n ° 4: Guide de l'architecture Hadoop et des commandes HDFS
Tutoriel n ° 5: Tutoriel Hadoop MapReduce avec des exemples | Qu'est-ce que MapReduce?
Tutoriel n ° 6: Tutoriel Apache Hadoop YARN pour les débutants | Qu'est-ce que YARN?
Tutoriel n ° 7: Tutoriel complet de test Hadoop | Guide de test du Big Data
Ce que vous apprendrez:
différence entre les tests de charge et de performance
Qu'est-ce que le Big Data?
Le mot Énorme ne suffit pas à expliquer BigData, certaines caractéristiques classent les données en BigData.
Nous avons trois caractéristiques principales de BigData, et si des données satisfont à ces caractéristiques, elles seront traitées comme BigData. je t est la combinaison des trois V mentionnés ci-dessous:
- Le volume
- Rapidité
- Variété
Le volume : Les données devraient être d'un volume énorme. Le Big Data a la solution pour conserver une grande quantité de données en téraoctet ou pétaoctet. Nous pouvons effectuer des opérations CRUD (Créer, Lire, Mettre à jour et Supprimer) sur BigData facilement et efficacement.
Rapidité : Il est responsable d'un accès plus rapide aux données. Par exemple, de nos jours, les médias sociaux ont besoin d'un échange rapide de données en une fraction de temps et BigData est la meilleure solution pour cela. Par conséquent, la vitesse est une autre caractéristique et c'est la vitesse de traitement des données.
Variété : Dans les médias sociaux, nous avons affaire à des données non structurées comme des enregistrements audio ou vidéo, des images, etc. De plus, divers secteurs comme le domaine bancaire ont besoin de données structurées et semi-structurées. BigData est la solution pour conserver les deux types de données en un seul endroit.
La variété signifie différents types de données comme les données structurées / non structurées provenant de plusieurs sources.
Données structurées : Les données qui ont une structure appropriée ou celle qui peut être facilement stockée sous forme de tableau dans toutes les bases de données relationnelles comme Oracle, SQL Server ou MySQL sont appelées données structurées. Nous pouvons le traiter ou l'analyser facilement et efficacement.
Un exemple de données structurées est les données stockées dans une base de données relationnelle qui peut être gérée en utilisant SQL (Structured Query Language). Par exemple, Les données des employés (nom, identifiant, désignation et salaire) peuvent être stockées dans un format tabulaire.
Dans une base de données traditionnelle, nous pouvons effectuer des opérations ou traiter des données non structurées ou semi-structurées uniquement après leur formatage ou leur intégration dans la base de données relationnelle. Exemples des données structurées sont ERP, CRM, etc.
Données semi-structurées: Les données semi-structurées sont les données qui ne sont pas entièrement formatées. Il n'est stocké ni dans des tables de données ni dans aucune base de données. Mais encore, nous pouvons facilement le préparer et le traiter car ces données contiennent des balises ou des valeurs séparées par des virgules, etc. Exemple des données semi-structurées sont des fichiers XML, des fichiers CSV, etc.
Données non structurées: Les données non structurées sont les données qui n'ont aucune structure. Cela peut être sous n'importe quelle forme, il n'y a pas de modèle de données prédéfini. Nous ne pouvons pas le stocker dans des bases de données traditionnelles. Il est complexe de le rechercher et de le traiter.
De plus, le volume de données non structurées est très élevé. Exemple des données non structurées est le corps de l'e-mail, l'audio, la vidéo, les images, les documents obtenus, etc.
Défis des bases de données traditionnelles
- La base de données traditionnelle ne prend pas en charge une variété de données, c'est-à-dire qu'elle ne peut pas gérer les données non structurées et semi-structurées.
- Une base de données traditionnelle est lente lorsqu'elle traite une grande quantité de données.
- Dans les bases de données traditionnelles, le traitement ou l'analyse d'une grande quantité de données est très difficile.
- Une base de données traditionnelle est capable de stocker des données en téraoctets ou pétaoctets.
- Une base de données traditionnelle ne peut pas gérer les données historiques et les rapports.
- Après un certain temps, le nettoyage des données de la base de données est nécessaire.
- Le coût de maintenance d'une grande quantité de données est très élevé avec une base de données traditionnelle.
- La précision des données est moindre dans la base de données traditionnelle car les données historiques complètes n'y sont pas conservées.
Big DataAvantages par rapport à la base de données traditionnelle
- Le Big Data est chargé de gérer, gérer et traiter différents types de données telles que structurées, semi-structurées et non structurées.
- Il est rentable en termes de conservation d'une grande quantité de données. Il fonctionne sur un système de base de données distribué.
- Nous pouvons enregistrer de grandes quantités de données pendant une longue période en utilisant les techniques BigData. Il est donc facile de gérer les données historiques et de générer des rapports précis.
- La vitesse de traitement des données est très rapide et les médias sociaux utilisent donc des techniques de Big Data.
- La précision des données est un gros avantage du Big Data.
- Il permet aux utilisateurs de prendre des décisions efficaces pour leur entreprise sur la base de données actuelles et historiques.
- La gestion des erreurs, le contrôle de version et l'expérience client sont très efficaces dans BigData.
Suggestion de lecture => Big Data vs Big Data Analytics vs Data Science
Défis et risques dans le BigData
Défis:
- L'un des défis majeurs du Big Data est de gérer de grandes quantités de données. De nos jours, les données parviennent à un système à partir de sources variées. C’est donc un très gros défi pour les entreprises, de le gérer correctement. Par exemple, pour générer un rapport contenant les 20 dernières années de données, il faut sauvegarder et maintenir les 20 dernières années de données d'un système. Pour fournir un rapport précis, il est nécessaire de ne mettre que les données pertinentes dans le système. Il ne doit pas contenir de données non pertinentes ou inutiles, sinon le maintien de cette quantité de données sera un gros défi pour les entreprises.
- Un autre défi de cette technologie est la synchronisation de différents types de données. Comme nous le savons tous, le Big Data prend en charge les données structurées, non structurées et semi-structurées provenant de différentes sources, il est très difficile de les synchroniser et d'obtenir la cohérence des données.
- Le prochain défi auquel les entreprises sont confrontées est le manque d'experts qui peuvent aider et mettre en œuvre les problèmes auxquels elles sont confrontées dans le système. Il y a un grand écart de talents dans ce domaine.
- La gestion de l'aspect de conformité est coûteuse.
- La collecte de données, l'agrégation, le stockage, l'analyse et le reporting de BigData ont un coût énorme. L'organisation doit être en mesure de gérer tous ces coûts.
Des risques:
- Il peut traiter une variété de données, mais si les entreprises ne peuvent pas comprendre correctement les exigences et contrôler la source des données, il fournira des résultats erronés. En conséquence, il faudra beaucoup de temps et d'argent pour enquêter et corriger les résultats.
- La sécurité des données est un autre risque avec le BigData. Avec un volume élevé de données, il y a plus de chances que quelqu'un les vole. Les pirates informatiques peuvent voler et vendre des informations importantes (y compris des données historiques) de l'entreprise.
- En outre, la confidentialité des données est un autre risque pour BigData. Si nous voulons sécuriser les données personnelles et sensibles des pirates informatiques, elles doivent être protégées et doivent passer toutes les politiques de confidentialité.
Technologies du Big Data
Voici les technologies qui peuvent être utilisées pour gérer le Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Pas de SQL
- Ruche
- Sqoop
- BigData dans Excel
Une description détaillée de ces technologies sera couverte dans nos prochains tutoriels.
Outils pour utiliser les concepts de Big Data
Vous trouverez ci-dessous les outils open source qui peuvent aider à utiliser les concepts Big Data:
# 1) Apache Hadoop
# 2) Lumify
# 3) Tempête Apache
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) BigData du système HPCC
Applications du Big Data
Voici les domaines dans lesquels il est utilisé:
- Bancaire
- Médias et divertissement
- Les fournisseurs de soins de santé
- Assurance
- Éducation
- Vendre au détail
- Fabrication
- Gouvernement
BigData et entrepôt de données
L'entrepôt de données est un concept de base que nous devons comprendre avant de discuter de Hadoop ou de BigData Testing.
Expliquons Data Warehouse à partir d’un exemple en temps réel. Par exemple , il existe une entreprise qui a établi ses succursales dans trois pays différents, supposons une succursale en Inde, en Australie et au Japon.
Dans chaque agence, toutes les données client sont stockées dans la base de données locale. Ces bases de données locales peuvent être des SGBDR classiques normaux comme Oracle ou MySQL ou SQL Server, etc. et toutes les données client y seront stockées quotidiennement.
Désormais, tous les trimestres, semestriels ou annuels, l'organisation souhaite analyser ces données pour le développement commercial. Pour faire de même, l'organisation collectera toutes ces données à partir de plusieurs sources, puis les rassemblera en un seul endroit et cet endroit s'appelle «Entrepôt de données».
L'entrepôt de données est une sorte de base de données qui contient toutes les données extraites de plusieurs sources ou de plusieurs types de bases de données via le «ETL» (qui est le EST xtract, T ransformer et L oad) processus. Une fois que les données sont prêtes dans l'entrepôt de données, nous pouvons les utiliser à des fins analytiques.
Ainsi, pour l'analyse, nous pouvons générer des rapports à partir des données disponibles dans l'entrepôt de données. Plusieurs graphiques et rapports peuvent être générés à l'aide des outils de Business Intelligence.
Nous avons besoin de Data Warehouse à des fins analytiques pour développer l'entreprise et prendre les décisions appropriées pour les organisations.
Trois choses se produisent dans ce processus, premièrement, nous avons extrait les données de plusieurs sources et les avons placées sur un seul emplacement qui est Data Warehouse.
Ici, nous utilisons le processus «ETL», ainsi, tout en chargeant les données de plusieurs sources à un seul endroit, nous l'appliquerons dans les racines de transformation et nous pourrons ensuite utiliser divers types d'outils ETL ici.
Une fois que les données sont prêtes dans l'entrepôt de données, nous pouvons générer divers rapports pour analyser les données d'entreprise à l'aide des outils de Business Intelligence (BI) ou nous les appelons également des outils de reporting. Les outils tels que Tableau ou Cognos peuvent être utilisés pour générer les rapports et les tableaux de bord pour analyser les données pour les entreprises.
OLTP et OLAP
Voyons ce qu'est OLTP et ce que sont OLAP?
Les bases de données qui sont gérées localement et utilisées à des fins transactionnelles sont appelées OLTP, c'est-à-dire le traitement des transactions en ligne. Les transactions quotidiennes seront stockées ici et mises à jour immédiatement et c'est pourquoi nous les avons appelées Système OLTP.
Ici, nous utilisons des bases de données traditionnelles, nous avons plusieurs tables et il y a des relations, donc tout est systématiquement planifié selon la base de données. Nous n'utilisons pas ces données à des fins d'analyse. Ici, nous pouvons utiliser des bases de données RDMBS classiques comme Oracle, MySQL, SQL Server, etc.
Quand nous arrivons à la partie Data Warehouse, nous utilisons Teradata ou Hadoop Systems, qui sont également une sorte de base de données, mais les données d'un DataWarehouse sont généralement utilisées à des fins analytiques et sont appelées OLAP ou Processus analytique en ligne.
Ici, les données peuvent être mises à jour sur une base trimestrielle, semestrielle ou annuelle. Parfois, les données sont également mises à jour «Offrir», où Offrir signifie que les données sont mises à jour et récupérées pour analyse en fonction des besoins du client.
De plus, les données à analyser ne sont pas mises à jour quotidiennement car nous obtiendrons les données de plusieurs sources, sur une base planifiée et nous pouvons effectuer cette tâche ETL. C'est ainsi que fonctionne le système de traitement analytique en ligne.
Là encore, les outils BI ou Reporting Tools peuvent générer des rapports ainsi que des tableaux de bord, et sur cette base, les professionnels prendront les décisions pour améliorer leur activité.
Où BigData entre en jeu?
Les BigData sont les données qui dépassent la capacité de stockage et de traitement des bases de données conventionnelles et sont au format structuré et non structuré, de sorte qu'elles ne peuvent pas être gérées par les systèmes SGBDR locaux.
Ce type de données sera généré en TeraBytes (TB) ou PetaBytes (PB) ou au-delà et il augmente rapidement de nos jours. Il existe plusieurs sources pour obtenir ce type de données telles que Facebook, WhatsApp (qui sont liées aux réseaux sociaux); Amazon, Flipkart lié au commerce électronique; Gmail, Yahoo, Rediff liés aux e-mails et Google et autres moteurs de recherche. Nous obtenons également des données volumineuses à partir de mobiles comme les données SMS, l'enregistrement des appels, les journaux d'appels, etc.
Conclusion
Le Big Data est la solution pour gérer de grandes quantités de données de manière efficace et sécurisée. Il est également responsable de la maintenance des données historiques. Les avantages de cette technologie sont nombreux, c'est pourquoi chaque entreprise souhaite passer au Big Data
Auteur: Vaishali Tarey, responsable technique chez Syntel
lecture recommandée
- Tutoriel Data Mart - Types, exemples et implémentation de Data Mart
- Top 10 des outils de conception de base de données pour créer des modèles de données complexes
- 20+ Tutoriel MongoDB pour les débutants: Cours MongoDB gratuit
- Qu'est-ce qu'un lac de données | Entrepôt de données et Data Lake
- Top 10 des outils de test et de validation de données structurées pour le référencement
- Modèle de données dimensionnelles dans l'entrepôt de données - Tutoriel avec des exemples
- Exploration de données: processus, techniques et problèmes majeurs dans l'analyse des données
- Comment effectuer des tests basés sur les données dans SoapUI Pro - Tutoriel SoapUI # 14