complete guide big data analytics
Ceci est un guide complet de Big Data Analytics avec ses cas d'utilisation, son architecture, ses exemples et sa comparaison avec le Big Data et la Data Science:
L'analyse des mégadonnées a gagné du terrain parce que des entreprises telles que Facebook, Google et Amazon ont mis en place leurs propres nouveaux paradigmes de traitement et d'analyse des données distribuées pour comprendre les propensions de leurs clients à extraire de la valeur à partir des mégadonnées.
Dans ce didacticiel, nous expliquons l'analyse du Big Data et la comparons avec le Big Data et la Data Science. Nous couvrirons les attributs nécessaires que les entreprises doivent avoir dans leur stratégie Big Data et la méthodologie qui fonctionne. Nous mentionnerons également les dernières tendances et quelques cas d'utilisation de l'analyse de données.
Comme le montre l'image ci-dessous, Analytics nécessite l'utilisation de compétences informatiques, de compétences commerciales et de la science des données. L'analyse des mégadonnées est au centre de l'utilisation des valeurs du mégadonnées et aide à obtenir des informations consommables pour une organisation.
(image la source )
Ce que vous apprendrez:
- Qu'est-ce que l'analyse de Big Data
- Big Data Vs Big Data Analytics Vs Data Science
- Ce que chaque stratégie d'analyse Big Data devrait avoir
- Pipeline de données et processus pour l'analyse des données
- Architecture d'analyse Big Data
- Tendances actuelles de l'analyse des données
- Utilisations de Big Data Analytics
- Questions fréquemment posées
- Conclusion
Qu'est-ce que l'analyse de Big Data
Big Data Analytics traite de l'utilisation d'un ensemble de techniques statistiques, d'outils et de procédures d'analyse du Big Data.
conseillé Lecture => Introduction au Big Data
Ce sont les analyses qui aident à extraire des modèles précieux et des informations significatives à partir du Big Data pour soutenir la prise de décision basée sur les données. C'est en raison de l'émergence de nouvelles sources de données telles que les médias sociaux et les données IoT que le Big Data et l'analyse sont devenus populaires.
Cette tendance donne naissance à un domaine de pratique et d'étude appelé «science des données» qui englobe les techniques, les outils, les technologies et les processus d'exploration de données, de nettoyage, de modélisation et de visualisation.
Big Data Vs Big Data Analytics Vs Data Science
À comparaison entre Big Data, Data Science et Big Data Analytics peut être compris à partir du tableau ci-dessous.
Base | Big Data | Science des données | Analyse de Big Data |
---|---|---|---|
Outils et technologies | Écosystème Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Wrapper de données, Lumify, HPCC, Qubole, Microsoft HDInsight |
Rôles et compétences professionnelles | Maintenance de l'infrastructure de stockage, traitement des données et connaissances sur Hadoop et son intégration avec d'autres outils. | Transformation des données, ingénierie des données, gestion des données, modélisation des données et visualisation | BI et analyses avancées, statistiques, modélisation de données et apprentissage automatique, compétences en mathématiques, communication, conseil. |
Désignations | Architecte Big Data Développeur Big Data Ingénieur Big Data | Data Scientist Ingénieur en apprentissage automatique | Analyste Big Data Analyste d'affaires Ingénieur en intelligence d'affaires Spécialiste Business Analytics Développeur de visualisation de données Responsable analytique |
Environ. Salaire annuel moyen en USD | 100 000 | 90 000 | 70 000 |
Suggestion de lecture = >> Science des données vs informatique
Ce que chaque stratégie d'analyse Big Data devrait avoir
Une stratégie bien définie, intégrée et complète contribue et soutient la prise de décision précieuse basée sur les données dans une organisation. Dans cette section, nous avons répertorié les étapes les plus critiques à prendre en compte lors de la définition d'une stratégie d'analyse Big Data.
Étape 1: Évaluation
Une évaluation, déjà alignée sur les objectifs de l'entreprise, nécessite d'impliquer les principales parties prenantes, de créer une équipe de membres avec le bon ensemble de compétences, d'évaluer les politiques, les personnes, les processus et les actifs technologiques et de données. Si nécessaire, on peut impliquer les clients des évalués dans ce processus.
Étape 2: Hiérarchisation
Après l'évaluation, il faut dériver des cas d'utilisation, les hiérarchiser à l'aide de l'analyse prédictive du Big Data, de l'analyse prescriptive et de l'analyse cognitive. Vous pouvez également utiliser un outil tel que la matrice de hiérarchisation et filtrer davantage les cas d'utilisation à l'aide des commentaires et des contributions des principales parties prenantes.
Étape 3: RoadMap
Dans cette étape, il est nécessaire de créer une feuille de route limitée dans le temps et de la publier pour tout le monde. Une feuille de route doit inclure tous les détails concernant les complexités, les fonds, les avantages inhérents aux cas d'utilisation et les projets cartographiés.
Étape 4: Gestion du changement
La mise en œuvre de la gestion du changement nécessite de gérer la disponibilité, l'intégrité, la sécurité et la convivialité des données. Un programme de gestion du changement efficace, utilisant toute gouvernance de données existante, encourage les activités et les membres sur la base d'une surveillance continue.
Étape 5: Ensemble de compétences approprié
Identifier le bon ensemble de compétences est essentiel au succès de l’organisation dans le contexte des tendances actuelles du secteur. Par conséquent, il faut suivre les bons leaders et mettre en place des programmes éducatifs pour éduquer les parties prenantes critiques.
Étape 6: Fiabilité, évolutivité et sécurité
La bonne approche et une stratégie d'analyse de Big Data efficace rendent le processus d'analyse fiable, avec une utilisation efficace de modèles interprétables impliquant les principes de la science des données. Une stratégie d'analyse de Big Data doit également inclure des aspects de sécurité dès le début pour un pipeline d'analyse robuste et étroitement intégré.
Pipeline de données et processus pour l'analyse des données
Lors de la planification du pipeline d'analyse de données, il y a trois aspects fondamentaux à prendre en compte. Ce sont les suivants:
- Saisir: Format de données et la sélection de la technologie à traiter, elle est basée sur la nature sous-jacente des données. si les données sont des séries chronologiques et de qualité.
- Production: Choix de connecteurs , les rapports et la visualisation dépendent de l'expertise technique des utilisateurs finaux et de leurs exigences en matière de consommation de données.
- Le volume: Solutions de mise à l'échelle sont planifiées en fonction du volume de données pour éviter une surcharge du système de traitement du big data.
Parlons maintenant d'un processus typique et des étapes d'un pipeline d'analyse Big Data.
Étape 1: Ingestion de données
L'ingestion de données est la première et la plus importante étape du pipeline de données. Il considère trois aspects des données.
- Source de données - Il est significatif en ce qui concerne le choix de l'architecture du pipeline Big Data.
- Structure des données - La sérialisation est la clé pour maintenir une structure homogène à travers le pipeline.
- Propreté des données - L'analyse est aussi bonne que les données sans problèmes tels que les valeurs manquantes et les valeurs aberrantes, etc.
Étape 2: ETL / Entreposage
Le module suivant important concerne les outils de stockage de données pour effectuer ETL (Extract Transform Load). Le stockage des données dans un centre de données approprié dépend de,
- Matériel
- Expertise en gestion
- Budget
(image la source )
Certains outils éprouvés pour l'ETL / l'entreposage dans les centres de données sont:
- Apache Hadoop
- Apache Hive
- Parquet Apache
- Moteur de requête Presto
Les entreprises du cloud telles que Google, AWS, Microsoft Azure fournissent ces outils sur une base de paiement par base et économisent les dépenses d'investissement initiales.
Étape 3: Analyse et visualisation
Compte tenu des limites de Hadoop en matière d'interrogation rapide, il faut utiliser des plates-formes et des outils d'analyse qui permettent des requêtes rapides et ad hoc avec la visualisation requise des résultats.
>> Lecture recommandée: Outils Big Data
Étape 4: surveillance
Après la mise en place d'une infrastructure d'ingestion, de stockage et d'analyse avec des outils de visualisation, l'étape suivante consiste à disposer d'outils informatiques et de surveillance des données à surveiller. Ceux-ci inclus:
- Utilisation du processeur ou du GPU
- Consommation de mémoire et de ressources
- Réseaux
Certains outils à considérer sont:
- Datadog
- Grafana
Les outils de surveillance sont indispensables dans un pipeline d'analyse de Big Data et aident à surveiller la qualité et l'intégrité du pipeline.
Architecture d'analyse Big Data
Le diagramme d'architecture ci-dessous montre comment les technologies modernes utilisent à la fois des sources de données non structurées et structurées pour le traitement Hadoop & Map-Reduce, les systèmes d'analyse en mémoire et l'analyse en temps réel pour apporter des résultats combinés pour les opérations et la prise de décision en temps réel.
(image la source )
Tendances actuelles de l'analyse des données
Dans cette section, nous avons répertorié les aspects essentiels à rechercher lors de la mise en œuvre ou du suivi des tendances de l'analyse de données volumineuses dans l'industrie.
# 1) Sources de Big Data
Il existe principalement trois sources de Big Data. Ceux-ci sont inscrits ci-dessous:
- Données sociales: Données générées en raison de l'utilisation des médias sociaux. Ces données aident à comprendre le sentiments et comportement des clients et peut être utile dans l'analyse marketing.
- Données de la machine: Ces données sont capturées à partir d'équipements industriels et d'applications utilisant des capteurs IoT. Cela aide à comprendre les gens comportement et fournit des informations sur processus .
- Données transactionnelles: Il est généré à la fois à la suite d'activités hors ligne et en ligne des utilisateurs concernant les ordres de paiement, les factures, les reçus, etc. La plupart de ce type de données a besoin pré traitement et nettoyage avant de pouvoir être utilisé pour l'analyse.
# 2) Stockage de données SQL / NoSQL
Comparées aux bases de données traditionnelles ou aux SGBDR, les bases de données NoSQL s'avèrent meilleures pour les tâches requises pour l'analyse de Big Data.
Les bases de données NoSQL peuvent intrinsèquement gérer assez bien les données non structurées et ne sont pas limitées aux modifications de schéma coûteuses, à la mise à l'échelle verticale et à l'interférence des propriétés ACID.
# 3) Analyse prédictive
Predictive Analytics offre des informations personnalisées qui amènent les organisations à générer de nouvelles réponses clients ou achats et des opportunités de vente croisée. Les organisations utilisent l'analyse prédictive pour faire des prédictions sur des éléments individuels à des niveaux granulaires afin de prédire les résultats futurs et d'éviter les problèmes potentiels. Ceci est en outre combiné avec des données historiques et transformé en analyse prescriptive.
Certains domaines dans lesquels l'analyse prédictive du Big Data a été utilisée avec succès sont les affaires, la protection de l'enfance, les systèmes d'aide à la décision clinique, la prédiction de portefeuille, les prédictions au niveau de l'économie et la souscription.
# 4) Apprentissage en profondeur
Les mégadonnées sont écrasantes pour l'informatique conventionnelle. Il s'avère que les techniques traditionnelles de machine learning d'analyse des données s'aplanissent en termes de performances avec l'augmentation de la variété et du volume des données.
L'analyse est confrontée à des défis en ce qui concerne les variations de format, les sources d'entrée hautement distribuées, les données d'entrée déséquilibrées et les données de diffusion en continu rapides, et les algorithmes d'apprentissage en profondeur traitent de manière assez efficace ces défis.
L'apprentissage en profondeur a trouvé son utilisation efficace dans l'indexation sémantique, la réalisation de tâches discriminantes, le marquage d'image sémantique et vidéo, le ciblage social, ainsi que dans les approches d'apprentissage hiérarchique à plusieurs niveaux dans les domaines de la reconnaissance d'objets, de l'étiquetage des données, de la recherche d'informations et du langage naturel. En traitement.
# 5) Lacs de données
Le stockage de différents ensembles de données dans différents systèmes et leur combinaison à des fins d'analyse avec des approches de gestion de données traditionnelles s'avèrent coûteux et pratiquement irréalisables. Par conséquent, les organisations créent des lacs de données, qui stockent les données dans leur format brut et natif pour des analyses exploitables.
L'image ci-dessous montre un exemple de lac de données dans l'architecture big-data.
(image la source )
Utilisations de Big Data Analytics
Nous avons répertorié ci-dessous quelques cas d'utilisation courants:
# 1) Analyse client
L'analyse de Big Data est utile à diverses fins, telles que le micro-marketing, le marketing individuel, une segmentation plus fine et une personnalisation de masse pour les clients d'une entreprise. Les entreprises peuvent créer des stratégies pour personnaliser leurs produits et services en fonction des propensions des clients à vendre ou à vendre une gamme similaire ou différente de produits et de services.
# 2) Analyse des opérations
L'analyse des opérations aide à améliorer la prise de décision globale et les résultats commerciaux en tirant parti des données existantes et en les enrichissant avec la machine et les données IoT.
Par exemple, l'analyse des mégadonnées dans le secteur de la santé a permis de faire face aux défis et aux nouvelles opportunités liés à l'optimisation des dépenses de santé, à l'amélioration du suivi des essais cliniques, à la prédiction et à la planification des réponses aux épidémies de maladies telles que le COVID-19.
# 3) Prévention de la fraude
L'analyse des mégadonnées est considérée comme ayant le potentiel de fournir un avantage considérable en aidant à anticiper et à réduire les tentatives de fraude, principalement dans les secteurs de la finance et des assurances.
Par exemple, Les compagnies d'assurance capturent des données en temps réel sur la démographie, les revenus, les réclamations médicales, les frais d'avocat, la météo, les enregistrements vocaux d'un client et les notes du centre d'appels. Des détails spécifiques en temps réel aident à dériver des modèles prédictifs en combinant les informations mentionnées ci-dessus avec des données historiques pour identifier précocement les réclamations frauduleuses spéculées.
# 4) Optimisation des prix
Les entreprises utilisent l'analyse Big Data pour augmenter leurs marges bénéficiaires en trouvant le meilleur prix au niveau du produit, et non au niveau de la catégorie. Les grandes entreprises trouvent trop compliqué d'obtenir les détails granulaires et la complexité des variables de tarification, qui changent régulièrement pour des milliers de produits.
Une stratégie d'optimisation des prix basée sur l'analyse, telle que la notation dynamique des transactions, permet aux entreprises de fixer les prix des clusters de produits et de segments en fonction de leurs données et de leurs informations sur les niveaux des transactions individuelles afin de remporter des gains rapides auprès de clients exigeants.
Questions fréquemment posées
Q # 1) L'analyse de Big Data est-elle une bonne carrière?
Répondre: C'est une valeur ajoutée pour toute organisation, qui lui permet de prendre des décisions éclairées et lui donne un avantage sur ses concurrents. Un changement de carrière dans le Big Data augmente vos chances de devenir un décideur clé pour une organisation.
Q # 2) Pourquoi l'analyse du Big Data est-elle importante?
Répondre: Il aide les organisations à créer de nouvelles opportunités de croissance et de toutes nouvelles catégories de produits qui peuvent combiner et analyser les données du secteur. Ces entreprises disposent de nombreuses informations sur les produits et services, les acheteurs et les fournisseurs, les préférences des consommateurs qui peuvent être saisies et analysées.
Q # 3) Que faut-il pour l'analyse de Big Data?
Répondre: L'éventail de technologies qu'un bon analyste de Big Data doit connaître est énorme. Pour maîtriser l'analyse Big Data, il faut comprendre divers outils, logiciels, matériels et plates-formes. Par exemple, Les feuilles de calcul, les requêtes SQL, R / R Studio et Python sont quelques outils de base.
Au niveau de l'entreprise, des outils tels que MATLAB, SPSS, SAS et Congnos sont importants en plus de Linux, Hadoop, Java, Scala, Python, Spark, Hadoop et HIVE.
Questions objectives:
Q # 4) Laquelle des bases de données ci-dessous n'est pas une base de données NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Répondre: PostgreSQL
Q # 5) Cassandra est-il un NoSQL?
- Vrai
- Faux
Répondre: Vrai
Q # 6) Lequel des éléments suivants n'est pas la propriété de Hadoop?
quelle est la clé de sécurité sur un routeur sans fil
- Open source
- Basé sur Java
- Traitement distribué
- Temps réel
Répondre: Temps réel
Q # 7) Choisissez toutes les activités qui ne sont PAS réalisées par un Data Scientist.
- Créez des modèles de Machine Learning et améliorez leurs performances.
- Évaluation de modèles statistiques pour valider les analyses
- Résumer les analyses avancées à l'aide d'outils de visualisation de données
- Présentation des résultats de l'analyse technique aux équipes internes et aux clients métiers
Répondre: Présentation des résultats de l'analyse technique aux équipes internes et aux clients métiers
Lectures complémentaires = >> Différences clés entre Data Analyst et Data Scientist
Q # 8) Quelles activités sont effectuées par un analyste de données?
- Nettoyez et organisez les données brutes
- Trouver des tendances intéressantes dans les données
- créer des tableaux de bord et des visualisations pour une interprétation facile
- Tout ce qui précède
Répondre: Tout ce qui précède
Q # 9) Laquelle des opérations suivantes est effectuée par un ingénieur de données?
- Intégration de nouvelles sources de données au pipeline d'analyse de données existant
- Le développement d'API pour la consommation de données
- surveillance et test du système pour une performance continue
- Tout ce qui précède
Répondre: Tout ce qui précède
Q # 10) La séquence correcte du flux de données pour l'analyse est
- Sources de données, préparation de données, transformation de données, conception d'algorithmes, analyse de données
- Sources de données, transformation de données, conception d'algorithmes, préparation de données, analyse de données
- Sources de données, conception d'algorithmes, préparation de données, transformation de données, analyse de données
- Sources de données, préparation de données, conception d'algorithmes, transformation de données, analyse de données
Répondre: Sources de données, préparation de données, transformation de données, conception d'algorithmes, analyse de données
Q # 11) L'analyse des données est un processus linéaire.
- Vrai
- Faux
Répondre: Faux
Q # 12) L'analyse exploratoire n'est PAS
- Répondre questions d'analyse initiale des données en détail
- Identifier les problèmes avec l'ensemble de données
- Développer une esquisse d'une réponse à la question
- Déterminer si les données sont correctes pour répondre à une question
Répondre: Répondrequestions d'analyse initiale des données en détail
Q # 13) La question de prédiction est un autre nom donné à une question inférentielle.
- Vrai
- Faux
Répondre: Faux
Conclusion
Nous avons couvert les aspects les plus importants de l'analyse de Big Data. Nous avons expliqué les cas d'utilisation les plus courants et les tendances de l'industrie de l'analyse de données volumineuses pour en tirer le maximum d'avantages.
lecture recommandée
- Top 7 des MEILLEURES sociétés d'analyse de données en 2021 (Liste 2021 mise à jour)
- Top 15 des outils Big Data (Big Data Analytics Tools) en 2021
- 10 meilleurs outils d'analyse des données pour une gestion parfaite des données (2021 LIST)
- Top 10 des outils de science des données en 2021 pour éliminer la programmation
- Tutoriel Big Data pour les débutants | Qu'est-ce que le Big Data?
- Top 13 des meilleures entreprises Big Data de 2021
- 10 meilleurs outils de modélisation de données pour gérer des conceptions complexes
- 10+ meilleurs outils de gouvernance des données pour répondre à vos besoins en données en 2021