data mining process models
Ce didacticiel sur le processus d'exploration de données couvre les modèles d'exploration de données, les étapes et les défis liés au processus d'extraction de données:
Techniques d'exploration de données ont été expliqués en détail dans notre précédent tutoriel dans ce Formation complète à l'exploration de données pour tous . L'exploration de données est un domaine prometteur dans le monde de la science et de la technologie.
L'exploration de données, également connue sous le nom de découverte de connaissances dans les bases de données, consiste à découvrir des informations utiles à partir de grands volumes de données stockées dans des bases de données et des entrepôts de données. Cette analyse est faite pour les processus décisionnels dans les entreprises.
L'exploration de données est réalisée à l'aide de diverses techniques telles que le regroupement, l'association et l'analyse séquentielle des modèles et l'arbre de décision.
Ce que vous apprendrez:
- Qu'est-ce que l'exploration de données?
- Extraction de données en tant que processus
- Modèles d'exploration de données
- Étapes du processus d'exploration de données
- Processus d'exploration de données dans Oracle DBMS
- Processus d'exploration de données dans Datawarehouse
- Quelles sont les applications de l'extraction de données?
- Défis de l'exploration de données
- Conclusion
- lecture recommandée
Qu'est-ce que l'exploration de données?
L'exploration de données est un processus de découverte de modèles et de connaissances intéressants à partir de grandes quantités de données. Les sources de données peuvent inclure des bases de données, des entrepôts de données, le Web et d'autres référentiels d'informations ou des données qui sont diffusées dynamiquement dans le système.
Pourquoi les entreprises ont-elles besoin d'extraction de données?
Avec l'avènement du Big Data, l'exploration de données est devenue plus répandue. Les mégadonnées sont des ensembles de données extrêmement volumineux qui peuvent être analysés par des ordinateurs pour révéler certains modèles, associations et tendances qui peuvent être compris par les humains. Le Big Data contient des informations détaillées sur des types variés et des contenus variés.
Ainsi, avec cette quantité de données, de simples statistiques avec intervention manuelle ne fonctionneraient pas. Ce besoin est satisfait par le processus d'exploration de données. Cela conduit à passer de simples statistiques de données à des algorithmes d'exploration de données complexes.
Le processus d'exploration de données extraira les informations pertinentes des données brutes telles que les transactions, les photos, les vidéos, les fichiers plats et traitera automatiquement les informations pour générer des rapports utiles pour que les entreprises prennent des mesures.
Ainsi, le processus d'exploration de données est crucial pour que les entreprises prennent de meilleures décisions en découvrant les modèles et les tendances des données, en résumant les données et en retirant les informations pertinentes.
Extraction de données en tant que processus
Tout problème commercial examinera les données brutes pour construire un modèle qui décrira les informations et fera ressortir les rapports à utiliser par l'entreprise. La création d'un modèle à partir de sources de données et de formats de données est un processus itératif car les données brutes sont disponibles dans de nombreuses sources différentes et sous de nombreuses formes.
Les données augmentent de jour en jour, par conséquent, lorsqu'une nouvelle source de données est trouvée, elle peut modifier les résultats.
Vous trouverez ci-dessous les grandes lignes du processus.
(image la source )
Modèles d'exploration de données
De nombreuses industries telles que la fabrication, le marketing, la chimie et l'aérospatiale tirent parti de l'exploration de données. Ainsi, la demande de processus d'extraction de données standard et fiables augmente considérablement.
Les principaux modèles d'exploration de données comprennent:
# 1) Processus standard intersectoriel pour l'exploration de données (CRISP-DM)
CRISP-DM est un modèle d'exploration de données fiable composé de six phases. Il s'agit d'un processus cyclique qui fournit une approche structurée du processus d'exploration de données. Les six phases peuvent être mises en œuvre dans n'importe quel ordre, mais cela nécessiterait parfois un retour aux étapes précédentes et la répétition des actions.
comment faire des tests multi-navigateurs
Les six phases de CRISP-DM comprennent:
# 1) Compréhension commerciale: Dans cette étape, les objectifs des entreprises sont définis et les facteurs importants qui aideront à atteindre l'objectif sont découverts.
# 2) Compréhension des données: Cette étape collectera toutes les données et remplira les données dans l'outil (si vous utilisez un outil). Les données sont répertoriées avec leur source de données, leur emplacement, la manière dont elles sont acquises et en cas de problème rencontré. Les données sont visualisées et interrogées pour vérifier leur exhaustivité.
# 3) Préparation des données: Cette étape implique la sélection des données appropriées, le nettoyage, la construction d'attributs à partir des données, l'intégration des données de plusieurs bases de données.
# 4) Modélisation: La sélection de la technique d'exploration de données telle que l'arbre de décision, la génération de la conception de test pour évaluer le modèle sélectionné, la construction de modèles à partir de l'ensemble de données et l'évaluation du modèle construit avec des experts pour discuter du résultat sont effectuées dans cette étape.
# 5) Évaluation: Cette étape déterminera dans quelle mesure le modèle résultant répond aux exigences de l'entreprise. L'évaluation peut être effectuée en testant le modèle sur des applications réelles. Le modèle est examiné pour toutes les erreurs ou étapes qui doivent être répétées.
# 6) Déploiement: Au cours de cette étape, un plan de déploiement est élaboré, une stratégie pour surveiller et maintenir les résultats du modèle d'exploration de données pour vérifier son utilité est formée, des rapports finaux sont établis et un examen de l'ensemble du processus est effectué pour vérifier toute erreur et voir si une étape est répétée. .
(image la source )
# 2) SEMMA (échantillonner, explorer, modifier, modéliser, évaluer)
SEMMA est une autre méthodologie d'exploration de données développée par SAS Institute. L'acronyme SEMMA signifie échantillonner, explorer, modifier, modéliser, évaluer.
quel programme ouvrir le fichier eps
SEMMA facilite l'application de techniques statistiques et de visualisation exploratoires, sélectionne et transforme les variables prédites significatives, crée un modèle en utilisant les variables pour obtenir le résultat et vérifie sa précision. SEMMA est également animé par un cycle très itératif.
Étapes dans SEMMA
- Échantillon: Dans cette étape, un ensemble de données volumineux est extrait et un échantillon qui représente les données complètes est retiré. L'échantillonnage réduira les coûts de calcul et le temps de traitement.
- Explorer: Les données sont explorées pour toute valeur aberrante et anomalie pour une meilleure compréhension des données. Les données sont vérifiées visuellement pour découvrir les tendances et les regroupements.
- Modifier: Dans cette étape, la manipulation des données telles que le regroupement et le sous-regroupement est effectuée en gardant le focus sur le modèle à construire.
- Modèle: Sur la base des explorations et des modifications, les modèles qui expliquent les modèles dans les données sont construits.
- Évaluer: L'utilité et la fiabilité du modèle construit sont évaluées dans cette étape. Le test du modèle par rapport à des données réelles est effectué ici.
Les approches SEMMA et CRISP fonctionnent toutes deux pour le processus de découverte des connaissances. Une fois les modèles construits, ils sont déployés pour les entreprises et les travaux de recherche.
Étapes du processus d'exploration de données
Le processus d'exploration de données est divisé en deux parties, à savoir le prétraitement des données et l'exploration de données. Le prétraitement des données implique le nettoyage des données, l'intégration des données, la réduction des données et la transformation des données. La partie d'exploration de données effectue l'exploration de données, l'évaluation des modèles et la représentation des connaissances des données.
(image la source )
Pourquoi prétraitons-nous les données?
De nombreux facteurs déterminent l'utilité des données, comme l'exactitude, l'exhaustivité, la cohérence, l'actualité. Les données doivent être de qualité si elles répondent à la finalité prévue. Ainsi, le prétraitement est crucial dans le processus d'exploration de données. Les principales étapes du prétraitement des données sont expliquées ci-dessous.
# 1) Nettoyage des données
Le nettoyage des données est la première étape de l'exploration de données. Il est important que les données sales, si elles sont utilisées directement dans le minage, peuvent semer la confusion dans les procédures et produire des résultats inexacts.
Fondamentalement, cette étape implique la suppression des données bruyantes ou incomplètes de la collection. De nombreuses méthodes qui nettoient généralement les données par elles-mêmes sont disponibles mais elles ne sont pas robustes.
Cette étape effectue les travaux de nettoyage de routine en:
(i) Remplissez les données manquantes:
Les données manquantes peuvent être remplies par des méthodes telles que:
- Ignorer le tuple.
- Remplir manuellement la valeur manquante.
- Utilisez la mesure de la tendance centrale, médiane ou
- Remplir la valeur la plus probable.
(ii) Supprimer les données bruyantes: Une erreur aléatoire est appelée données bruyantes.
Les méthodes pour supprimer le bruit sont:
Binning: Les méthodes de regroupement sont appliquées en triant les valeurs dans des compartiments ou des compartiments. Le lissage est effectué en consultant les valeurs voisines.
Le binning se fait par lissage par bac c'est-à-dire que chaque bac est remplacé par la moyenne du bac. Lissage par une médiane, où chaque valeur de casier est remplacée par une médiane de casier. Lissage par les limites de casier, c'est-à-dire que les valeurs minimale et maximale dans le casier sont des limites de casier et chaque valeur de casier est remplacée par la valeur limite la plus proche.
- Identification des valeurs aberrantes
- Résolution des incohérences
# 2) Intégration de données
Lorsque plusieurs sources de données hétérogènes telles que des bases de données, des cubes de données ou des fichiers sont combinées pour l'analyse, ce processus est appelé intégration de données. Cela peut aider à améliorer la précision et la vitesse du processus d'exploration de données.
Différentes bases de données ont différentes conventions de dénomination des variables, en provoquant des redondances dans les bases de données. Un nettoyage supplémentaire des données peut être effectué pour supprimer les redondances et les incohérences de l'intégration des données sans affecter la fiabilité des données.
L'intégration de données peut être effectuée à l'aide d'outils de migration de données tels que Oracle Data Service Integrator et Microsoft SQL, etc.
comment devenir critique de jeux vidéo
# 3) Réduction des données
Cette technique est appliquée pour obtenir des données pertinentes pour l'analyse à partir de la collecte de données. La taille de la représentation est beaucoup plus petite en volume tout en conservant l'intégrité. La réduction des données est effectuée à l'aide de méthodes telles que Naive Bayes, arbres de décision, réseau neuronal, etc.
Certaines stratégies de réduction des données sont:
- Réduction de dimensionnalité: Réduire le nombre d'attributs dans l'ensemble de données.
- Réduction de la numérosité: Remplacement du volume de données d'origine par des formes plus petites de représentation des données.
- Compression des données: Représentation compressée des données d'origine.
# 4) Transformation des données
Dans ce processus, les données sont transformées en une forme adaptée au processus d'exploration de données. Les données sont consolidées afin que le processus d'extraction soit plus efficace et les modèles plus faciles à comprendre. La transformation des données implique un mappage de données et un processus de génération de code.
Les stratégies de transformation des données sont:
- Lissage: Suppression du bruit des données à l'aide du clustering, des techniques de régression, etc.
- Agrégation: Les opérations récapitulatives sont appliquées aux données.
- Normalisation: Mise à l'échelle des données pour qu'elles tombent dans une plage plus petite.
- Discrétisation: Les valeurs brutes des données numériques sont remplacées par des intervalles. Par exemple, Âge.
# 5) Exploration de données
L'exploration de données est un processus permettant d'identifier des modèles et des connaissances intéressants à partir d'une grande quantité de données. Dans ces étapes, des modèles intelligents sont appliqués pour extraire les modèles de données. Les données sont représentées sous forme de modèles et les modèles sont structurés à l'aide de techniques de classification et de regroupement.
# 6) Évaluation de modèle
Cette étape consiste à identifier des modèles intéressants représentant les connaissances sur la base de mesures d'intérêt. Des méthodes de synthèse et de visualisation des données sont utilisées pour rendre les données compréhensibles par l'utilisateur.
# 7) Représentation des connaissances
La représentation des connaissances est une étape où des outils de visualisation des données et de représentation des connaissances sont utilisés pour représenter les données extraites. Les données sont visualisées sous forme de rapports, de tableaux, etc.
Processus d'exploration de données dans Oracle DBMS
Le SGBDR représente les données sous forme de tableaux avec des lignes et des colonnes. Les données sont accessibles en écrivant des requêtes de base de données.
Les systèmes de gestion de base de données relationnelle tels qu'Oracle prennent en charge l'exploration de données à l'aide de CRISP-DM. Les fonctionnalités de la base de données Oracle sont utiles pour la préparation et la compréhension des données. Oracle prend en charge l'exploration de données via l'interface Java, l'interface PL / SQL, l'exploration de données automatisée, les fonctions SQL et les interfaces utilisateur graphiques.
Processus d'exploration de données dans Datawarehouse
Un entrepôt de données est modélisé pour une structure de données multidimensionnelle appelée cube de données. Chaque cellule d'un cube de données stocke la valeur de certaines mesures agrégées.
Exploration de données dans un espace multidimensionnel réalisé en style OLAP (Online Analytical Processing) où elle permet l'exploration de multiples combinaisons de dimensions à différents niveaux de granularité.
Quelles sont les applications de l'extraction de données?
La liste des domaines dans lesquels l'exploration de données est largement utilisée comprend:
# 1) Analyse des données financières: L'exploration de données est largement utilisée dans les services bancaires, d'investissement, de crédit, d'hypothèque, de prêts automobiles et d'assurance et d'investissement en actions. Les données recueillies à partir de ces sources sont complètes, fiables et de grande qualité. Cela facilite l'analyse systématique des données et l'exploration de données.
# 2) Industries du commerce de détail et des télécommunications: Le secteur du commerce de détail recueille d'énormes quantités de données sur les ventes, l'historique des achats des clients, le transport des marchandises, la consommation et le service. L'exploration de données au détail aide à identifier les comportements d'achat des clients, les modèles d'achat et les tendances des clients, à améliorer la qualité du service client, à mieux fidéliser et à satisfaire les clients.
# 3) Science et ingénierie: L'informatique et l'ingénierie d'exploration de données peuvent aider à surveiller l'état du système, à améliorer les performances du système, à isoler les bogues logiciels, à détecter le plagiat logiciel et à reconnaître les dysfonctionnements du système.
# 4) Détection et prévention des intrusions: L'intrusion est définie comme tout ensemble d'actions qui menacent l'intégrité, la confidentialité ou la disponibilité des ressources du réseau. Les méthodes d'exploration de données peuvent aider le système de détection et de prévention des intrusions à améliorer ses performances.
# 5) Systèmes de recommandation: Les systèmes de recommandation aident les consommateurs en formulant des recommandations de produits qui intéressent les utilisateurs.
Défis de l'exploration de données
Vous trouverez ci-dessous les différents défis liés à l'exploration de données.
- L'exploration de données nécessite de grandes bases de données et une collecte de données difficiles à gérer.
- Le processus d'exploration de données nécessite des experts du domaine qui sont encore une fois difficiles à trouver.
- L'intégration à partir de bases de données hétérogènes est un processus complexe.
- Les pratiques au niveau organisationnel doivent être modifiées pour utiliser les résultats de l'exploration de données. La restructuration du processus nécessite des efforts et des coûts.
Conclusion
L'exploration de données est un processus itératif dans lequel le processus d'extraction peut être affiné et de nouvelles données peuvent être intégrées pour obtenir des résultats plus efficaces. L'exploration de données répond à l'exigence d'une analyse de données efficace, évolutive et flexible.
Il peut être considéré comme une évaluation naturelle de la technologie de l'information. En tant que processus de découverte des connaissances, les tâches de préparation des données et d'exploration de données complètent le processus d'exploration de données.
Les processus d'exploration de données peuvent être exécutés sur n'importe quel type de données telles que les données de base de données et les bases de données avancées telles que les séries chronologiques, etc. Le processus d'exploration de données comporte également ses propres défis.
Restez à l'écoute de notre prochain tutoriel pour en savoir plus sur les exemples d'exploration de données !!
Tutoriel PREV | Tutoriel SUIVANT
lecture recommandée
- Exploration de données: processus, techniques et problèmes majeurs dans l'analyse des données
- Techniques d'exploration de données: algorithmes, méthodes et principaux outils d'exploration de données
- 10 meilleurs outils de mappage de données utiles dans le processus ETL (2021 LIST)
- Top 10 des outils de conception de base de données pour créer des modèles de données complexes
- Exploration de données Vs Machine Learning Vs Intelligence Artificielle Vs Deep Learning
- Top 15 des meilleurs outils d'exploration de données gratuits: la liste la plus complète
- Concept, processus et stratégie de gestion des données de test
- Paramétrage des données JMeter à l'aide de variables définies par l'utilisateur