data mining process
Ce didacticiel approfondi sur l'exploration de données explique ce qu'est l'exploration de données, y compris les processus et techniques utilisés pour l'analyse des données:
Comprenons le sens du terme exploitation minière en prenant l'exemple de l'extraction de l'or à partir de roches, que l'on appelle extraction aurifère. Ici, la chose utile est «l'or», d'où le nom d'extraction d'or.
De même, l'extraction d'informations utiles à partir d'une grande quantité de données est appelée exploration de connaissances et est communément appelée exploration de données. Par le terme information utile, nous désignons les données qui peuvent nous aider à prédire une sortie.
Par exemple, trouver les tendances d'achat d'une chose particulière (disons le fer) par un groupe d'âge particulier ( Exemple: 40-70 ans).
=>DÉFILER VERS LE BASpour voir la liste complète des 7 didacticiels détaillés sur l'exploration de données pour les débutants
Ce que vous apprendrez:
quel est un bon téléchargeur de musique pour Android
- Liste des didacticiels d'exploration de données
- Présentation des didacticiels de cette série d'exploration de données
- Qu'est-ce que l'exploration de données?
- Quels types de données peuvent être exploités?
- Quelles techniques sont utilisées dans l'exploration de données?
- Principaux problèmes liés à l'analyse des données
- Conclusion
Liste des didacticiels d'exploration de données
Tutoriel n ° 1: Exploration de données: processus, techniques et problèmes majeurs dans l'analyse des données (Ce tutoriel)
Tutoriel n ° 2: Techniques d'exploration de données: algorithmes, méthodes et principaux outils d'exploration de données
Tutoriel n ° 3: Processus d'exploration de données: modèles, étapes de processus et défis impliqués
Tutoriel n ° 4: Exemples d'exploration de données: applications les plus courantes de l'exploration de données 2019
Tutoriel n ° 5: Exemples d'algorithmes d'arbre de décision dans l'exploration de données
Tutoriel n ° 6: Algorithme Apriori dans l'exploration de données: mise en œuvre avec des exemples
Tutoriel n ° 7: Algorithme de croissance de modèle fréquent (FP) dans l'exploration de données
Présentation des didacticiels de cette série d'exploration de données
Didacticiel # | Ce que vous apprendrez |
---|---|
Tutoriel_ # 7: | Algorithme de croissance de modèle fréquent (FP) dans l'exploration de données Il s'agit d'un didacticiel détaillé sur l'algorithme de croissance fréquente des modèles qui représente la base de données sous la forme d'un arbre FP. La comparaison FP Growth Vs Apriori est également expliquée ici. |
Tutoriel_ # 1: | Exploration de données: processus, techniques et problèmes majeurs dans l'analyse des données Ce didacticiel approfondi sur l'exploration de données explique ce qu'est l'exploration de données, y compris les processus et techniques utilisés pour l'analyse des données. |
Tutoriel_ # 2: | Techniques d'exploration de données: algorithmes, méthodes et principaux outils d'exploration de données Ce didacticiel sur les techniques d'exploration de données explique les algorithmes, les outils d'exploration de données et les méthodes d'extraction de données utiles. |
Tutoriel_ # 3: | Processus d'exploration de données: modèles, étapes de processus et défis impliqués Ce didacticiel sur le processus d'exploration de données couvre les modèles d'exploration de données, les étapes et les défis liés au processus d'extraction de données. |
Tutoriel_ # 4: | Exemples d'exploration de données: applications les plus courantes de l'exploration de données 2019 Les exemples les plus populaires d'exploration de données dans la vie réelle sont traités dans ce didacticiel. Vous en saurez plus sur l'application d'exploration de données dans les domaines de la finance, du marketing, de la santé et du CRM. |
Tutoriel_ # 5: | Exemples d'algorithmes d'arbre de décision dans l'exploration de données Ce didacticiel détaillé explique tout sur l'algorithme d'arbre de décision dans l'exploration de données. Vous découvrirez les exemples d'arbres de décision, l'algorithme et la classification. |
Tutoriel_ # 6: | Algorithme Apriori dans l'exploration de données: mise en œuvre avec des exemples Ceci est un didacticiel simple sur l'algorithme Apriori pour découvrir les ensembles d'éléments fréquents dans l'exploration de données. Vous apprendrez également à connaître les étapes d'Apriori et à comprendre comment cela fonctionne. |
Qu'est-ce que l'exploration de données?
L'exploration de données est aujourd'hui très demandée car elle aide les entreprises à étudier comment les ventes de leurs produits peuvent augmenter. On peut comprendre cela par un exemple de boutique de mode, qui enregistrera chacun de ses clients qui achète un article dans leur boutique.
Sur la base des données fournies par le client telles que l'âge, le sexe, la tranche de revenu, la profession, etc., le magasin pourra découvrir quel type de clients achètent différents produits. Ici, nous pouvons voir que le nom du client n'est d'aucune utilité car nous ne pouvons pas prédire la tendance des achats par nom quant à savoir si cette personne achètera un certain produit ou non.
Ainsi, les informations utiles peuvent être trouvées en utilisant le groupe d'âge, le sexe, le groupe de revenu, la profession, etc. La recherche de connaissances ou de modèles intéressants dans les données est le «Data Mining». D'autres termes qui peuvent être utilisés en place sont l'exploration de connaissances à partir de données, l'extraction de connaissances, l'analyse de données, l'analyse de modèles, etc.
Un autre terme couramment utilisé dans l'exploration de données est la découverte de connaissances à partir de données ou KDD.
Processus d'analyse des données
Le processus de découverte des connaissances est une séquence des étapes suivantes:
- Nettoyage des données: Cette étape supprime le bruit et les données incohérentes des données d'entrée.
- Intégration de données: Cette étape combine plusieurs sources de données. Le nettoyage des données et l'intégration des données s'unissent pour former le prétraitement des données. Les données prétraitées sont ensuite stockées dans l'entrepôt de données.
- Sélection des données: Ces étapes sélectionnent les données de la tâche d'analyse dans la base de données.
- Transformation des données: Dans cette étape, diverses techniques d'agrégation de données et de résumé des données sont appliquées pour transformer les données en une forme utile pour l'exploration.
- Exploration de données: Dans cette étape, les modèles de données sont extraits en appliquant des méthodes intelligentes.
- Évaluation du modèle: Les modèles de données extraits sont évalués et reconnus en fonction des mesures d'intérêt.
- Représentation des connaissances: Des techniques de visualisation et de représentation des connaissances sont utilisées pour présenter les connaissances extraites aux utilisateurs.
Les étapes 1 à 4 relèvent de l'étape de prétraitement des données. Ici, l'exploration de données est représentée comme une seule étape mais elle fait référence à l'ensemble du processus de découverte des connaissances.
Ainsi, nous pouvons dire que l'analyse des données est le processus de découverte de modèles et de connaissances intéressants à partir d'une grande quantité de données. Les sources de données peuvent inclure des bases de données, des entrepôts de données, le World Wide Web, des fichiers plats et d'autres fichiers informatifs.
Quels types de données peuvent être exploités?
Les formes de données les plus élémentaires pour l'extraction sont les données de base de données, les données d'entrepôt de données et les données transactionnelles. Les techniques d'exploration de données peuvent également être appliquées à d'autres formes telles que les flux de données, les données séquencées, les données textuelles et les données spatiales.
# 1) Données de base de données: Le système de gestion de base de données est un ensemble de données interdépendantes et un ensemble de programmes logiciels pour gérer et accéder aux données. Le système de base de données relationnelle est une collection de tables et chaque table se compose d'un ensemble d'attributs et de tuples.
L'exploration de bases de données relationnelles recherche les tendances et les modèles de données Par exemple . risque de crédit des clients en fonction de l'âge, du revenu et du risque de crédit antérieur. En outre, l'exploitation minière peut découvrir les écarts par rapport aux Par exemple. une augmentation significative du prix d'un article.
# 2) Données de l'entrepôt de données: Un entrepôt de données est une collection d'informations collectées à partir de plusieurs sources de données, stockées sous un schéma unifié sur un seul site. Un DW est modélisé comme une structure de données multidimensionnelle appelée cube de données ayant des cellules et des dimensions permettant un précalcul et un accès plus rapide aux données.
L'exploration de données est effectuée dans un style OLAP en combinant les dimensions à différents niveaux de granularité.
# 3) Données transactionnelles: Transactional Data capture une transaction. Il a un identifiant de transaction et une liste d'éléments utilisés dans la transaction.
# 4) Autres types de données: D'autres données peuvent inclure: des données temporelles, des données spatiales, des données hypertextes et des données multimédias.
Quelles techniques sont utilisées dans l'exploration de données?
L'exploration de données est un domaine hautement axé sur les applications. De nombreuses techniques telles que les statistiques, l'apprentissage automatique, la reconnaissance de formes, la recherche d'informations, la visualisation, etc., influencent le développement des méthodes d'analyse des données.
qa testing questions et réponses d'entrevue
Discutons-en quelques-uns ici !!
Statistiques
L'étude de la collecte, de l'analyse, de l'interprétation et de la présentation des données peut être réalisée à l'aide de modèles statistiques. Par exemple , les statistiques peuvent être utilisées pour modéliser le bruit et les données manquantes, puis ce modèle peut être utilisé dans un grand ensemble de données pour identifier le bruit et les valeurs manquantes dans les données.
Apprentissage automatique
Le ML est utilisé pour améliorer les performances en fonction des données. Le principal domaine de recherche est que les programmes informatiques apprennent automatiquement à reconnaître des modèles complexes et à prendre des décisions intelligentes basées sur les données.
L'apprentissage automatique se concentre sur la précision et l'exploration de données se concentre sur l'efficacité et l'évolutivité des méthodes d'exploration de données sur le grand ensemble de données, les données complexes, etc.
L'apprentissage automatique est de trois types:
- Enseignement supervisé: L'ensemble de données cible est connu et la machine est entraînée en fonction des valeurs cibles.
- Apprentissage non supervisé: Les valeurs cibles ne sont pas connues et les machines apprennent par elles-mêmes.
- Apprentissage semi-supervisé: Il utilise à la fois les techniques d'apprentissage supervisé et non supervisé.
Recherche d'informations (IR)
C'est la science de la recherche de documents ou d'informations dans les documents.
Il utilise deux principes:
- Les données à rechercher ne sont pas structurées.
- Les requêtes sont constituées principalement de mots-clés.
En utilisant l'analyse des données et l'IR, nous pouvons trouver des sujets majeurs dans la collection de documents ainsi que les principaux sujets impliqués dans chaque document.
Principaux problèmes liés à l'analyse des données
L'exploration de données a un certain nombre de problèmes qui y sont liés, comme indiqué ci-dessous:
Méthodologie minière
- Comme il existe diverses applications, de nouvelles tâches minières continuent d'émerger. Ces tâches peuvent utiliser la même base de données de différentes manières et nécessitent le développement de nouvelles techniques d'exploration de données.
- Lors de la recherche de connaissances dans de grands ensembles de données, nous devons explorer l'espace multidimensionnel. Pour trouver des motifs intéressants, diverses combinaisons de dimensions doivent être appliquées.
- Des données incertaines, bruyantes et incomplètes peuvent parfois conduire à une dérivation erronée.
Interaction de l'utilisateur
- Le processus d'analyse des données doit être hautement interactif. Il est important pour faciliter le processus d'extraction d'être interactif avec l'utilisateur.
- Les connaissances du domaine, les connaissances de base, les contraintes, etc., devraient toutes être incorporées dans le processus d'exploration de données.
- Les connaissances découvertes en exploitant les données devraient être utilisables pour les humains. Le système doit adopter une représentation expressive des connaissances, des techniques de visualisation conviviales, etc.
Efficacité et évolutivité
- Les algorithmes d'exploration de données doivent être efficaces et évolutifs pour extraire efficacement des données intéressantes à partir d'une énorme quantité de données dans les référentiels de données.
- Une large distribution des données et la complexité du calcul motivent le développement d'algorithmes parallèles et distribués à forte intensité de données.
Diversité des types de bases de données
- La construction d'outils d'analyse de données efficaces et efficients pour diverses applications, un large éventail de types de données à partir de données non structurées, de données temporelles, d'hypertexte, de données multimédias et de code de programme logiciel reste un domaine de recherche difficile et actif.
Impact social
- La divulgation pour utiliser les données et la violation potentielle de la vie privée individuelle et de la protection des droits sont les domaines de préoccupation qui doivent être abordés.
Conclusion
L'exploration de données aide à la prise de décision et à l'analyse d'une grande quantité de données. De nos jours, c'est la technique commerciale la plus courante. Il permet une analyse automatique des données et identifie les tendances et les comportements populaires.
L'analyse des données peut être combinée avec l'apprentissage automatique, les statistiques, l'intelligence artificielle, etc., pour une analyse avancée des données et une étude du comportement.
L'exploration de données doit être appliquée en tenant compte de divers facteurs tels que le coût d'extraction d'informations et de modèles à partir de bases de données (des algorithmes complexes nécessitant des ressources d'experts doivent être appliqués), le type d'informations (car les données historiques peuvent ne pas être identiques à ce qu'elles sont. actuellement, l'analyse ne sera donc pas utile).
Nous espérons que ce tutoriel enrichi votre connaissance du concept de Data Mining !!
lecture recommandée
- 10 meilleurs outils d'analyse de données pour une gestion parfaite des données (2021 LIST)
- Exploration de données Vs Machine Learning Vs Intelligence Artificielle Vs Deep Learning
- 10 meilleurs outils de mappage de données utiles dans le processus ETL (2021 LIST)
- Qu'est-ce que les données de test? Techniques de préparation des données de test avec exemple
- Paramétrage des données JMeter à l'aide de variables définies par l'utilisateur
- Top 15 des meilleurs outils d'exploration de données gratuits: la liste la plus complète
- 10+ meilleurs outils de collecte de données avec des stratégies de collecte de données
- Fonction de pool de données dans IBM Rational Quality Manager for Test Data Management