weka explorer visualization
Ce didacticiel explique comment effectuer la visualisation des données, l'analyse de cluster K-means et l'exploration de règles d'association à l'aide de WEKA Explorer:
dans le Tutoriel précédent , nous avons découvert le jeu de données WEKA, le classificateur et l'algorithme J48 pour l'arbre de décision.
Comme nous l'avons vu précédemment, WEKA est un outil d'exploration de données open source utilisé par de nombreux chercheurs et étudiants pour effectuer de nombreuses tâches d'apprentissage automatique. Les utilisateurs peuvent également créer leurs méthodes d'apprentissage automatique et effectuer des expériences sur des exemples de jeux de données fournis dans l'annuaire WEKA.
La visualisation des données dans WEKA peut être effectuée à l'aide d'exemples de jeux de données ou de jeux de données créés par l'utilisateur au format .arff, .csv.
=> Lisez la série complète de formations sur l'apprentissage automatique
L'exploration des règles d'association est effectuée à l'aide de l'algorithme Apriori. C'est le seul algorithme fourni par WEKA pour effectuer fréquemment des explorations de motifs.
Il existe de nombreux algorithmes présents dans WEKA pour effectuer une analyse de cluster tels que FartherestFirst, FilteredCluster et HierachicalCluster, etc. Parmi ceux-ci, nous utiliserons SimpleKmeans, qui est la méthode la plus simple de clustering.
Ce que vous apprendrez:
- Exploration de règles d'association à l'aide de WEKA Explorer
- Algorithme K-means utilisant WEKA Explorer
- Mettre en œuvre la visualisation des données à l'aide de WEKA
- Conclusion
Exploration de règles d'association à l'aide de WEKA Explorer
Voyons comment implémenter le minage de règles d'association à l'aide de WEKA Explorer.
Exploration des règles d'association
Il est développé et conçu par Srikant et Aggarwal en 1994. Il nous aide à trouver des modèles dans les données. Il s'agit d'un processus d'exploration de données qui recherche des caractéristiques qui se produisent ensemble ou des caractéristiques qui sont corrélées.
logiciel gratuit pour corriger les erreurs de registre
Les applications des règles d'association comprennent l'analyse du panier de consommation, pour analyser les articles achetés dans un seul panier; Marketing croisé, pour travailler avec d'autres entreprises qui augmentent la valeur de nos produits commerciaux tels que le concessionnaire automobile et la société pétrolière.
Les règles d'association sont extraites après la découverte d'ensembles d'éléments fréquents dans un grand ensemble de données. Ces ensembles de données sont découverts à l'aide d'algorithmes de minage tels que Apriori et FP Growth. L'exploitation minière fréquente de Itemset extrait les données à l'aide de mesures de soutien et de confiance.
Soutien et confiance
Soutien mesure la probabilité que deux articles soient achetés ensemble en une seule transaction, comme le pain et le beurre. Confiance est une mesure qui indique la probabilité que deux articles soient achetés l'un après l'autre mais pas ensemble, comme un ordinateur portable et un logiciel antivirus.
La prise en charge du seuil minimum et les valeurs de seuil minimum de confiance sont supposées élaguer les transactions et découvrir l'ensemble d'éléments le plus fréquemment rencontré.
Implémentation à l'aide de WEKA Explorer
WEKA contient une implémentation du Algorithme Apriori pour apprendre les règles d'association. Apriori ne fonctionne qu'avec des attributs binaires, des données catégoriques (données nominales) donc, si l'ensemble de données contient des valeurs numériques, convertissez-les d'abord en valeurs nominales.
Apriori découvre toutes les règles avec un support minimum et un seuil de confiance.
Suivez les étapes ci-dessous:
#1) Préparez un ensemble de données de fichier Excel et nommez-le comme ' apriori.csv '.
#deux) Ouvrez WEKA Explorer et sous l'onglet Preprocess, choisissez le fichier «apriori.csv».
# 3) Le fichier est maintenant chargé dans l'explorateur WEKA.
# 4) Supprimez le champ Transaction en cochant la case et en cliquant sur Supprimer comme indiqué dans l'image ci-dessous. Enregistrez maintenant le fichier sous «aprioritest.arff».
# 5) Accédez à l'onglet Associer. Les règles apriori peuvent être exploitées à partir d'ici.
# 6) Cliquez sur Choisir pour définir les paramètres de support et de confiance. Les différents paramètres qui peuvent être définis ici sont:
- ' lowerBoundMinSupport ' et ' upperBoundMinSupport », C'est l'intervalle de niveau de support dans lequel notre algorithme fonctionnera.
- Delta est l'incrément du support. Dans ce cas, 0,05 est l'incrément de support de 0,1 à 1.
- metricType peut être «Confiance», «Lift», «Levier» et «Conviction». Cela nous indique comment nous classons les règles d'association. Généralement, la confiance est choisie.
- numRules indique le nombre de règles d'association à exploiter. Par défaut, il est défini sur 10.
- niveau de signification illustre la signification du niveau de confiance.
# 7) La zone de texte à côté du bouton de sélection affiche le ' Apriori-N-10-T-0-C-0.9-D 0.05-U1.0-M0.1-S-1.0-c-1 », Qui décrit les règles récapitulatives définies pour l'algorithme dans l'onglet Paramètres.
# 8) Cliquez sur le bouton Démarrer. Les règles d'association sont générées dans le panneau de droite. Ce panneau se compose de 2 sections. Le premier est l'algorithme, l'ensemble de données choisi pour s'exécuter. La deuxième partie montre les informations Apriori.
Laissez-nous comprendre les informations d'exécution dans le panneau de droite:
- Scheme nous a utilisés Apriori.
- Instances et attributs: il a 6 instances et 4 attributs.
- Le support minimum et la confiance minimum sont respectivement de 0,4 et 0,9. Sur 6 instances, 2 instances sont trouvées avec un support minimum,
- Le nombre de cycles effectués pour la règle d'association minière est de 12.
- Les grands ensembles d'éléments générés sont 3: L (1), L (2), L (3) mais ils ne sont pas classés car leurs tailles sont respectivement 7, 11 et 5.
- Les règles trouvées sont classées. L'interprétation de ces règles est la suivante:
- Beurre T 4 => Bière F 4: signifie sur 6, 4 instances montrent que pour le beurre vrai, la bière est fausse. Cela donne une forte association. Le niveau de confiance est de 0,1.
Production
Les règles d'association peuvent être extraites à l'aide de WEKA Explorer avec l'algorithme Apriori. Cet algorithme peut être appliqué à tous les types d'ensembles de données disponibles dans l'annuaire WEKA ainsi qu'à d'autres ensembles de données créés par l'utilisateur. Le support et la confiance et d'autres paramètres peuvent être définis à l'aide de la fenêtre de réglage de l'algorithme.
Algorithme K-means utilisant WEKA Explorer
Voyons comment implémenter l'algorithme K-means pour le clustering à l'aide de WEKA Explorer.
Qu'est-ce que l'analyse de cluster
Les algorithmes de clustering sont des algorithmes d'apprentissage non supervisés utilisés pour créer des groupes de données avec des caractéristiques similaires. Il agrège les objets présentant des similitudes en groupes et sous-groupes conduisant ainsi au partitionnement des ensembles de données. L'analyse de cluster est le processus de partitionnement des ensembles de données en sous-ensembles. Ces sous-ensembles sont appelés clusters et l'ensemble des clusters est appelé clustering.
L'analyse de cluster est utilisée dans de nombreuses applications telles que la reconnaissance d'image, la reconnaissance de formes, la recherche sur le Web et la sécurité, dans l'intelligence d'affaires comme le regroupement de clients ayant des goûts similaires.
Qu'est-ce que le clustering K-means
K signifie que le clustering est l'algorithme de clustering le plus simple. Dans l'algorithme K-Clustering, l'ensemble de données est partitionné en K-clusters. Une fonction objectif est utilisée pour trouver la qualité des partitions afin que des objets similaires soient dans un cluster et des objets différents dans d'autres groupes.
Dans cette méthode, le centroïde d'un cluster représente un cluster. Le centroïde est considéré comme le centre du cluster qui est calculé comme la valeur moyenne des points dans le cluster. Maintenant, la qualité de l'agrégation est trouvée en mesurant la distance euclidienne entre le point et le centre. Cette distance doit être maximale.
Comment fonctionne l'algorithme de clustering K-Mean
Étape 1: Choisissez une valeur de K où K est le nombre de clusters.
Étape 2: Itérez chaque point et attribuez le cluster qui a le centre le plus proche. Lorsque chaque élément est itéré, calculez le centre de gravité de tous les clusters.
Étape 3: Itérez chaque élément de l'ensemble de données et calculez la distance euclidienne entre le point et le centre de gravité de chaque cluster. Si un point est présent dans le cluster qui n'est pas le plus proche, réaffectez ce point au cluster le plus proche et après avoir effectué cette opération à tous les points de l'ensemble de données, calculez à nouveau le centre de gravité de chaque cluster.
Étape 4: Exécutez l'étape 3 jusqu'à ce qu'aucune nouvelle affectation n'ait eu lieu entre les deux itérations consécutives.
Implémentation de clustering K-means avec WEKA
Les étapes de mise en œuvre à l'aide de Weka sont les suivantes:
#1) Ouvrez WEKA Explorer et cliquez sur Open File dans l'onglet Preprocess. Choisissez l'ensemble de données «vote.arff».
#deux) Allez dans l'onglet «Cluster» et cliquez sur le bouton «Choisir». Sélectionnez la méthode de clustering comme «SimpleKMeans».
# 3) Choisissez Paramètres, puis définissez les champs suivants:
- Fonction de distance comme euclidienne
- Le nombre de clusters est égal à 6. Avec plus de nombre de clusters, la somme de l'erreur quadratique diminuera.
- Graine comme 10. de
Cliquez sur Ok et démarrez l'algorithme.
# 4) Cliquez sur Démarrer dans le panneau de gauche. L'algorithme affiche les résultats sur l'écran blanc. Analysons les informations de course:
- Le schéma, la relation, les instances et les attributs décrivent la propriété de l'ensemble de données et la méthode de clustering utilisée. Dans ce cas, l'ensemble de données vote.arff a 435 instances et 13 attributs.
- Avec le cluster Kmeans, le nombre d'itérations est de 5.
- La somme de l'erreur quadratique est de 1098,0. Cette erreur diminuera avec une augmentation du nombre de clusters.
- Les 5 clusters finaux avec centroïdes sont représentés sous forme de tableau. Dans notre cas, les centroïdes des clusters sont 168.0, 47.0, 37.0, 122.0.33.0 et 28.0.
- Les instances en cluster représentent le nombre et le pourcentage du nombre total d'instances appartenant au cluster.
# 5) Choisissez «Classes to Clusters Évaluations» et cliquez sur Start.
L'algorithme attribuera l'étiquette de classe au cluster. Le cluster 0 représente républicain et le cluster 3 représente démocrate. L'instance mal clusterisée est de 39,77%, ce qui peut être réduit en ignorant les attributs sans importance.
# 6) Pour ignorer les attributs sans importance. Cliquez sur le bouton «Ignorer les attributs» et sélectionnez les attributs à supprimer.
# 7) Utilisez l'onglet «Visualiser» pour visualiser le résultat de l'algorithme de clustering. Allez dans l'onglet et cliquez sur n'importe quelle case. Déplacez le Jitter au maximum.
- L'axe X et l'axe Y représentent l'attribut.
- La couleur bleue représente l'étiquette de classe démocrate et la couleur rouge représente l'étiquette de classe républicaine.
- Jitter est utilisé pour afficher les clusters.
- Cliquez sur la case sur le côté droit de la fenêtre pour modifier l'attribut de coordonnée x et afficher le regroupement par rapport aux autres attributs.
Production
K signifie que le clustering est une méthode simple d'analyse de cluster. Le nombre de clusters peut être défini à l'aide de l'onglet de configuration. Le centre de gravité de chaque cluster est calculé comme la moyenne de tous les points au sein des clusters. Avec l'augmentation du nombre de clusters, la somme des erreurs carrées est réduite. Les objets du cluster présentent des caractéristiques et des propriétés similaires. Les clusters représentent les étiquettes de classe.
Mettre en œuvre la visualisation des données à l'aide de WEKA
Visualisation de données
La méthode de représentation des données à travers des graphiques et des tracés dans le but de comprendre clairement les données est la visualisation des données.
Il existe de nombreuses façons de représenter les données. Certains d'entre eux sont les suivants:
# 1) Visualisation orientée pixel: Ici, la couleur du pixel représente la valeur de la dimension. La couleur du pixel représente les valeurs correspondantes.
comment implémenter un graphe en java
# 2) Représentation géométrique: Les jeux de données multidimensionnels sont représentés dans des nuages de points 2D, 3D et 4D.
# 3) Visualisation basée sur les icônes: Les données sont représentées à l’aide des visages et des bâtons de Chernoff. Les visages de Chernoff utilisent la capacité de l’esprit humain à reconnaître les caractéristiques faciales et les différences entre eux. Le chiffre de bâton utilise 5 chiffres de bâton pour représenter des données multidimensionnelles.
# 4) Visualisation hiérarchique des données: Les ensembles de données sont représentés à l'aide de treemaps. Il représente les données hiérarchiques sous la forme d'un ensemble de triangles imbriqués.
Visualisation des données à l'aide de WEKA Explorer
La visualisation des données à l'aide de WEKA est effectuée sur l'ensemble de données IRIS.arff.
Les étapes impliquées sont les suivantes:
#1) Accédez à l'onglet Preprocess et ouvrez le jeu de données IRIS.arff.
#deux) L'ensemble de données a 4 attributs et 1 étiquette de classe. Les attributs de cet ensemble de données sont:
- Sepallength: Type -numérique
- Sepalwidth: Type - numérique
- Pétale: Type-numérique
- Petalwidth: Type-numérique
- Classer: Type nominal
# 3) Pour visualiser l'ensemble de données, accédez à l'onglet Visualiser. L'onglet affiche la matrice de tracé des attributs. Les attributs du jeu de données sont marqués sur l'axe des x et l'axe des y pendant que les instances sont tracées. La boîte avec l'attribut axe x et l'attribut axe y peut être agrandie.
# 4) Cliquez sur la case de l'intrigue pour l'agrandir. Par exemple, x: petallength et y: petalwidth. Les étiquettes de classe sont représentées dans différentes couleurs.
- Étiquette de classe - Iris-setosa: couleur bleue
- Étiquette de classe - Iris-versicolor: rouge
- Étiquette de classe-Iris-virginica-vert
Ces couleurs peuvent être modifiées. Pour changer la couleur, cliquez sur l'étiquette de la classe en bas, une fenêtre de couleur apparaîtra.
# 5) Cliquez sur l’instance représentée par «x» dans le graphique. Il donnera les détails de l'instance. Par exemple:
- Numéro d'instance: 91
- Sepalength: 5.5
- Sepalwidth: 2.6
- Pétale: 4.4
- Petalwidth: 1.2
- Classer: Iris-versicolor
Certains des points du tracé apparaissent plus sombres que d'autres. Ces points représentent 2 instances ou plus avec le même libellé de classe et la même valeur d'attributs tracés sur le graphique tels que petalwidth et petallength.
La figure ci-dessous représente un point avec 2 informations d'instance.
# 6) Les attributs des axes X et Y peuvent être modifiés à partir du panneau de droite dans Visualiser le graphique. L'utilisateur peut afficher différents graphiques.
# 7) Le Jitter est utilisé pour ajouter du caractère aléatoire au tracé. Parfois, les points se chevauchent. Avec la gigue, les points les plus sombres représentent plusieurs instances.
# 8) Pour obtenir une vue plus claire de l'ensemble de données et supprimer les valeurs aberrantes, l'utilisateur peut sélectionner une instance dans la liste déroulante. Cliquez sur le menu déroulant 'Sélectionner une instance'. Choisissez «Rectangle». Avec cela, l'utilisateur pourra sélectionner des points dans le tracé en traçant un rectangle.
# 9) Cliquez sur «Soumettre». Seuls les points du jeu de données sélectionnés seront affichés et les autres points seront exclus du graphique.
La figure ci-dessous montre les points de la forme rectangulaire sélectionnée. Le tracé représente des points avec seulement 3 étiquettes de classe. L'utilisateur peut cliquer sur «Enregistrer» pour enregistrer l'ensemble de données ou sur «Réinitialiser» pour sélectionner une autre instance. L'ensemble de données sera enregistré dans un fichier .ARFF séparé.
Production:
La visualisation des données à l'aide de WEKA est simplifiée à l'aide du box plot. L'utilisateur peut afficher n'importe quel niveau de granularité. Les attributs sont tracés sur les axes X et Y tandis que les instances sont tracées par rapport aux axes X et Y. Certains points représentent plusieurs instances qui sont représentées par des points de couleur sombre.
Conclusion
WEKA est un outil d'exploration de données efficace pour effectuer de nombreuses tâches d'exploration de données ainsi que pour expérimenter de nouvelles méthodes sur des ensembles de données. WEKA a été développé par le Département d'informatique de l'Université de Waikato en Nouvelle-Zélande.
Le monde d’aujourd’hui est submergé de données allant des achats au supermarché aux caméras de sécurité à domicile. L'exploration de données utilise ces données brutes, les convertit en informations pour faire des prédictions. WEKA avec l'aide de l'algorithme Apriori aide à extraire les règles d'association dans le jeu de données. Apriori est un algorithme d'exploration de modèles fréquent qui compte le nombre d'occurrences d'un ensemble d'éléments dans la transaction.
L'analyse en grappes est une technique permettant de découvrir des grappes de données qui représentent des caractéristiques similaires. WEKA fournit de nombreux algorithmes pour effectuer des analyses de grappes dont les moyennes simples sont très utilisées.
La visualisation des données dans WEKA peut être effectuée sur tous les jeux de données du répertoire WEKA. L'ensemble de données brutes peut être visualisé ainsi que d'autres ensembles de données résultants d'autres algorithmes tels que la classification, le clustering et l'association peuvent être visualisés à l'aide de WEKA.
=> Visitez ici pour la série exclusive d'apprentissage automatique
lecture recommandée
- Tutoriel Weka - Comment télécharger, installer et utiliser l'outil Weka
- Ensemble de données WEKA, classificateur et algorithme J48 pour arbre de décision
- 15 MEILLEURS outils et logiciels de visualisation de données en 2021
- Tutoriel D3.js - Framework de visualisation de données pour les débutants
- Didacticiel de visualisation de données D3.js - Formes, graphique, animation
- 7 Principes des tests logiciels: clustering de défauts et principe de Pareto
- Exploration de données: processus, techniques et problèmes majeurs dans l'analyse des données
- Techniques d'exploration de données: algorithmes, méthodes et principaux outils d'exploration de données