weka tutorial how download
Ce tutoriel WEKA explique ce qu'est l'outil Weka Machine Learning, ses fonctionnalités et comment télécharger, installer et utiliser le logiciel Weka Machine Learning:
Dans le Tutoriel précédent , nous avons découvert Support Vector Machine dans ML et les concepts associés tels que Hyperplane, Support Vectors & Applications of SVM.
L'apprentissage automatique est un domaine de la science où les machines agissent comme un système artificiellement intelligent. Les machines peuvent apprendre par elles-mêmes sans nécessiter de codage explicite. C'est un processus itératif qui accède aux données, apprend par lui-même et prédit le résultat. Pour exécuter des tâches d'apprentissage automatique, de nombreux outils et scripts sont nécessaires.
WEKA est une plateforme d'apprentissage automatique composée de nombreux outils facilitant de nombreuses activités d'apprentissage automatique.
=> Lisez la série complète de formations sur l'apprentissage automatique
comment développer un logiciel d'intelligence artificielle
Ce que vous apprendrez:
- Qu'est-ce que WEKA
- Conclusion
Qu'est-ce que WEKA
Weka est un outil open source conçu et développé par les scientifiques / chercheurs de l'Université de Waikato, en Nouvelle-Zélande. WEKA signifie Waikato Environment for Knowledge Analysis. Il est développé par la communauté scientifique internationale et distribué sous la licence libre GNU GPL.
WEKA est entièrement développé en Java. Il fournit une intégration avec la base de données SQL à l'aide de la connectivité Java Database. Il fournit de nombreux algorithmes d'apprentissage automatique pour mettre en œuvre des tâches d'exploration de données. Ces algorithmes peuvent être utilisés directement à l'aide de l'outil WEKA ou peuvent être utilisés avec d'autres applications utilisant le langage de programmation Java.
Il fournit de nombreux outils pour le prétraitement des données, la classification, le clustering, l'analyse de régression, la création de règles d'association, l'extraction d'entités et la visualisation des données. C'est un outil puissant qui prend en charge le développement de nouveaux algorithmes dans l'apprentissage automatique.
Pourquoi utiliser WEKA Machine Learning Tool
Avec WEKA, les algorithmes d'apprentissage automatique sont facilement accessibles aux utilisateurs. Les spécialistes du ML peuvent utiliser ces méthodes pour extraire des informations utiles à partir de volumes importants de données. Ici, les spécialistes peuvent créer un environnement pour développer de nouvelles méthodes d'apprentissage automatique et les mettre en œuvre sur des données réelles.
WEKA est utilisé par les chercheurs en apprentissage automatique et en sciences appliquées à des fins d'apprentissage. C'est un outil efficace pour effectuer de nombreuses tâches d'exploration de données.
Téléchargement et installation WEKA
#1) Téléchargez le logiciel depuis ici .
Vérifiez la configuration du système informatique et téléchargez la version stable de WEKA (actuellement 3.8) depuis cette page.
#deux) Une fois le téléchargement réussi, ouvrez l'emplacement du fichier et double-cliquez sur le fichier téléchargé. L'assistant Step Up apparaîtra. Cliquez sur Suivant.
# 3) Les termes du contrat de licence s'ouvriront. Lisez-le attentivement et cliquez sur «J'accepte».
# 4) Selon vos besoins, sélectionnez les composants à installer. L'installation complète des composants est recommandée. Cliquez sur Suivant.
# 5) Sélectionnez le dossier de destination et cliquez sur Suivant.
# 6) Ensuite, l'installation commencera.
# 7) Si Java n'est pas installé sur le système, il installera d'abord Java.
# 8) Une fois l'installation terminée, la fenêtre suivante apparaît. Cliquez sur Suivant.
# 9) Cochez la case Démarrer Weka. Cliquez sur Terminer.
# dix) La fenêtre WEKA Tool and Explorer s'ouvre.
#Onze) Le manuel WEKA peut être téléchargé sur ici.
Interface utilisateur graphique de WEKA
L'interface graphique de WEKA propose cinq options: Explorateur, expérimentateur, flux de connaissances, Workbench et CLI simple. Comprenons chacun de ces éléments individuellement.
# 1) CLI simple
Simple CLI est Weka Shell avec ligne de commande et sortie. Avec «aide», la vue d'ensemble de toutes les commandes peut être vue. Simple CLI offre un accès à toutes les classes telles que les classificateurs, les clusters et les filtres, etc.
Certaines des commandes CLI simples sont:
- Casser: Pour arrêter le fil en cours
- Sortir: Quittez la CLI
- Aider() : Affiche l'aide pour la commande spécifiée
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Pour appeler une classe WEKA, préfixez-la avec Java. Cette commande va demander à WEKA de charger la classe et de l'exécuter avec des paramètres donnés. Dans cette commande, le classificateur J48 est appelé sur l'ensemble de données IRIS.
# 2) Explorateur
Les fenêtres de l'explorateur WEKA affichent différents onglets en commençant par le prétraitement. Au départ, l'onglet de prétraitement est actif, car tout d'abord l'ensemble de données est prétraité avant de lui appliquer des algorithmes et d'explorer l'ensemble de données.
Les onglets sont les suivants:
- Prétraitement: Choisissez et modifiez les données chargées.
- Classer: Appliquez des algorithmes de formation et de test aux données qui classeront et régresseront les données.
- Grappe: Formez des clusters à partir des données.
- Associer: Règle d'association d'extraction des données.
- Sélectionnez les attributs: Des mesures de sélection d'attribut sont appliquées.
- Visualiser: Une représentation 2D des données est vue.
- Barre d'état: La section la plus basse de la fenêtre affiche la barre d'état. Cette section montre ce qui se passe actuellement sous la forme d'un message, tel qu'un fichier est en cours de chargement. Faites un clic droit dessus, Mémoire informations peut être vu, et aussi Courir des ordures collectionneur pour libérer de l'espace peut être exécuté.
- Bouton de journal: Il stocke un journal de toutes les actions dans Weka avec l'horodatage. Les journaux sont affichés dans une fenêtre distincte lorsque vous cliquez sur le bouton Journal.
- Icône d'oiseau WEKA: Présent dans le coin inférieur droit montre l'oiseau WEKA avec représente le nombre de processus exécutés simultanément (par x.). Lorsque le processus est en cours, l'oiseau se déplace.
# 3) Expérimentateur
Le bouton de l'expérimentateur WEKA permet aux utilisateurs de créer, d'exécuter et de modifier différents schémas en une seule expérience sur un ensemble de données. L'expérimentateur dispose de 2 types de configuration: Simple et avancé. Les deux configurations permettent aux utilisateurs d'exécuter des expériences localement et sur des ordinateurs distants.
- Les boutons «Ouvrir» et «Nouveau» ouvriront une nouvelle fenêtre d'expérimentation que les utilisateurs peuvent faire.
- Résultats: Définissez le fichier de destination des résultats à partir des fichiers ARFF, JDFC et CSV.
- Type d'expérience: L'utilisateur peut choisir entre la validation croisée et la répartition en pourcentage train / test. L'utilisateur peut choisir entre la classification et la régression en fonction de l'ensemble de données et du classificateur utilisés.
- Ensembles de données: L'utilisateur peut parcourir et sélectionner des ensembles de données à partir d'ici. La case à cocher du chemin relatif est activée si vous travaillez sur des machines différentes. Le format des ensembles de données pris en charge est ARFF, C4.5, CSV, libsvm, bsi et XRFF.
- Itération: Le numéro d'itération par défaut est défini sur 10. Les ensembles de données en premier et les algorithmes aident d'abord à basculer entre l'ensemble de données et les algorithmes afin que les algorithmes puissent être exécutés sur tous les ensembles de données.
- Algorithmes: De nouveaux algorithmes sont ajoutés par «Nouveau bouton». L'utilisateur peut choisir un classificateur.
- Enregistrez l'expérience à l'aide du bouton Enregistrer.
- Exécutez l'expérience à l'aide du bouton Exécuter.
# 4) Flux de connaissances
Le flux de connaissances montre une représentation graphique des algorithmes WEKA. L'utilisateur peut sélectionner les composants et créer un workflow pour analyser les ensembles de données. Les données peuvent être traitées par lots ou par incréments. Des flux de travail parallèles peuvent être conçus et chacun s'exécutera dans un thread distinct.
Les différents composants disponibles sont Sources de données, économiseurs de données, filtres, classificateurs, clusters, évaluation et visualisation.
# 5) Établi
WEKA a un module Workbench qui contient toutes les interfaces graphiques dans une seule fenêtre.
Caractéristiques de WEKA Explorer
# 1) Ensemble de données
Un ensemble de données est composé d'éléments. Il représente un objet par exemple: dans la base de données marketing, il représentera les clients et les produits. Les ensembles de données sont décrits par des attributs. L'ensemble de données contient des tuples de données dans une base de données. Un ensemble de données a des attributs qui peuvent être nominaux, numériques ou chaîne. Dans Weka, l'ensemble de données est représenté par weka.core.Instances classer.
Représentation du jeu de données avec 5 exemples:
@Les données
ensoleillé, FALSE, 85,85, non
ensoleillé, VRAI, 80,90, non
couvert, FALSE, 83,86, oui
pluvieux, FALSE, 70,96, oui
pluvieux, FALSE, 68,80, oui
Qu'est-ce qu'un attribut?
Un attribut est un champ de données représentant la caractéristique d'un objet de données. Par exemple, dans une base de données client, les attributs seront customer_id, customer_email, customer_address, etc. Les attributs ont différents types.
Ces types possibles sont:
A) Attributs nominaux: Attribut qui se rapporte à un nom et a des valeurs prédéfinies telles que la couleur, la météo. Ces attributs sont appelés attributs catégoriels . Ces attributs n'ont aucun ordre et leurs valeurs sont également appelées énumérations.
@attribute outlook {ensoleillé, couvert, pluvieux}: déclaration de l'attribut nominal.
B) Attributs binaires: Ces attributs ne représentent que les valeurs 0 et 1. Il s'agit du type d'attributs nominaux avec seulement 2 catégories. Ces attributs sont également appelés booléens.
C) Attributs ordinaux: Les attributs qui conservent un certain ordre ou un classement parmi eux sont des attributs ordinaux. Les valeurs successives ne peuvent pas être prédites mais seul l'ordre est conservé. Exemple: taille, qualité, etc.
D) Attributs numériques: Les attributs représentant des quantités mesurables sont des attributs numériques. Ceux-ci sont représentés par des nombres réels ou des entiers. Exemple: température, humidité.
@attribute humidité réelle: déclaration d'un attribut numérique
E) Attributs de chaîne: Ces attributs représentent une liste de caractères représentés entre guillemets.
# 2) Format de données ARFF
WEKA travaille sur le fichier ARFF pour l'analyse des données. ARFF est l'acronyme de Attribute Relation File Format. Il comporte 3 sections: relation, attributs et données. Chaque section commence par «@».
Les fichiers ARFF prennent les attributs de données Nominal, Numeric, String, Date et Relational. Certains des jeux de données d'apprentissage automatique bien connus sont présents dans WEKA sous le nom d'ARFF.
Le format pour ARFF est:
@relation
@attribut
@Les données
Un exemple de fichier ARFF est:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Format de données XRFF
XRFF signifie le format de fichier de relation d'attribut XML. Il représente des données pouvant stocker des commentaires, des attributs et des poids d'instance. Il a l'extension de fichier .xrff et l'extension de fichier .xrff.gz (format compressé). Les fichiers XRFF représentaient des données au format XML.
# 4) Connectivité de la base de données
Avec WEKA, il est facile de se connecter à une base de données à l'aide d'un pilote JDBC. Le pilote JDBC est nécessaire pour se connecter à la base de données, Exemple:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracle (oracle.jdbc.driver.OracleDriver)
# 5) Classificateurs
Pour prédire les données de sortie, WEKA contient des classificateurs. Les algorithmes de classification disponibles pour l'apprentissage sont les arbres de décision, les machines vectorielles de support, les classificateurs basés sur les instances, la régression logistique et les réseaux bayésiens. En fonction de l'exigence en utilisant l'essai et le test, l'utilisateur peut trouver un algorithme approprié pour l'analyse des données. Les classificateurs sont utilisés pour classer les ensembles de données en fonction des caractéristiques des attributs.
# 6) Regroupement
WEKA utilise l'onglet Cluster pour prédire les similitudes dans l'ensemble de données. Sur la base du clustering, l'utilisateur peut trouver les attributs utiles pour l'analyse et ignorer les autres attributs. Les algorithmes disponibles pour le clustering dans WEKA sont k-means, EM, Cobweb, X-means et FarhtestFirst.
# 7) Association
Le seul algorithme disponible dans WEKA pour découvrir les règles d'association est Apriori.
# 8) Mesures de section d'attribut
WEKA utilise 2 approches pour la meilleure sélection d'attributs à des fins de calcul:
- Utilisation de l'algorithme de la méthode de recherche: Meilleur premier, sélection directe, aléatoire, exhaustif, algorithme génétique et algorithme de classement.
- Utilisation des algorithmes de la méthode d'évaluation: Basé sur la corrélation, wrapper, gain d'information, chi carré.
# 9) Visualisation
WEKA prend en charge la représentation 2D des données, les visualisations 3D avec rotation et la représentation 1D d'un attribut unique. Il a l'option «Jitter» pour les attributs nominaux et les points de données «cachés».
Les autres caractéristiques principales de WEKA sont:
- Il s'agit d'un outil open-source avec une interface utilisateur graphique sous la forme «d'explorateur», «expérimentateur» et «flux de connaissances».
- Il est indépendant de la plateforme.
- Il contient 49 outils de prétraitement des données.
- 76 algorithmes de classification et de régressions, 8 algorithmes de clustering sont présents dans WEKA
- Il dispose de 15 algorithmes de sélection d'attributs et de 10 algorithmes de sélection de caractéristiques.
- Il dispose de 3 algorithmes pour trouver la règle d'association.
- En utilisant WEKA, les utilisateurs peuvent développer un code personnalisé pour l'apprentissage automatique.
Conclusion
Dans ce didacticiel WEKA, nous avons fourni une introduction au logiciel open source WEKA Machine Learning et expliqué étape par étape le processus de téléchargement et d'installation. Nous avons également vu les cinq options disponibles pour l'interface utilisateur graphique Weka, à savoir, l'explorateur, l'expérimentateur, le flux de connaissances, le Workbench et l'interface de ligne de commande simple.
Nous avons également découvert les fonctionnalités de WEKA avec des exemples. Les fonctionnalités incluent le jeu de données, le format de données ARFF, la connectivité de la base de données, etc.
=> Visitez ici pour la série exclusive d'apprentissage automatique
lecture recommandée
- Ensemble de données WEKA, classificateur et algorithme J48 pour arbre de décision
- WEKA Explorer: visualisation, clustering, exploration de règles d'association
- 11 outils logiciels d'apprentissage automatique les plus populaires en 2021
- Un guide complet du réseau neuronal artificiel dans l'apprentissage automatique
- Exploration de données Vs Machine Learning Vs Intelligence Artificielle Vs Deep Learning
- Tutoriel d'apprentissage automatique: Introduction au ML et à ses applications
- Top 13 des meilleures entreprises de machine learning (Liste 2021 mise à jour)
- Qu'est-ce que la machine vectorielle de support (SVM) dans l'apprentissage automatique