top 32 best datastage interview questions
Liste des questions et réponses d'entrevue de datastage les plus fréquemment posées pour vous aider à vous préparer à l'entretien à venir:
DataStage est un outil ETL très populaire qui était disponible sur le marché actuel.
Dans cet article, je partage un ensemble de questions-réponses très utiles destinées aux entretiens IBM Datastage. Passer en revue les questions d'entrevue de Datastage ci-dessous peut vous aider à déchiffrer l'entrevue.
Nous avons couvert des réponses détaillées aux questions d'entrevue Datastage qui seront utiles aux novices et aux professionnels expérimentés.
Lecture recommandée => Questions d'entrevue de test ETL
Questions et réponses d'entrevue de datastage les plus courantes
Commençons!
Q # 1) Qu'est-ce que Datastage?
Réponses: Datastage est un Outil ETL donné par IBM qui utilise une interface graphique pour concevoir des solutions d'intégration de données. C'était le premier outil ETL qui a donné un concept de parallélisme.
Il est disponible dans 3 éditions différentes suivantes
- Edition serveur
- Edition pour entreprise
- Édition MVS
Q # 2) Mettre en évidence les principales fonctionnalités de Datastage?
Réponses: Les principales fonctionnalités de Datastage sont mises en évidence ci-dessous:
- Il s'agit du composant d'intégration de données du serveur d'informations IBM Infosphere.
- C'est un outil basé sur l'interface graphique. Nous avons juste besoin de glisser-déposer les objets Datastage et nous pouvons les convertir en code Datastage.
- Il est utilisé pour effectuer les opérations ETL (Extraire, Transformer, Charger)
- Il fournit une connectivité à plusieurs sources et à plusieurs cibles en même temps
- Il fournit des techniques de partitionnement et de traitement des parallèles qui permettent aux travaux Datastage de traiter un énorme volume de données plus rapidement.
- Il dispose d'une connectivité au niveau de l'entreprise.
Q # 3) Quelles sont les principales utilisations de l'outil Datastage?
Réponses: Datastage est un outil ETL qui est principalement utilisé pour extraire des données à partir de systèmes sources, transformer ces données et enfin les charger sur les systèmes cibles.
Q # 4) Quelles sont les principales différences que vous avez observées entre les versions 7.x et 8.x de DataStage?
Réponses: Ici sont les principales différences entre les deux versions
7.x | 8.x |
---|---|
La version 7.x dépendait de la plate-forme | Cette version est indépendante de la plateforme |
Il a une architecture à 2 niveaux où la banque de données est construite sur le serveur Unix | Il a une architecture à 3 niveaux où nous avons une base de données de serveur UNIX en bas, puis une base de données XMETA qui agit comme un référentiel, puis nous avons une banque de données en haut. |
Il n'y a pas de concept de jeu de paramètres | Nous avons des jeux de paramètres qui peuvent être utilisés n'importe où dans le projet. |
Nous avions un concepteur et un gestionnaire comme deux clients distincts | Dans cette version, le client gestionnaire a été fusionné avec le client concepteur |
Nous avons dû rechercher manuellement les emplois dans cette version | Ici, nous avons une option de recherche rapide dans le référentiel où nous pouvons rechercher facilement les emplois. |
Q # 5) Pouvez-vous mettre en évidence les principales fonctionnalités du serveur d'informations IBM Infosphere?
Réponses: Les principales fonctionnalités de la suite de serveurs d'informations IBM Infosphere sont les suivantes:
quelle est la phase d'implémentation dans le sdlc
- Il fournit une plate-forme unique pour l'intégration des données. Il a la capacité de se connecter à plusieurs systèmes sources et d'écrire sur plusieurs systèmes cibles.
- Il est basé sur des couches centralisées. Tous les composants de la suite peuvent partager l'architecture de base de la suite.
- Il a des couches pour le référentiel unifié, pour les services de métadonnées intégrés et un moteur parallèle commun.
- Il fournit des outils d'analyse, de nettoyage, de surveillance, de transformation et de livraison de données.
- Il a des capacités de traitement massivement parallèles. Il s'avère que le traitement est très rapide.
Q # 6) Quelles sont les différentes couches de l'architecture du serveur d'information?
Réponses: Voici les différentes couches de l'architecture du serveur d'informations
- Interface utilisateur unifiée
- Services communs
- Traitement parallèle unifié
- Métadonnées unifiées
- Connectivité commune
Q # 7) Que pourrait être un système de source de données?
Réponses: Il peut s'agir d'une table de base de données, d'un fichier plat ou même d'une application externe comme les gens doux.
Q # 8) Sur quelle interface vous travaillerez en tant que développeur?
Réponses: En tant que développeur Datastage, nous travaillons sur l'interface client Datastage, connue sous le nom de concepteur Datastage qui doit être installé sur le système local. Dans le backend, il est connecté au serveur Datastage.
Q # 9) Quels sont les différents services communs dans Datastage?
Réponses: Voici la liste des services courants dans Datastage:
- Services de métadonnées
- Déploiement de service unifié
- Services de sécurité
- Services de bouclage et de reporting.
Q # 10) Comment commencez-vous à développer un projet Datastage?
Réponses: La toute première étape consiste à créer un travail Datastage sur le serveur Datastage. Tous les objets Datastage que nous créons sont stockés dans le projet Datastage. Un projet Datastage est un environnement distinct sur le serveur pour les travaux, les tables, les définitions et les routines.
Un projet Datastage est un environnement distinct sur le serveur pour les travaux, les tables, les définitions et les routines.
Q # 11) Qu'est-ce qu'un travail DataStage?
Réponses: Le travail Datastage est simplement un code DataStage que nous créons en tant que développeur. Il contient différentes étapes liées entre elles pour définir les données et le flux de processus.
Les étapes ne sont rien d'autre que les fonctionnalités mises en œuvre.
Par exemple: Supposons que je veuille faire une somme du montant des ventes. Il peut s’agir d’une opération «grouper par» qui sera effectuée en une seule étape.
Maintenant, je veux écrire le résultat dans un fichier cible. Donc, cette opération sera effectuée par une autre étape. Une fois que j'ai défini les deux étapes, je dois définir le flux de données de mon étape «grouper par» à l'étape du fichier cible. Ce flux de données est défini par des liens DataStage.
Une fois que j'ai défini les deux étapes, je dois définir le flux de données de mon étape «grouper par» à l'étape du fichier cible. Ce flux de données est défini par des liens DataStage.
Q # 12) Que sont les séquences DataStage?
Réponses: La séquence Datastage connecte les travaux DataStage dans un flux logique.
Q # 13) Si vous souhaitez utiliser le même morceau de code dans différents travaux, comment allez-vous y parvenir?
Réponses: Cela peut être fait en utilisant des conteneurs partagés. Nous avons des conteneurs partagés pour la réutilisation. Un conteneur partagé est un élément de travail réutilisable composé d'étapes et de liens. Nous pouvons appeler un conteneur partagé dans différents jobs Datastage.
Q # 14) Où les travaux de datastage sont-ils stockés?
Réponses: Les travaux Datastage sont stockés dans le référentiel. Nous avons différents dossiers dans lesquels nous pouvons stocker les travaux Datastage.
Q # 15) Où voyez-vous les différentes étapes du concepteur?
Réponses: Toutes les étapes sont disponibles dans une fenêtre appelée ' Palette ' . Il comporte différentes catégories en fonction du type de fonction fournie par la scène.
Les différentes catégories d'étapes de la Palette sont: Général, Qualité des données, Base de données, Développement, Fichier, Traitement, etc.
Q # 16) Quelles sont les étapes de traitement?
Réponses: Les étapes de traitement nous permettent d'appliquer la transformation réelle des données.
Par exemple , Le ' L’étape d’agrégation dans la catégorie Traitement nous permet d’appliquer toutes les opérations «grouper par». De même, nous avons d'autres étapes de traitement comme l'étape «Rejoindre» qui nous permet de réunir les données provenant de deux flux d'entrée différents.
Q # 17) Quelles sont les étapes nécessaires pour créer un travail de base de données de base simple?
Réponses: Cliquez sur le fichier -> Cliquez sur Nouveau -> Sélectionnez un travail parallèle et appuyez sur OK. Une fenêtre de travail parallèle s'ouvrira. Dans ce travail parallèle, nous pouvons assembler différentes étapes et définir le flux de données entre elles. Le travail DataStage le plus simple est un travail ETL.
En cela, nous devons d'abord extraire les données du système source pour lequel nous pouvons utiliser soit une étape de fichier, soit une étape de base de données, car mon système source peut être une table de base de données ou un fichier.
Supposons que nous lisions des données à partir d'un fichier texte. Dans ce cas, nous allons faire glisser et déposer l’étape «Fichier séquentiel» dans la fenêtre de travail parallèle. Maintenant, nous devons effectuer une transformation en plus de ces données. Nous utiliserons l’étape «Transformer» qui est disponible dans la catégorie Traitement. Nous pouvons écrire n'importe quelle logique sous l'étape Transformer.
logiciel de sauvegarde gratuit pour disque dur externe
Enfin, nous devons charger les données traitées dans une table cible. Disons que ma base de données cible est DB2. Donc, pour cela, nous allons sélectionner l'étage du connecteur DB2. Ensuite, nous connecterons ces états de données via des liens séquentiels.
Après ça , nous devons configurer les étapes pour qu'elles pointent vers le système de fichiers ou la base de données correct.
Par exemple, Pour l'étape du fichier séquentiel, nous devons définir les paramètres obligatoires comme le nom du fichier, l'emplacement du fichier, les métadonnées de la colonne.
Ensuite, nous devons compiler le travail Datastage. La compilation du travail vérifie la syntaxe du travail et crée un fichier exécutable pour le travail Datastage qui peut être exécuté au moment de l'exécution.
Q # 18) Nommez les différentes méthodes de tri dans Datastage.
Réponses: Il existe deux méthodes disponibles:
- Tri par lien
- Tri de la banque de données intégré
Q # 19) Dans un lot, si une tâche échoue entre les deux et que vous souhaitez redémarrer le lot à partir de cette tâche particulière et non à partir de zéro, que ferez-vous?
Réponses: Dans Datastage, il existe une option dans la séquence de travail - «Ajouter des points de contrôle pour que la séquence puisse redémarrer en cas d’échec» . Si cette option est cochée, nous pouvons réexécuter la séquence de travaux à partir du point où elle a échoué.
Q # 20) Comment importez-vous et exportez-vous les jobs Datastage?
Réponses: F ou ceci, sous les fonctions de ligne de commande pour cela
- Importer: dsimport.exe
- Exportation: dsexport.exe
Q # 21) Que sont les routines dans Datastage? Faites appel à divers types de routines.
Réponses: Routine est un ensemble de fonctions définies par le gestionnaire DS. Il est exécuté via l'étage du transformateur.
Il existe 3 types de routines:
- Routines parallèles
- Routines mainframe
- Routines du serveur
Q # 22) Comment supprimer les valeurs en double dans DataStage?
Réponses: Il existe deux façons de gérer les valeurs en double
- Nous pouvons utiliser l'étape de suppression des doublons pour éliminer les doublons.
- Nous pouvons utiliser l'étape de tri pour supprimer les doublons. L'étape de tri a une propriété appelée 'autoriser les doublons'. Nous n'obtiendrons pas de valeurs en double dans la sortie du tri en définissant cette propriété sur false.
Q # 23) Quels sont les différents types de vues disponibles dans un directeur Datastage?
Réponses: Il existe 3 types de vues disponibles dans le directeur Datastage. Elles sont:
- Vue du journal
- Affichage de l'état
- Vue emploi
Q # 24) Faites la distinction entre Informatica et Datastage. Lequel choisiriez-vous et pourquoi?
Réponses: Informatica et DataStage sont de puissants outils ETL.
Les points enrôlés différencient les deux outils:
L'informatique | Datastage | |
---|---|---|
Traitement parallèle | Informatica ne prend pas en charge le traitement parallèle. | Contrairement à cela, la banque de données fournit un mécanisme de traitement parallèle. |
Implémentation des SCD | Il est assez simple d'implémenter des SCD (dimensions à évolution lente) dans Informatica. | Cependant, il est complexe d'implémenter des SCD dans la banque de données. Datastage prend en charge les SCD uniquement via des scripts personnalisés. |
Contrôle de version | Informatica prend en charge le contrôle de version via l'archivage et l'extraction d'objets. | Cependant, cette fonctionnalité n'est pas disponible dans le datastage. |
Transformations disponibles | Des transformations moindres sont disponibles. | Datastage offre une plus grande variété de transformations qu'Informatica. |
Puissance de recherche | Informatica fournit une recherche de cache dynamique très puissante | Nous n’avons rien de similaire dans le datastage. |
À mon avis, j'irais avec Informatica sur Datastage. La raison en est que j'ai trouvé Informatica plus systématique et convivial que DataStage.
Une autre raison importante est que le débogage et la gestion des erreurs sont bien meilleurs dans Informatica que dans Datastage. Ainsi, la résolution des problèmes devient plus facile dans Informatica. Datastage ne fournit pas une prise en charge complète de la gestion des erreurs.
application gratuite pour télécharger des vidéos youtube
=> Vous voulez en savoir plus sur Informatica? Nous avons un explication détaillée ici.
Q # 25) Donnez une idée des variables système.
Réponses: Les variables système sont les variables en lecture seule commençant par «@» qui peut être lu par l'étage du transformateur ou par la routine. Ils sont utilisés pour obtenir les informations système.
Q # 26) Quelle est la différence entre le stade passif et le stade actif?
Réponses: Les étapes passives sont utilisées pour l'extraction et le chargement tandis que les étapes actives sont utilisées pour la transformation.
Q # 27) Quels sont les différents types de conteneurs disponibles dans Datastage?
Réponses: Nous avons ci-dessous 2 conteneurs dans Datastage:
- Conteneur local
- Conteneur partagé
Q # 28) La valeur de la variable intermédiaire est-elle stockée temporairement ou définitivement?
Réponses: Temporairement. C'est une variable temporaire.
Q # 29) Quels sont les différents types d'emplois dans Datastage?
Réponses: Nous avons deux types d'emplois dans Datastage:
- Tâches serveur (elles s'exécutent de manière séquentielle)
- Tâches parallèles (elles sont exécutées de manière parallèle)
Q # 30) Quelle est l'utilité du directeur Datastage?
Réponses: Grâce à Datastage Director, nous pouvons planifier un travail, valider le travail, exécuter le travail et surveiller le travail.
Q # 31) Quels sont les différents types de fichier de hachage?
Réponses: Nous avons 2 types de fichiers de hachage:
- Fichier de hachage statique
- Fichier de hachage dynamique
Q # 32) Qu'est-ce qu'une étape de qualité?
Réponses: L'étape de qualité (également appelée étape d'intégrité) est une étape qui aide à combiner les données provenant de différentes sources.
Conclusion
Vous devez avoir des connaissances pratiques sur l'architecture Datastage, ses principales fonctionnalités et vous devriez être en mesure d'expliquer en quoi il est différent de certains autres outils ETL populaires.
aditionellement , vous devriez avoir une idée juste des différentes étapes et de leur utilisation, de bout en bout une façon de créer un travail Datastage et de l'exécuter.
Lecture recommandée => Qu'est-ce que le test ETL?
Tous mes vœux!
lecture recommandée
- Questions et réponses d'entrevue de test ETL
- 10 meilleurs outils de mappage de données utiles dans le processus ETL [2021 LIST]
- 15 meilleurs outils ETL en 2021 (une liste complète mise à jour)
- Tutoriel de test de l'entrepôt de données avec des exemples | Guide de test ETL
- Didacticiel de test de l'entrepôt de données de test ETL (un guide complet)
- Test ETL vs DB - Un examen plus approfondi des besoins, de la planification et des outils ETL des tests ETL
- Comment effectuer des tests ETL à l'aide de l'outil Informatica PowerCenter
- Métadonnées dans l'entrepôt de données (ETL) expliquées avec des exemples
- Communiqué de presse - iCEDQ Soft Nouvelle version de la plateforme de test ETL Testing & Data Migration Testing
- Top 10 des outils de test ETL en 2021
- Qu'est-ce que le processus ETL (extraction, transformation, chargement) dans l'entrepôt de données?