top 29 data engineer interview questions
Liste des questions et réponses d'entretien les plus fréquemment posées par les ingénieurs de données pour vous aider à vous préparer à l'entretien à venir:
Aujourd'hui, l'ingénierie des données est le domaine le plus recherché après le développement de logiciels et il est devenu l'une des options d'emploi les plus dynamiques au monde. Les enquêteurs veulent les meilleurs ingénieurs de données pour leur équipe et c'est pourquoi ils ont tendance à interroger les candidats de manière approfondie. Ils recherchent certaines compétences et connaissances. Il faut donc être préparé en conséquence pour répondre à leurs attentes.
Ce que vous apprendrez:
- Responsabilités d'un ingénieur de données
- Compétences d'un ingénieur de données
- Questions fréquentes d'entretiens chez Data Engineer
- Conclusion
Responsabilités d'un ingénieur de données
Les responsabilités comprennent:
- Traiter et superviser les données au sein de l'entreprise.
- Maintenir et gérer le système source et les zones de transit des données.
- Simplifiez le nettoyage des données ainsi que la création ultérieure et l'amélioration de la reduplication des données.
- Rendre disponible et exécuter à la fois la transformation des données et le processus ETL.
- Extraction et création de requêtes de données ad hoc.
Compétences d'un ingénieur de données
Avec des qualifications, vous avez également besoin de certaines compétences. Ils sont tous deux cruciaux lorsque vous vous préparez au poste d'ingénieur de données. Ici, nous listons les 5 meilleures compétences, sans ordre particulier, dont vous aurez besoin pour devenir un ingénieur de données performant.
- Compétences en visualisation de données.
- Python et SQL.
- Connaissance de la modélisation des données pour le Big Data et l'entreposage de données
- Mathématiques
- Savoir-faire en ETL
- Expérience spatiale Big Data
Vous devez donc travailler à l'amélioration de ces compétences avant de commencer à préparer votre entretien. Et lorsque vous avez perfectionné vos compétences, voici quelques questions d'entrevue que vous pouvez préparer pour que les enquêteurs vous remarquent et vous embauchent également.
Questions fréquentes d'entretiens chez Data Engineer
Questions d'entrevue générales
Q # 1) Pourquoi avez-vous étudié l'ingénierie des données?
Répondre: Cette question vise à en savoir plus sur votre formation, votre expérience de travail et vos antécédents. Cela aurait pu être un choix naturel dans la poursuite de votre diplôme en systèmes d'information ou en informatique. Ou peut-être avez-vous travaillé dans un domaine similaire ou vous êtes peut-être en train de passer d'un domaine de travail entièrement différent.
Quelle que soit votre histoire, ne vous retenez pas et n’hésitez pas. Et pendant que vous partagez, continuez à mettre en évidence les compétences que vous avez acquises en cours de route et l'excellent travail que vous avez accompli.
Cependant, ne commencez pas à raconter des histoires. Commencez un peu par votre formation, puis atteignez la partie où vous saviez que vous vouliez devenir ingénieur de données. Et puis passez à la façon dont vous arrivez ici.
Q # 2) Quelle est la chose la plus difficile pour être un ingénieur de données selon vous?
Répondre: Vous devez répondre honnêtement à cette question. Tous les aspects de tous les emplois ne sont pas faciles et votre intervieweur le sait. Le but de cette question n'est pas d'identifier votre faiblesse mais de savoir comment vous travaillez sur des choses que vous trouvez difficiles à gérer.
Vous pouvez dire quelque chose comme: «En tant qu'ingénieur de données, j'ai du mal à répondre à la demande de tous les départements d'une entreprise où la plupart d'entre eux ont souvent des demandes contradictoires. Donc, je trouve souvent difficile de les équilibrer en conséquence.
Mais cela m'a offert un aperçu précieux du fonctionnement des départements et du rôle qu'ils jouent dans la structure globale de l'entreprise. ' Et ce n'est qu'un exemple. Vous pouvez et devez présenter votre point de vue.
Q # 3) Dites-nous un incident où vous étiez censé rassembler des données provenant de diverses sources, mais avez rencontré des problèmes inattendus et comment l'avez-vous résolu?
Répondre: Cette question est l'occasion pour vous de démontrer vos compétences en résolution de problèmes et comment vous vous adaptez aux changements soudains de plan. La question pourrait être abordée de manière générale ou spécifique dans le contexte de l'ingénierie des données. Si vous n’avez pas vécu une telle expérience, vous pouvez fournir une réponse hypothétique.
Voici un exemple de réponse: «Dans mon ancienne société de franchise, mon équipe et moi étions censés collecter des données à partir de divers emplacements et systèmes. Mais l'une des franchises a changé son système sans nous en informer au préalable. Cela a entraîné une poignée de problèmes pour la collecte et le traitement des données.
Pour résoudre ce problème, nous devions d'abord trouver une solution rapide à court terme pour intégrer les données essentielles dans le système de l'entreprise. Et après cela, nous avons développé une solution à long terme pour éviter que de tels problèmes ne se reproduisent. »
Q # 4) En quoi le travail d'un ingénieur de données est-il différent de celui d'un architecte de données?
Répondre: Cette question vise à vérifier si vous comprenez qu'il existe des différences au sein de l'équipe d'un entrepôt de données. Vous ne pouvez pas vous tromper avec la réponse. Les responsabilités des deux se chevauchent ou varient en fonction des besoins du service de maintenance de la base de données ou de l'entreprise.
On peut dire que «d'après mon expérience, la différence entre les rôles d'ingénieur de données et d'architecte de données varie d'une entreprise à l'autre. Bien qu'ils travaillent en très étroite collaboration, il existe des différences dans leurs responsabilités générales.
La gestion des serveurs et la construction de l'architecture du système de données d'une entreprise est la responsabilité d'un architecte de données. Et le travail d'un ingénieur de données est de tester et de maintenir cette architecture. Parallèlement à cela, nous, ingénieurs de données, nous assurons que les données mises à la disposition des analystes sont de haute qualité et fiables. »
Questions d'entrevue technique
Q # 5) Quels sont les quatre V du Big Data?
(image la source )
Répondre:
Les quatre V du Big Data sont:
- Le premier V est Rapidité qui correspond à la vitesse à laquelle le Big Data est généré au fil du temps. Ainsi, cela peut être considéré comme une analyse des données.
- Le deuxième V est le Variété de diverses formes de Big Data, que ce soit dans des images, des fichiers journaux, des fichiers multimédias et des enregistrements vocaux.
- Le troisième V est le Le volume des données. Il peut s'agir du nombre d'utilisateurs, du nombre de tables, de la taille des données ou du nombre d'enregistrements.
- Le quatrième V est Véracité liées à l'incertitude ou à la certitude des données. En d'autres termes, il décide de votre certitude quant à l'exactitude des données.
Q # 6) En quoi les données structurées sont-elles différentes des données non structurées?
Réponse: Le tableau ci-dessous explique les différences:
Données structurées | Données non structurées | |
---|---|---|
7) | Les données agrégées sont contenues dans une seule dimension. | Les données sont divisées en différentes tables de dimensions. |
1) | Il peut être stocké dans MS Access, Oracle, SQL Server et d'autres systèmes de base de données traditionnels similaires. | Il ne peut pas être stocké dans un système de base de données traditionnel. |
deux) | Il peut être stocké dans différentes colonnes et lignes. | Il ne peut pas être stocké dans des lignes et des colonnes. |
3) | Les transactions d'application en ligne sont un exemple de données structurées. | Des exemples de données non structurées sont les Tweets, les recherches Google, les likes Facebook, etc. |
4) | Il peut être facilement défini dans le modèle de données. | Il ne peut pas être défini en fonction du modèle de données. |
5) | Il est livré avec une taille et un contenu fixes. | Il est disponible en différentes tailles et contenus. |
Q # 7) Avec quels outils ETL connaissez-vous?
Répondre: Nommez tous les outils ETL avec lesquels vous avez travaillé. Vous pouvez dire: «J'ai travaillé avec SAS Data Management, IBM Infosphere et SAP Data Services. Mais mon préféré est PowerCenter d'Informatica. Il est efficace, a un taux de performance extrêmement élevé et est flexible. En bref, il possède toutes les propriétés importantes d'un bon outil ETL.
Ils gèrent en douceur les opérations de données d'entreprise et garantissent l'accès aux données même en cas de changements dans l'entreprise ou sa structure. » Assurez-vous de ne parler que de ceux avec lesquels vous avez travaillé et de ceux avec lesquels vous aimez travailler. Ou, cela pourrait résumer votre interview plus tard.
Q # 8) Parlez-nous des schémas de conception de la modélisation des données.
Répondre: La modélisation des données est fournie avec deux types de schémas de conception.
Ils sont expliqués comme suit:
- Le premier est le Calendrier des étoiles , qui est divisé en deux parties: la table des faits et la table des dimensions. Ici, les deux tables sont connectées. Le schéma en étoile est le style de schéma de magasin de données le plus simple et est également le plus largement utilisé. Il est nommé ainsi parce que sa structure ressemble à une étoile.
- Le second est le Schéma de flocon de neige qui est l'extension du schéma en étoile. Il ajoute des dimensions supplémentaires et s'appelle un flocon de neige car sa structure ressemble à celle d'un flocon de neige.
Q # 9) Quelle est la différence entre le schéma Star et le schéma Snowflake?
(image la source )
Réponse: Le tableau ci-dessous explique les différences:
Horaire des étoiles | Schéma de flocon de neige | |
---|---|---|
1) | La table des dimensions contient les hiérarchies des dimensions. | Il existe des tableaux séparés pour les hiérarchies. |
deux) | Ici, les tables de dimension entourent une table de faits. | Les tables de dimension entourent une table de faits, puis elles sont en outre entourées de tables de dimension. |
3) | Une table de faits et n'importe quelle table de dimension sont connectées par une seule jointure. | Pour récupérer les données, il faut de nombreuses jointures. |
4) | Il est livré avec une conception DB simple. | Il a une conception de base de données complexe. |
5) | Fonctionne bien même avec des requêtes et des structures de données dénormalisées. | Fonctionne uniquement avec la structure de données normalisée. |
6) | Redondance des données - élevée. | Redondance des données - très faible. |
8) | Traitement plus rapide des cubes. | La jointure complexe ralentit le traitement du cube. |
Q # 10) Quelle est la différence entre l'entrepôt de données et la base de données opérationnelle?
Réponse: Le tableau ci-dessous explique les différences:
Entrepôt de données | Base de données opérationnelle | |
---|---|---|
7) | Prend en charge une poignée d'OLTP comme des clients simultanés. | Prend en charge de nombreux clients simultanés. |
1) | Ceux-ci sont conçus pour prendre en charge le traitement analytique de grands volumes. | Ceux-ci prennent en charge le traitement des transactions de gros volumes. |
deux) | Les données historiques affectent un entrepôt de données. | Les données actuelles affectent la base de données opérationnelle. |
3) | De nouvelles données non volatiles sont ajoutées régulièrement mais restent rarement modifiées. | Les données sont mises à jour régulièrement en fonction des besoins. |
4) | Il est conçu pour analyser les mesures commerciales par attributs, domaines et catégories. | Il est conçu pour le traitement en temps réel et les transactions commerciales. |
5) | Optimisé pour les charges lourdes et les requêtes complexes accédant à de nombreuses lignes à chaque table. | Optimisé pour un ensemble simple et unique de transactions comme la récupération et l'ajout d'une ligne à la fois pour chaque table. |
6) | Il regorge d'informations valides et cohérentes et ne nécessite aucune validation en temps réel. | Amélioré pour valider les informations entrantes et utilise des tables de données de validation. |
8) | Ses systèmes sont principalement orientés sujet. | Ses systèmes sont principalement orientés processus. |
9) | Données hors. | Données dans. |
dix) | Un grand nombre de données sont accessibles. | Un nombre limité de données est accessible. |
Onze) | Créé pour OLAP, traitement analytique en ligne. | Créé pour OLTP, traitement des transactions en ligne. |
Q # 11) Faites remarquer la différence entre OLTP et OLAP.
Répondre: Le tableau ci-dessous explique les différences:
OLTP | OLAP | |
---|---|---|
7) | Le volume de données n'est pas très important. | Il a un grand volume de données. |
1) | Utilisé pour gérer les données opérationnelles. | Utilisé pour gérer les données d'information. |
deux) | Les clients, les employés et les professionnels de l'informatique l'utilisent. | Les gestionnaires, analystes, cadres et autres travailleurs du savoir l'utilisent. |
3) | Il est orienté client. | Il est axé sur le marché. |
4) | Il gère les données actuelles, celles qui sont extrêmement détaillées et qui sont utilisées pour la prise de décision. | Il gère une énorme quantité de données historiques. Il fournit également des fonctionnalités d'agrégation et de synthèse ainsi que de gestion et de stockage des données à différents niveaux de granularité. Par conséquent, les données deviennent plus faciles à utiliser dans la prise de décision. |
5) | Il a une taille de base de données de 100 Mo-Go. | Il a une taille de base de données de 100 Go-To. |
6) | Il utilise un modèle de données ER (entité-relation) avec une conception de base de données orientée application. | OLAP utilise un modèle de flocon de neige ou d'étoile avec une conception de base de données orientée sujet. |
8) | Mode d'accès - lecture / écriture. | Le mode d'accès est principalement en écriture. |
9) | Complètement normalisé. | Partiellement normalisé. |
dix) | Sa vitesse de traitement est très rapide. | Sa vitesse de traitement dépend du nombre de fichiers qu'il contient, des requêtes complexes et de l'actualisation des données par lots |
Q # 12) Expliquez le concept principal derrière le Framework d'Apache Hadoop.
Répondre: Il est basé sur l'algorithme MapReduce. Dans cet algorithme, pour traiter un vaste ensemble de données, des opérations de mappage et de réduction sont utilisées. Mappez, filtre et trie les données tandis que Réduire, résume les données. L'évolutivité et la tolérance aux pannes sont les points clés de ce concept. Nous pouvons obtenir ces fonctionnalités dans Apache Hadoop en implémentant efficacement MapReduce et Multi-threading.
Q # 13) Avez-vous déjà travaillé avec Hadoop Framework?
(image la source )
Répondre: De nombreux responsables du recrutement posent des questions sur l'outil Hadoop lors de l'entretien pour savoir si vous connaissez les outils et les langues que l'entreprise utilise. Si vous avez travaillé avec Hadoop Framework, indiquez-leur les détails de votre projet pour mettre en lumière vos connaissances et vos compétences avec l'outil et ses capacités. Et si vous n’avez jamais travaillé avec lui, des recherches pour montrer une certaine familiarité avec ses attributs fonctionneront également.
Tu peux dire, par exemple, «Tout en travaillant sur un projet d'équipe, j'ai eu la chance de travailler avec Hadoop. Nous nous sommes concentrés sur l'augmentation de l'efficacité du traitement des données, donc, en raison de sa capacité à augmenter la vitesse de traitement des données sans compromettre la qualité lors de son traitement distribué, nous avons décidé d'utiliser Hadoop.
Et comme mon entreprise précédente s'attendait à une augmentation considérable du traitement des données au cours des prochains mois, son évolutivité s'est également avérée utile. Hadoop est également un réseau open-source basé sur Java, ce qui en fait la meilleure option pour les projets aux ressources limitées et facile à utiliser sans aucune formation supplémentaire. »
Quels types de logiciels sont access, oracle, db2, mysql et sql server?
Q # 14) Mentionnez quelques fonctionnalités importantes de Hadoop.
Réponse: les caractéristiques sont les suivantes:
- Hadoop est un framework open source gratuit où nous pouvons modifier le code source selon nos besoins.
- Il prend en charge le traitement distribué plus rapidement des données. HDFS Hadoop stocke les données de manière distribuée et utilise MapReduce pour traiter les données en parallèle.
- Hadoop est hautement tolérant et par défaut, à différents nœuds, il permet à l'utilisateur de créer trois répliques de chaque bloc. Ainsi, si l'un des nœuds échoue, nous pouvons récupérer les données d'un autre nœud.
- Il est également évolutif et compatible avec de nombreux matériels.
- Depuis Hadoop stockait les données dans des clusters, indépendamment de toutes les autres opérations. Par conséquent, il est fiable. Les données stockées ne sont pas affectées par le dysfonctionnement des machines. Et donc, il est également hautement disponible.
Q # 15) Comment pouvez-vous augmenter les revenus de l'entreprise en analysant le Big Data?
Répondre: L'analyse de Big Data est une partie vitale des entreprises car elle les aide à se différencier les unes des autres tout en augmentant les revenus. L'analyse des mégadonnées propose des suggestions et des recommandations personnalisées aux entreprises grâce à l'analyse prédictive.
Il aide également les entreprises à lancer de nouveaux produits en fonction des préférences et des besoins des clients. Cela aide les entreprises à gagner beaucoup plus, environ 5 à 20% de plus. Des entreprises comme Bank of America, LinkedIn, Twitter, Walmart, Facebook, etc. utilisent l'analyse Big Data pour augmenter leurs revenus.
Q # 16) Lors du déploiement d'une solution Big Data, quelles étapes devez-vous suivre?
Réponse: Il y a trois étapes à suivre lors du déploiement d'une solution Big Data:
- Ingestion de données C'est la première étape du déploiement d'une solution Big Data. Il s'agit de l'extraction des données à partir de diverses sources telles que SAP, MYSQL, Salesforce, fichiers journaux, base de données interne, etc. L'ingestion de données peut se faire par le biais de flux en temps réel ou de travaux par lots.
- Stockage de données- Une fois les données ingérées, les données extraites doivent être stockées quelque part. Il est stocké dans des bases de données HDFS ou NoSQL. HDFS fonctionne bien pour un accès séquentiel via HBase pour un accès aléatoire en lecture ou en écriture.
- Traitement de l'information- C'est la troisième et dernière étape du déploiement sur une solution Big Data. Après le stockage, les données sont traitées via l'un des principaux frameworks comme MapReduce ou Pig.
Q # 17) Qu'est-ce qu'un scanner de blocs et de blocs dans HDFS?
Répondre: Un bloc est la quantité minimale de données qui peuvent être écrites ou lues dans HDFS. 64 Mo est la taille par défaut d'un bloc.
Le scanner de blocs est un programme qui suit périodiquement le nombre de blocs sur un DataNode et les vérifie pour d'éventuelles erreurs de somme de contrôle et de corruption de données.
Q # 18) Quels sont les défis que vous avez rencontrés lors de l'introduction de nouvelles applications d'analyse de données si vous en avez déjà introduit une?
Répondre: Si vous n'avez jamais introduit de nouvelles analyses de données, vous pouvez simplement le dire. Parce qu'ils sont assez chers et donc ce n'est pas souvent que les entreprises le font. Mais si une entreprise décide d'y investir, cela peut être un projet extrêmement ambitieux. Il faudrait des employés hautement qualifiés pour installer, connecter, utiliser et entretenir ces outils.
Donc, si vous avez déjà traversé le processus, dites-leur quels obstacles vous avez rencontrés et comment vous les avez surmontés. Si vous ne l’avez pas fait, dites-leur en détail ce que vous savez du processus. Cette question détermine si vous disposez du savoir-faire de base pour résoudre les problèmes qui pourraient survenir lors de l'introduction de nouvelles applications d'analyse de données.
Exemple de réponse; «J'ai participé à l'introduction de nouvelles analyses de données dans mon entreprise précédente. L'ensemble du processus est élaboré et nécessite un processus bien planifié pour une transition la plus douce possible.
Cependant, même avec une planification impeccable, nous ne pouvons pas toujours éviter des circonstances et des problèmes imprévus. L'un de ces problèmes était une demande incroyablement élevée de licences utilisateur. Cela a dépassé nos attentes. Pour obtenir les licences supplémentaires, l'entreprise a dû réaffecter les ressources financières.
De plus, la formation devait être planifiée de manière à ne pas gêner le flux de travail. Nous avons également dû optimiser l’infrastructure pour prendre en charge le nombre élevé d’utilisateurs. »
Q # 19) Que faire si NameNode plante dans le cluster HDFS?
Répondre: Le cluster HDFS n'a qu'un seul NameNode et il conserve les métadonnées de DataNode. Le fait de n'avoir qu'un seul NameNode donne aux clusters HDFS un point de défaillance unique.
Ainsi, si NameNode tombe en panne, les systèmes peuvent devenir indisponibles. Pour éviter cela, nous pouvons spécifier un NameNode secondaire qui prend les points de contrôle périodiques dans les systèmes de fichiers HDFS mais ce n'est pas une sauvegarde du NameNode. Mais nous pouvons l'utiliser pour recréer NameNode et redémarrer.
Q # 20) Différence entre NAS et DAS dans le cluster Hadoop.
Répondre: Dans le NAS, les couches de stockage et de calcul sont séparées, puis le stockage est réparti entre différents serveurs du réseau. Dans DAS, le stockage est généralement attaché au nœud de calcul. Apache Hadoop est basé sur le principe du traitement à proximité d'un emplacement de données spécifique.
Par conséquent, le disque de stockage doit être local au calcul. DAS vous aide à obtenir des performances sur un cluster Hadoop et peut être utilisé sur du matériel standard. En termes simples, c'est plus rentable. Le stockage NAS est préféré avec une bande passante élevée d'environ 10 GbE.
Q # 21) La construction d'une base de données NoSQL est-elle meilleure que la construction d'une base de données relationnelle?
(image la source )
Répondre: En réponse à cette question, vous devez présenter vos connaissances sur les deux bases de données. En outre, vous devez le sauvegarder avec un exemple de situation démontrant comment vous allez ou avez appliqué le savoir-faire dans un projet réel.
Votre réponse pourrait être quelque chose comme ceci: «Dans certaines situations, il peut être avantageux de créer une base de données NoSQL. Dans ma dernière entreprise, lorsque la taille du système de franchise augmentait de façon exponentielle, nous avons dû évoluer rapidement pour tirer le meilleur parti de toutes les données opérationnelles et de vente dont nous disposions.
La mise à l'échelle est meilleure que la mise à l'échelle avec des serveurs plus gros pour gérer l'augmentation de la charge de traitement des données. Il est rentable et plus facile à réaliser avec les bases de données NoSQL car il peut facilement traiter d'énormes volumes de données. Cela est pratique lorsque vous devez réagir rapidement à des changements de charge de données considérables à l'avenir.
Bien que les bases de données relationnelles offrent une meilleure connectivité à tous les outils d'analyse. Mais les bases de données NoSQL ont beaucoup à offrir. »
Q # 22) Que faites-vous lorsque vous rencontrez un problème inattendu avec la maintenance des données? Avez-vous essayé des solutions prêtes à l'emploi pour cela?
Répondre: Inévitablement, des problèmes inattendus surviennent de temps en temps dans chaque tâche de routine, même pendant la maintenance des données. Cette question vise à savoir si vous pouvez gérer des situations de haute pression et comment.
Vous pouvez dire quelque chose comme «la maintenance des données peut être une tâche de routine, mais il est essentiel de surveiller de près les tâches spécifiques, notamment en s'assurant de la bonne exécution des scripts.
Une fois lors de la vérification d'intégrité, je suis tombé sur un index corrompu qui aurait pu causer de graves problèmes à l'avenir. C’est pourquoi j’ai proposé une nouvelle tâche de maintenance pour empêcher l’ajout d’index corrompus dans la base de données de l’entreprise. »
Q # 23) Avez-vous déjà formé quelqu'un dans votre domaine? Si oui, qu'avez-vous trouvé le plus difficile à ce sujet?
Répondre: En général, des ingénieurs de données sont nécessaires pour former leurs collègues sur les nouveaux systèmes ou processus que vous avez créés ou pour former de nouveaux employés sur des systèmes et une architecture déjà existants. Donc, avec cette question, votre intervieweur veut savoir si vous pouvez gérer cela. Si vous n’avez pas eu la chance de former quelqu'un vous-même, parlez des défis que quelqu'un qui a formé ou vous savez que vous avez affronté.
Un échantillon de la réponse idéale sera quelque chose comme ça. «Oui, j'ai eu la chance de former des petits et des grands groupes de collaborateurs. La formation de nouveaux employés ayant une expérience significative dans une autre entreprise est la tâche la plus difficile que j'ai rencontrée. Ils sont souvent tellement habitués à aborder les données sous un angle différent qu'ils ont du mal à accepter la façon dont nous faisons les choses.
Souvent, ils sont extrêmement opiniâtres et pensent tout savoir et c’est pourquoi il leur faut beaucoup de temps pour se rendre compte qu’un problème peut avoir plus d’une solution. J'essaie de les encourager à ouvrir leur esprit et à accepter d'autres possibilités en mettant l'accent sur le succès de notre architecture et de nos processus.
Q # 24) Quels sont les avantages et les inconvénients de travailler dans le cloud computing?
(image la source )
Répondre:
Avantages:
- Aucun coût d'infrastructure.
- Gestion minimale.
- Pas de soucis concernant la gestion et l'administration.
- Facile d'accès.
- Payez ce que vous utilisez.
- C'est fiable.
- Il offre le contrôle, la sauvegarde et la restauration des données.
- Grand stockage.
Les inconvénients:
- Il a besoin d'une bonne connexion Internet avec une bande passante tout aussi bonne pour fonctionner correctement.
- Il a son temps d'arrêt.
- Votre contrôle de l'infrastructure sera limité.
- Il y a peu de flexibilité.
- Il a certains coûts permanents.
- Il peut y avoir des problèmes de sécurité et techniques.
Q # 25) Le travail des ingénieurs de données est généralement «en coulisses». Êtes-vous à l'aise de travailler loin des «projecteurs»?
Répondre: Votre responsable du recrutement veut savoir si vous aimez les feux de la rampe ou si vous pouvez bien travailler dans les deux situations. Votre réponse devrait leur dire que même si vous aimez les feux de la rampe, vous êtes également à l'aise pour travailler en arrière-plan.
«Ce qui compte pour moi, c’est que je devrais être un expert dans mon domaine et contribuer à la croissance de mon entreprise. Si je dois travailler sous les projecteurs, je suis également à l'aise de le faire. S'il y a un problème que les dirigeants doivent résoudre, je n'hésiterai pas à faire entendre ma voix et à le porter à leur attention.
Q # 26) Que se passe-t-il lorsque le scanner de blocs détecte un bloc de données corrompu?
Répondre: Tout d'abord, DataNode fait rapport à NameNode. Puis NameNode commence à créer une nouvelle réplique via la réplique du bloc corrompu. Le bloc de données corrompu ne sera pas supprimé si le nombre de réplications des répliques appropriées correspond au facteur de réplication.
Q # 27) Avez-vous déjà trouvé une nouvelle utilisation innovante pour des données déjà existantes? Cela a-t-il eu un effet positif sur l'entreprise?
Répondre: Cette question leur est destinée pour savoir si vous êtes suffisamment motivé et désireux de contribuer au succès des projets. Si possible, répondez à la question par un exemple où vous avez pris en charge un projet ou avez eu une idée. Et si vous avez déjà présenté une nouvelle solution à un problème, ne la manquez pas non plus.
Exemple de réponse: «Dans mon dernier emploi, j'ai participé à la découverte des raisons pour lesquelles nous avons un taux de roulement élevé du personnel. J'ai observé de près les données de divers départements où j'ai trouvé des données hautement corrélées dans des domaines clés comme la finance, le marketing, les opérations, etc. et le taux de rotation du personnel.
Collaboration avec les analystes du département pour une meilleure compréhension de ces corrélations. Grâce à notre compréhension, nous avons apporté des changements stratégiques qui ont eu une incidence positive sur le taux de rotation du personnel. »
Q # 28) Selon vous, quelles compétences non techniques sont les plus utiles en tant qu'ingénieur de données?
Répondre: Essayez d'éviter les réponses les plus évidentes comme la communication ou les compétences interpersonnelles. Vous pouvez dire: «L'établissement de priorités et le multitâche ont souvent été utiles dans mon travail. Nous obtenons diverses tâches en une journée car nous travaillons avec différents départements. Et par conséquent, il devient vital que nous leur donnions la priorité. Cela facilite notre travail et nous aide à tous les terminer efficacement. »
Q # 29) Quels sont les problèmes courants auxquels vous avez été confrontés en tant qu'ingénieur de données?
Réponse: Ce sont:
- Intégration continue et en temps réel.
- Stocker d'énormes quantités de données et d'informations à partir de ces données.
- Contraintes de ressources.
- Examiner les outils à utiliser et ceux qui peuvent fournir les meilleurs résultats.
Conclusion
L'ingénierie des données peut sembler un travail de routine ennuyeux, mais il comporte de nombreuses facettes intéressantes. Cela ressort clairement des questions que les enquêteurs pourraient poser sur le scénario. Vous devez être prêt à répondre non seulement à des questions techniques, mais également à des questions situationnelles comme celles énumérées ci-dessus. Ce n'est qu'alors que vous pourrez prouver que vous pouvez bien faire votre travail et le mériter.
Tous mes vœux!!
lecture recommandée
- Questions et réponses d'entrevue
- Questions et réponses d'entrevue de test ETL
- Top 32 des meilleures questions et réponses d'entrevue de datastage
- Principales questions et réponses d'entrevue JSON
- Questions et réponses sur les entretiens avec Teradata
- Top 24 des questions d'entrevue de modélisation de données avec des réponses détaillées
- Top 50+ questions et réponses d'entretien de base de données
- Top 30 des questions et réponses d'entrevue SAS