
Ingénieur système et opération – Usine à GPU – AI Factory
AB10ISO
Notre client est un acteur Cloud, opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
Nous recherchons un Ingénieur système et opération. Intégré à l’équipe AI Factory, vous êtes en charge d’opérer les usines à GPU de notre client.
Vos missions :
– Le déploiement des couches logicielles, depuis les OS de base jusqu’aux couches d’abstraction de type hyperviseur de virtualisation, orchestrateur de container
– La configuration des serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink
– La mise en place des outils de supervision et de monitoring, en particulier :
o La surveillance matérielle de l’usine à IA allant des moyens de refroidissement (CDU / échangeurs thermiques, identification des fuites d’eau), les moyens de calcul (serveurs), les équipements de communication réseau et fabric internes aux serveurs (Nvlink), les GPU (température, performance, utilisation)
o La surveillance système pour toutes les couches logicielles de bas niveau
o La surveillance des services qui seront définis
o La surveillance de la disponibilité et de la performance du stockage
o La surveillance des performances d’ensemble de bout-en-bout
o La mise en place d’un cockpit de supervision permettant de visualiser de manière synthétique l’état de l’usine à GPU
o La mise en place d’un dashboard management permettant de visualiser des éléments simplifiés à l’usage du management de l’entreprise et permettant de visualiser l’état de disponibilité des services et l’état des performances des
services
– L’élaboration de dispositifs permettant l’automatisation des opérations, en particulier :
o La mise à jour des composants logiciels
o La relance / réparation (self-healing) des composants logiciels lorsque c’est faisable
o L’isolation de GPU / nœuds / serveurs qui ne seraient plus en mesure d’exécuter des traitements
o La relance des traitements sur un autre serveur lorsque cela est faisable au niveau applicatif
– L’élaboration des process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC)
– La gestion de la capacité avec identification en avance de phase des saturations, identification des usages principaux et mise en place de dashboards permettant la prise de décision sur les investissements à réaliser
– La gestion de la sécurité en relation avec les équipes Cyber Sécurité
– La gestion du réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l’AI Factory
– Le paramétrage des outils de management de l’usine à GPU
– Le paramétrage des accès au stockage, la vérification de la performance d’accès au stockage pour l’ensemble des nœuds
– La sauvegarde et la restauration des configurations permettant la relance de l’usine à GPU en cas de dysfonctionnement
– L’élaboration d’un plan de débordement afin d’utiliser une autre usine à GPU en cas de saturation
– L’élaboration d’un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d’indisponibilité majeure
– Le support aux utilisateurs internes
– L’intégration de services nouveaux développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia)
– Mise en œuvre des outils Nvidia Mission Control et Nvidia Run:ai
– Mise en place de métrique de coût (€/TFLOPS, €/VM, €/heure GPU)
Profil requis :
– Formation : ingénieur ou équivalent BAC+5.
Expérience professionnelle antérieure :
– Si possible 2 ans d’expérience
– Débutant accepté à condition que la personne soit un passionné d’informatique, de hardware, etc.
– Langue : maîtrise du français et de l’anglais obligatoire.
Compétences techniques : à minima 2 compétences parmi celles ci-dessous :
– Administration système d’exploitation Linux (pas uniquement utilisateur)
– Déploiement et opération de containers en particulier Docker et/ou Kubernetes
– Déploiement et/ou administration d’infrastructure de supercalcul (HPC / High performance computing)
– Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco
– Cloud Expert AWS ou GCP ou Azure
– Déploiement / administration d’hyperviseurs de virtualisation, ou de logiciels d’orchestration Cloud
– Administration des outils de gestion d’infrastructure Nvidia : Mission Control et/ou Run:ai
– L’une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE