Sans action de votre part dans les prochaines minutes, votre session expirera et vous serez déconnecté de la plateforme.
Type de contrat Stagiaire école
Début du contrat 01/03/2023
Localisation Paris 15e Arrondissement, 75, Paris, Île-de-France
Niveau d'études Diplôme d'ingénieur, Master 2 ou titre équivalent de niveau Bac + 5
Domaine professionnel Tous domaines
Niveau d'expérience Etudiant
Rémunération Gratification ou rémunération légale mensuel net
Gratification ou rémunération légale annuel brut (selon expérience)
Avantages en nature -
Télétravail Non

Data science - Exploitation data optimisation F/H

Descriptif de l'organisation

 Rejoindre l’Agence nationale de la sécurité des systèmes d’information (ANSSI), c’est mettre ses compétences au service de l’intérêt général en participant à une mission capitale, d’actualité et porteuse de grandes responsabilités dans un monde où la cybersécurité est devenue l’affaire de tous ! 
Au sein de la sous-direction des Opérations, la division Infrastructures, Données et Développements (DID2) est en charge des infrastructures systèmes et réseaux, de la gestion des données et des traitements associés, des environnements de développement et d’intégration de l’outillage de la sous-direction. 

Descriptif des missions

Intégré à cette division, le bureau Données (BD) est responsable du recueil des besoins métiers, de l'approvisionnement des données, des chaînes de traitement permettant de rendre ces données actionnables, du développement des interfaces et des outils d’accès aux données mais aussi de la conception et de l'exploitation de l'infrastructure de traitement Hadoop.

Contexte du stage :
Les données utilisées par les métiers sont nettoyées, traitées et transformées dans un format unifié à partir d’ETLs. Différents outils sont utilisés pour exploiter ces données et en particulier le framework de calcul distribué Spark.

Objectifs du stage :
Le but du stage est l’optimisation de l’écriture de parquet volumineux en scala. Le stagiaire devra étudier plusieurs solutions techniques afin d’optimiser l’écriture :
  • Utilisation des RDD spark ;
  • Etude des paramètres d’exécution pouvant influencer sur les temps de traitement ;
  • Etude de l’impact de la taille des sous-parquets sur la lecture ;
Le développement de méthode d’écriture optimisée utilisable par plusieurs ETLs est attendu.

Profil recherché

Vous suivez une formation dans le domaine de la data science.

Compétences requises
  • Connaissance des langages Scala indispensable ; 
  • Connaissance des langages de traitement de données dont Sql et/ou Spark ;
  • Connaissance des outils Unix de manipulation de données dont bash, grep, sed, awk, jq ; 
  • Connaissance des architectures de stockage et de traitement de données Big Data Hadoop.

Qualités attendues
  • Curiosité d'esprit et rigueur;
  • Appétence pour les sujets techniques;
  • Autonomie;
  • Capacité de rédaction et de synthèse.

Process de recrutement

  • Si votre candidature est présélectionnée, vous serez contacté(e) pour apprécier vos attentes et vos motivations au cours d'un entretien téléphonique ou physique.
  • Des tests techniques pourront vous être proposés.
  • Vous ferez l'objet d'une procédure d'habilitation.