L'essentiel

Icon de la nomenclature

Nomenclature
du niveau de qualification

Niveau 7

Icon NSF

Code(s) NSF

326 : Informatique, traitement de l'information, réseaux de transmission

Icon formacode

Formacode(s)

31023 : Données massives

31052 : Data Warehouse

31094 : Conduite projet informatique

Icon date

Date d’échéance
de l’enregistrement

26-04-2026

Niveau 7

326 : Informatique, traitement de l'information, réseaux de transmission

31023 : Données massives

31052 : Data Warehouse

31094 : Conduite projet informatique

26-04-2026

Nom légal Siret Nom commercial Site internet
DATASCIENTEST 83145006900024 - https://datascientest.com/

Objectifs et contexte de la certification :

Les technologies liées au Big Data connaissent une ascension fulgurante, entraînant dans leur sillage une croissance notable des opportunités d'emploi. Les organisations, indépendamment de leur envergure ou secteur d'activité, requièrent une infrastructure informatique robuste pour la gestion optimale de leurs données. Dans ce contexte, le rôle du Data Engineer est fondamental.

Le Data Engineer est le maître d'œuvre de la conception et du développement des infrastructures et outils dédiés au traitement des volumes massifs de données, facilitant  notamment le déploiement des solutions d'Intelligence Artificielle. Sa mission centrale est d'orchestrer la collecte des données et d'assurer leur disponibilité au sein de l'organisation, constituant ainsi un maillon essentiel dans la chaîne de valeur des données.

Il endosse également la responsabilité d'industrialiser et de mettre en production des traitements sur les données, tels que la mise à disposition de tableaux de bord dynamiques ou l'intégration de modèles statistiques, en collaboration étroite avec les équipes métiers et les unités d'analyse. Cette activité permet non seulement d'optimiser la qualité et la pertinence des analyses, mais également de catalyser la prise de décision basée sur les données.

Le Data Engineer est ainsi un acteur clé dans l'édification d'un écosystème data-centric au sein de l'entreprise, contribuant directement à l'efficacité opérationnelle, l'innovation, et la compétitivité sur le marché. Son expertise technique combinée à une compréhension aiguisée des enjeux métiers fait de lui un pivot central dans la stratégie de gestion des données de l'organisation.

Activités visées :

Concevoir un projet d’architecture technique de gestion de données 

Elaborer une architecture technique de gestion de données 

Déployer une solution d’analyse de données massives intégrant l’intelligence artificielle

Piloter un projet d’architecture technique de gestion de données

Compétences attestées :

Identifier les besoins en architecture de gestion de données afin de valider l’opportunité de développement d’un projet d’architecture

Élaborer et exercer un système de veille technologique et réglementaire dédié au domaine du numérique en vue d’identifier les cas d’usages et les évolutions technologiques et réglementaires à intégrer dans son activité professionnelle

Exploiter la veille au sein de son organisation dans le but d’informer, de sensibiliser et de faire adhérer ses collaborateurs et sa hiérarchie aux bonnes pratiques et au respect des normes réglementaires

Définir le périmètre du projet de gestion données afin d’assurer son inclusivité, limiter son impact écologique et préparer sa mise en œuvre

Émettre des recommandations auprès de sa hiérarchie et de membres d’une équipe pluridisciplinaire afin qu’ils puissent ainsi contribuer au projet

Collecter les données structurées et non structurées afin de préparer les étapes de transformation et de stockage des données

Élaborer des solutions de stockage afin de consolider le processus de stockage des données de la solution

Concevoir les procédures d’extraction, de traitement et de stockage des données  

Transformer les données en un format approprié pour l’analyse afin de rendre les données disponibles et exploitables dans leur forme et leur contenu

Analyser les données afin d'évaluer l’intégrité et la qualité des données et de présenter les résultats issus de l’analyse aux parties prenantes du projet et aux utilisateurs finaux de la solution

Automatiser les circuits de collecte, de traitement et de stockage des données en vue d’assurer l’opérationnalité de la solution technique

Développer un algorithme d’intelligence artificielle en vue d’intégrer des composants d’intelligence artificielle à la solution technique de gestion de données

Concevoir une interface de programmation entre les composants de la solution afin de préparer le déploiement de la solution d'analyse de données intégrant l'intelligence artificielle

Conteneuriser les composants de l'architecture en protégeant les conteneurs contre les vulnérabilités et les accès non autorisés

Déployer le modèle dans un environnement de production et le rendre opérationnel dans le respect des spécifications fonctionnelles et des bonnes pratiques du domaine

Orchestrer les services de la solution afin de garantir l’exécution fluide et efficace de l’ensemble de l’architecture et de créer une solution évolutive, capable de résoudre des problèmes complexes et de fournir des résultats fiables

Contrôler la mise en production de la solution afin d’assurer l’opérationnalité de la solution et vérifier sa conformité quant aux spécifications établies lors de la constitution du cahier des charges

Automatiser le déploiement de nouvelles versions de la solution et son monitoring à l'aide d’un outil de continuous Integration (CI/CD) permettant de surveiller efficacement l'ensemble du processus, de prévenir toute dégradation des performances et d’assurer la durabilité de la solution

Définir la structure organisationnelle du projet afin que le projet bénéficie d’un mode de gouvernance rationalisé et d’un outil de pilotage répondant aux exigences du cahier des charges

Encadrer le développement du projet d’architecture de données afin de manager les acteurs du projet, d’assurer son inclusivité et de monitorer les avancées

Gérer le budget du projet afin d’identifier les écarts avec le budget prévisionnel et, le cas échéant, de prendre des mesures correctives permettant de respecter les contraintes financières du projet

Communiquer l’avancement et les résultats du projet afin de diffuser l’information permettant la prise de décision et l’implication de l’ensemble des équipes

Evaluer la performance du projet afin d’identifier des axes d’amélioration basés sur l’analyse des KPI, des retours d’expériences utilisateurs et de garantir ainsi une optimisation continue du projet

Former les utilisateurs finaux de la solution dans le but d'assurer la transition et optimiser l’adoption et l’utilisation de la solution par tous les utilisateurs concernés

Modalités d'évaluation :

La certification s'évalue par des mises en situation professionnelles (simulations), des cas réels d'entreprise et un projet fil rouge. L'objectif est de placer le candidat en situation professionnelle afin d'évaluer son degré d'acquisition des compétences et sa capacité à les mettre en oeuvre.

Des présentations orales permettront également au candidat de démontrer sa capacité à transmettre et à convaincre sur ses choix stratégiques. Les candidats présenteront leur analyse, stratégie, plans d'actions ou encore leurs résultats auprès d'acteurs internes (direction de l'entreprise, équipe) ou externes (prestataires).

RNCP38919BC01 - Concevoir un projet d’architecture technique de gestion de données

Liste de compétences Modalités d'évaluation

Identifier les besoins en architecture de gestion de données en analysant la problématique métier, le fonctionnement de l’organisation et l’ensemble de ses flux de données afin de valider l’opportunité de développement d’un projet d’architecture.

Élaborer et exercer un système de veille technologique et réglementaire dédié au domaine du numérique en recensant des sources vérifiées et en menant une analyse des informations récoltées en vue d’identifier les cas d’usages et les évolutions technologiques et réglementaires à intégrer dans son activité professionnelle.

Exploiter la veille, au sein de son organisation, en remettant en cause ses pratiques à l'aulne des évolutions et en diffusant les informations aux interlocuteurs adéquats dans le but d’informer, de sensibiliser et de faire adhérer ses collaborateurs et sa hiérarchie aux bonnes pratiques et au respect des normes réglementaires.

Définir le périmètre du projet de gestion données en formalisant les besoins, les objectifs, les contraintes et les risques ainsi qu’en identifiant les sources de données, les spécifications techniques et fonctionnelles, et les enjeux d’accessibilité, réglementaires, écologiques et éthiques impliqués afin d’assurer son inclusivité, limiter son impact écologique et préparer sa mise en œuvre.

Émettre des recommandations auprès de sa hiérarchie et de membres d’une équipe pluridisciplinaire, en présentant les axes de développement de la solution, en défendant ses propositions et en adaptant sa communication à ses interlocuteurs afin que les propositions soient compréhensibles par l’ensemble des équipes et qu’elles puissent ainsi contribuer au projet.

Mise en situation professionnelle : dans le cadre d’un projet sur la base d’un dossier documentaire, le candidat devra identifier les besoins en architecture, élaborer un système de veille en lien avec le projet, formaliser son périmètre et émettre des recommandations d’architecture. 

Livrable écrit : 

  • Rapport préliminaire 
  • Système de veille, rapport d’analyse 
  • Cahier des charges 
  • Rapport explicitant les recommandations 

RNCP38919BC02 - Elaborer une architecture technique de gestion de données

Liste de compétences Modalités d'évaluation

Collecter les données structurées et non structurées de diverses sources utilisables pour le projet d’architecture via la programmation de scripts et dans le respect du cadre réglementaire et des procédures garantissant la sécurité des données, des réseaux et des systèmes afin de préparer les étapes de transformation et de stockage des données.

Élaborer des solutions de stockage en créant et structurant les bases de données relationnelles et/ou non-relationnelles (SQL, noSQL) le tout, dans le respect des procédures garantissant la sécurité des données, des réseaux et des systèmes afin de consolider le processus de stockage des données de la solution.

Concevoir les procédures d’extraction, de traitement et de stockage des données de l’architecture en schématisant les données de référence et les interactions attendues entre elles puis en définissant chaque étape d’extraction, de transformation et de chargement tout en assurant l’application de protocoles garantissant la sécurité des données, des réseaux et des systèmes et limitant l’impact écologique de la solution.

Transformer les données en un format approprié pour l’analyse en nettoyant les jeux de données et en y appliquant des modifications à l’aide d’outils dédiés afin de rendre les données disponibles et exploitables dans leur forme et leur contenu.

Analyser les données en s’appuyant sur des méthodes et outils d’analyse statistique et de visualisation de données afin d'évaluer l’intégrité et la qualité des données et de présenter les résultats issus de l’analyse aux parties prenantes du projet et aux utilisateurs finaux de la solution.

Automatiser les circuits de collecte, de traitement et de stockage des données en s’appuyant sur l’architecture élaborée, en exploitant des outils dédiés, et en testant le processus d’automatisation en vue d’assurer l’opérationnalité de la solution technique.

Développer un algorithme d’intelligence artificielle en utilisant des méthodes et outils d’apprentissage supervisé et/ou non supervisé dans le respect des principes éthiques et de frugalité en vue d’intégrer des composants d’intelligence artificielle à la solution technique de gestion de données.

Etude de cas : à partir d’un dossier documentaire, le candidat devra élaborer une architecture technique de gestion de données dans le respect de la réglementation et des exigences en termes de sécurité tout en limitant l’impact écologique de la solution.

Livrable écrit : 

  • Explicitation des procédures d’extraction, de traitement et de stockage
  • Base de données implémentée
  • Modélisation des données
  • ETL et rapport détaillant la configuration et les résultats
  • Présentation et justification des algorithmes d’intelligence artificielle intégrés à l’architecture

RNCP38919BC03 - Déployer une solution d’analyse de données massives intégrant l’intelligence artificielle

Liste de compétences Modalités d'évaluation

Concevoir une interface de programmation entre les composants de la solution, en utilisant les API et les langages de programmation appropriés dans le respect des exigences de sécurité afin de préparer le déploiement de la solution d'analyse de données intégrant l'intelligence artificielle.

Conteneuriser les composants de l'architecture en créant des images (virtualisation) pour chacun d’eux, en configurant les conteneurs en prévoyant des mécanismes de gestion d'erreur et les mesures de sécurité appropriées pour protéger les conteneurs contre les vulnérabilités et les accès non autorisés.

Déployer le modèle dans un environnement de production en implémentant le modèle dans le système via des librairies dédiées dans l’optique de le rendre opérationnel dans le respect des spécifications fonctionnelles et des bonnes pratiques du domaine.

Orchestrer les services de la solution en implémentant un processus de gestion et de coordination des composants du système afin de garantir l’exécution fluide et efficace de l’ensemble de l’architecture et de créer une solution évolutive, capable de résoudre des problèmes complexes et de fournir des résultats fiables.

Contrôler la mise en production de la solution grâce à des tests unitaires afin d’assurer l’opérationnalité de la solution et vérifier sa conformité quant aux spécifications établies lors de la constitution du cahier des charges.

Automatiser le déploiement de nouvelles versions de la solution et son monitoring notamment concernant l'évolution de ses données à l'aide d’un outil de continuous Integration (CI/CD) permettant de surveiller efficacement l'ensemble du processus, de prévenir toute dégradation des performances et d’assurer la durabilité de la solution.

Etude de cas :  à partir d’un cas réel ou fictif, le candidat devra déployer une solution d’analyse de données massives intégrant l’intelligence artificielle. Le candidat devra ensuite orchestrer les services de la solution, contrôler la mise en production et automatiser le déploiement de nouvelles versions.   

Livrable écrit :  Présentation de chaque étape, justifiant les choix techniques et le respect du cadre réglementaire :  

  • Présentation de la configuration de l’interface de programmation
  • Image du conteneur par composant
  • Scripts de déploiement et d’orchestration
  • Scripts / configuration d’automatisation (CI/CD)
  • Script des tests unitaires
  • Solution configurée

RNCP38919BC04 - Piloter un projet d’architecture technique de gestion de données

Liste de compétences Modalités d'évaluation

Définir la structure organisationnelle du projet d'architecture technique de gestion de données en planifiant les différentes étapes du projet et en identifiant les parties prenantes à intégrer, ceci en prenant en compte les situations de handicap afin que le projet bénéficie d’un mode de gouvernance rationalisé et d’un outil de pilotage répondant aux exigences du cahier des charges.

Encadrer le développement du projet d’architecture de données via des méthodes de gestion d’équipe et de projet agiles, en prenant en considération les situations de handicap afin de manager les acteurs du projet, d’assurer son inclusivité et de monitorer les avancées.

Gérer le budget du projet en contrôlant régulièrement les dépenses afin d’identifier les écarts avec le budget prévisionnel et, le cas échéant, de prendre des mesures correctives permettant de respecter les contraintes financières du projet.

Communiquer l’avancement et les résultats du projet auprès des parties prenantes et de sa hiérarchie en effectuant des reportings réguliers afin de diffuser l’information permettant la prise de décision et l’implication de l’ensemble des équipes.

Evaluer la performance du projet de Data Engineering via des métriques adaptées au contexte et des outils d’analyse afin d’identifier des axes d’amélioration basés sur l’analyse des KPI, des retours d’expériences utilisateurs et de garantir ainsi une optimisation continue du projet.

Former les utilisateurs finaux de la solution en concevant et déployant un plan d’accompagnement anticipant les chantiers de transformation dans le but d'assurer la transition et optimiser l’adoption et l’utilisation de la solution par tous les utilisateurs concernés.

Mise en situation professionnelle : sur la base d’un projet d’architecture de données, le candidat devra définir la structure organisationnelle du projet. Le candidat coordonnera ses actions avec les autres membres de son équipe en vue de définir les modalités d’organisation.

Le candidat devra soumettre les éléments suivants :

  • Livrable écrit :
    • Un rapport détaillant les modalités de mise en œuvre et d’optimisation du projet
    • Un plan d’accompagnement 
  • Présentation orale dudit projet via la simulation d’un reporting auprès de sa hiérarchie

Etude de cas : sur la base de données d’un projet, le candidat devra mener une analyse des données en vue d’identifier les écarts budgétaires entre les dépenses réelles et le budget prévisionnel, en évaluant les raisons possibles de ces écarts.  Le candidat devra identifier et argumenter des mesures correctives permettant de réduire les écarts constatés.

  • Livrable écrit :
    • Analyse financière
    • Mesures correctives proposées

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

Chaque bloc de compétences est validé de façon indépendante. Sa validation fait l’objet de la délivrance d’une attestation de réussite. Un bloc acquis l’est définitivement. 

La certification totale est délivrée au candidat ayant obtenu les 4 blocs de compétences et ayant validé le projet fil rouge avec soutenance finale devant jury.  

Secteurs d’activités :

Secteurs d'activités : un Data Engineer peut travailler dans une variété de secteurs d'activités en raison de l'importance croissante des données. Les compétences des Data Engineer sont ainsi applicables dans pratiquement tous les secteurs d'activité à mesure que les organisations cherchent à tirer de la valeur de leurs données. Les secteurs dans lesquels les Data Engineer sont particulièrement demandés : technologie et informatique, finance et assurance, santé, commerce, industrie, énergies, transport et logistique, médias.

Contexte de travail : le Data Engineer peut exercer au sein de diverses structures : entreprises utilisatrices, services de conseils, organismes publics, ou encore chez des constructeurs informatiques. La taille de l'entreprise peut varier d'une PME à un grand groupe, et le professionnel peut également opter pour une activité indépendante, intervenant sur des projets de plusieurs clients différents​. Le Data Engineer collabore avec les autres métiers de la donnée, notamment avec le Data Scientist, le Data Analyst ou encore le Data Manager. Il a une très grande responsabilité pour assurer que le Data Scientist et le Data Analyst travaillent dans de bonnes conditions. Il est notamment nécessaire que les données soient structurées, sécurisées et de bonne qualité pour que les modèles de Machine Learning fonctionnent correctement. Il est à nouveau indispensable au Data Scientist lorsqu’il s’agit de mettre en production les modèles prédictifs, une technique que les Data Scientists ne maîtrisent généralement pas. Le Data Engineer est donc un métier au cœur des différents enjeux de la Data, et il est d’autant plus nécessaire que les bases de données deviennent massives. Ses missions deviennent donc plus complexes, et les autres métiers de la Data sont obligés de les lui déléguer.

Type d'emplois accessibles :

Data Engineer - Ingénieur data / big data - Développeur data - Machine learning engineer - Ingénieur en développement big data

Code(s) ROME :

  • M1802 - Expertise et support en systèmes d''information
  • M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information
  • M1803 - Direction des systèmes d''information
  • M1805 - Études et développement informatique

Références juridiques des règlementations d’activité :

Il n’y a pas de réglementation spécifique conditionnant l’accès au métier. Néanmoins, le Data Engineer doit être sensibilisé et se familiariser avec les réglementations suivantes :  

  • Loi Informatique et Libertés (France): Régule la collecte, le traitement, et le stockage des données personnelles. Elle garantit aux individus le droit d'accès, de rectification et d'opposition pour les données les concernant. 

  • RGPD (Règlement Général sur la Protection des Données): C'est une législation européenne qui harmonise les règles de protection des données dans toute l'UE. Elle accentue la responsabilité des entreprises dans la gestion des données et renforce les droits des individus (droit à l'effacement, droit à la portabilité des données, etc.). 

  • Loi pour une République numérique / RGAA: Cette loi vise à promouvoir une économie numérique inclusive et accessible à tous. Le Référentiel Général d'Accessibilité pour les Administrations (RGAA), est un ensemble de critères permettant d'assurer que les services numériques sont accessibles à tous, y compris aux personnes handicapées. 

  • Loi sur la confiance dans l'économie numérique (LCEN): Elle établit les droits et obligations des acteurs de l'économie numérique en France. La LCEN détermine notamment les responsabilités des prestataires techniques (hébergeurs, FAI), et encadre les communications commerciales en ligne. 

A noter, la pratique professionnelle du Data Engineer repose sur une veille active dans un secteur du numérique connaissant de très fortes évolutions. 

Le cas échant, prérequis à l’entrée en formation :

  • Pour accéder au dispositif menant à la certification, le candidat qui veut entrer en 1ère année doit justifier d’un diplôme ou titre RNCP de niveau 6 ou de la validation de 180 crédits ECTS. Les  candidats doivent  aussi  avoir  la compréhension  des  langages SQL, Python et le système Linux et connaître le métier visé par le projet professionnel. Ces notions sont évaluées via un test de positionnement en amont de l’entrée en formation. 
  • Pour accéder au dispositif de la certification en admission parallèle (en seconde année) , le candidat doit justifier la validation d’un titre ou diplôme de "niveau M1" à dominante informatique et/ou validation de 240 ECTS dans la même famille de formation ayant des blocs de compétences comparables. Les  candidats  doivent  aussi  démontrer : Maitrise de Python, SQL, Notions Linux, bonnes notions en Machine Learning, structuration et stockage des grands volumes de données, notions Spark . Ces notions sont évaluées via un test de positionnement en amont de l’entrée en formation. 

Le cas échant, prérequis à la validation de la certification :

Obtenir les 4 blocs de compétences et valider le projet fil rouge avec soutenance finale devant jury. 

Pré-requis disctincts pour les blocs de compétences :

Non

Validité des composantes acquises :

Validité des composantes acquises
Voie d’accès à la certification Oui Non Composition des jurys
Après un parcours de formation sous statut d’élève ou d’étudiant X

4 personnes :

  • Président du jury (professionnel externe, directeur ou chef d’entreprise du secteur) ;
  • Directeur du Titre ;
  • 2 professionnels externes du secteur.
En contrat d’apprentissage X

4 personnes :

  • Président du jury (professionnel externe, directeur ou chef d’entreprise du secteur) ;
  • Directeur du Titre ;
  • 2 professionnels externes du secteur.
Après un parcours de formation continue X

4 personnes :

  • Président du jury (professionnel externe, directeur ou chef d’entreprise du secteur) ;
  • Directeur du Titre ;
  • 2 professionnels externes du secteur.
En contrat de professionnalisation X

4 personnes :

  • Président du jury (professionnel externe, directeur ou chef d’entreprise du secteur) ;
  • Directeur du Titre ;
  • 2 professionnels externes du secteur.
Par candidature individuelle X -
Par expérience X

5 personnes :

  • Président du jury (professionnel externe, directeur ou chef d’entreprise du secteur) ;
  • 2 membres de l’organisme de formation ;
  • 2 professionnels externes du secteur.
Validité des composantes acquises
Oui Non
Inscrite au cadre de la Nouvelle Calédonie X
Inscrite au cadre de la Polynésie française X

Statistiques :

Statistiques
Année d'obtention de la certification Nombre de certifiés Nombre de certifiés à la suite d’un parcours vae Taux d'insertion global à 6 mois (en %) Taux d'insertion dans le métier visé à 6 mois (en %) Taux d'insertion dans le métier visé à 2 ans (en %)
2023 42 0 81 81 -
2022 103 0 89 74 -
2021 41 0 86 72 69

Lien internet vers le descriptif de la certification :

Le certificateur n'habilite aucun organisme préparant à la certification

Référentiel d'activité, de compétences et d'évaluation :