L'essentiel

Icon de la nomenclature

Nomenclature
du niveau de qualification

Niveau 7

Icon NSF

Code(s) NSF

326 : Informatique, traitement de l'information, réseaux de transmission

326p : Informatique, traitement de l'information (organisation, gestion)

326t : Programmation, mise en place de logiciels

Icon formacode

Formacode(s)

31023 : Données massives

Icon date

Date d’échéance
de l’enregistrement

14-12-2025

Niveau 7

326 : Informatique, traitement de l'information, réseaux de transmission

326p : Informatique, traitement de l'information (organisation, gestion)

326t : Programmation, mise en place de logiciels

31023 : Données massives

14-12-2025

Nom légal Siret Nom commercial Site internet
PMN 88436959600025 Ecole PMN http://www.ecole-pmn.fr

Objectifs et contexte de la certification :

Le Data Engineer préconise et met en place les ressources techniques nécessaires à la performance de l’analyse des données massives et de l’intelligence artificielle.

Véritable interface entre la technique et le métier, le Data Engineer est au cœur du déploiement des technologies Big Data et de l’exploitation des données métier. À partir de la problématique métier, et en fonction des algorithmes pertinents envisagés, il met en place une plateforme de collecte et de traitements des données adaptée, suit l’ensemble du processus de développement de Big Data et de l’intelligence artificielle, et en propose les adaptations.   

Les nombreuses utilisations de l’intelligence artificielle font émerger des besoins de compétences : de la collecte à l’analyse de données, du langage de programmation en passant par l’architecture.

Activités visées :

Concevoir un projet d’architecture de gestion de données massives

Elaborer une solution technique de collecte et de traitement de données massives

Déployer l’architecture de gestion de données massives

Piloter un projet de gestion de données massives

Compétences attestées :

 Analyser le fonctionnement d’une organisation et ses flux de données à partir d’une cartographie des données et d’une étude préalable afin d’identifier l’opportunité de développement d’un projet d’architecture

Décrire, en les formalisant, des cas d’usages du domaine de la Data en exploitant des méthodes d’idéation et en prenant en compte les spécificités de l’écosystème pour déterminer les besoins d’une architecture de gestion de données

Elaborer un système de veille technologique et réglementaire propre au secteur du numérique avec une attention particulière sur les thèmes du cloud, du décisionnel et du Big Data en sélectionnant différentes sources vérifiées, en collectant et en analysant les informations afin d’adapter les choix technologiques et les pratiques associées aux tendances observées

Identifier les sources critiques relatives au respect du cadre juridique et de la démarche de responsabilité sociétale en suivant les publications des organismes officiels afin d’améliorer la conformité du projet d’architecture de gestion de données massives en continu et de garantir le respect du cadre juridique

Partager les résultats issus de la veille en les synthétisant en interne via un outil de partage documentaire professionnel afin de diffuser les bonnes pratiques et le respect réglementaire auprès des équipes projet

 Initier une étude de faisabilité de l’architecture data en collaboration avec un Data Scientist ou un Data Analyst, en sélectionnant et en catégorisant les données à traiter en fonction de leur disponibilité, leur valeur ajoutée et leur adéquation vis-à-vis du projet d’architecture, afin de définir le périmètre du prototype

 Elaborer un prototype de l’architecture data en utilisant la technologie retenue sur un périmètre fonctionnel réduit afin d’évaluer son opérationnalité et sa pertinence au regard des besoins identifiés

Rédiger un cahier des charges formalisant les besoins, les objectifs, les risques, les contraintes, les sources de données ainsi que les enjeux réglementaires (RGAA, RGPD) et éthiques associés tels que la RSE et la sobriété énergétique Green IT afin de définir le périmètre du projet 

Rédiger les spécifications techniques et fonctionnelles générales de l’architecture d’analyse de données massives en analysant les besoins et les retours d’expérience du prototype afin de préparer la mise en œuvre du projet

Concevoir un processus de collecte et de traitement de données massives en déterminant le référentiel de données, en créant des procédures de sélection et d’extraction de données multiples ainsi que des solutions de stockages afin de préparer le paramétrage des outils d’extraction, de traitement et de chargement

Elaborer une doctrine de collecte et de traitement des données exhaustive et commune à l’organisation en décrivant les étapes et calculs de traitement et de visualisation des données dans le respect des normes juridiques et des procédures garantissant la sécurité des données et des systèmes afin de réduire les risques juridiques

Intégrer des donnés à la solution de traitement en extrayant les sources au préalable, en élaborant des circuits automatisant les flux de données et en transformant les données de différentes sources afin de les mettre en forme et les harmoniser avant de les stocker

Alimenter les environnements de stockage en lançant la procédure de chargement des données et en supervisant son bon fonctionnement afin d’avoir à disposition une base correctement structurée et des données actualisées et exploitables

Installer et paramétrer des solutions de stockage de données massives en structurant des bases de données NoSQL, en organisant des systèmes de fichiers distribués et de stockage répartis de données afin d’obtenir un environnement de stockage opérationnel et conforme aux spécifications

Mettre à disposition l’ensemble des données aux Data Scientists ou aux Data Analysts selon un format exploitable en s’appuyant sur les données de référence du système d’information afin de garantir la qualité de données et la consolidation des systèmes de stockage de données sur le cloud au sein de Data Warehouse/Data Lake

Analyser de gros volumes de données en développant des algorithmes et en réalisant des analyses statistiques et techniques au moyen de langages d’exploration ou statistiques afin de produire des résultats chiffrés et quantifiés

Présenter les résultats aux utilisateurs de la solution sous forme de rapports structurés et intelligibles en exploitant des outils de restitution de données, en ajoutant des moyens de segmentation et d’organisation des données afin de garantir la compréhension des points importants de l'analyse aux utilisateurs

Tester l’architecture d’exploitation de données massives élaborée en concevant des tests de validation et en les menant sur l’environnement de recette afin de garantir son bon fonctionnement .et de décider ou non de mettre en production la solution

Rédiger le bilan des tests dans un procès-verbal de recette après consignation des résultats dans un tableau afin de valider la mise en production de la solution par une instance décisionnaire

Déployer la solution informatique en installant tous les composants sur le SI avec les équipe techniques d’exploitation, en installant la solution et en définissant les rôles et habilitations utilisateurs afin de rendre l’architecture opérationnelle

Activer les procédures d’échanges et de synchronisation des données avec les autres briques fonctionnelles du SI afin de les interconnecter au moyen des outils et automatismes du SI

Accompagner les équipes utilisatrices à la prise en main de la solution en présentant les méthodes et concepts associés, en explicitant les fonctionnalités de l’architecture, en prenant en compte les éventuelles situations de handicap afin d’assurer la montée en compétences des équipes clients

 Assurer un appui technique aux équipes utilisatrices au moyen d’outils de collecte et de traitement d’anomalies, d’incidents ou de problèmes afin d’assurer l’appropriation de la solution par les équipes

Conduire une maintenance corrective régulière en implémentant un système d’enregistrement et de gestion des incidents et anomalies, afin d’assurer le maintien opérationnel de l’architecture et des outils développés

Conduire une maintenance évolutive compte tenu des évolutions réglementaires et techniques liés à la sécurité des données et des systèmes, en intégrant de nouveaux besoins identifiés dans une feuille de route applicative (RoadMap) validé par une instance décisionnaire afin d’assurer l’opérationnalité de l’architecture et de ses outils dans le temps et de répondre aux besoins émergents sur le marché

Déterminer l’organisation du projet en rédigeant un plan de projet formalisant les facteurs clés de succès, l’inclusion des personnes en situation de handicap, l’évaluation des charges, l’identification des acteurs, un plan d’actions intégrant les spécifications techniques et fonctionnelles afin de partager ce cadrage avec les acteurs du projet

 Définir les conditions de suivi du projet et les instances de pilotage en les décrivant dans le plan de projet afin de répondre aux orientations du projet de gestion de données massives dans le délai imparti

Superviser un projet d’architecture de gestion de données massives en organisant et coordonnant l’équipe projet, en vérifiant le respect des clauses contractuelles, effectuant des reporting, en exploitant des méthodes agiles et en prenant en compte les éventuelles situations de handicap afin d’assurer l’exécution du projet

Suivre le budget alloué au projet en identifiant les charges consommées et le reste à produire et en mesurant les écarts entre le prévu et le réalisé afin de respecter la limite financière du projet

Coordonner efficacement les membres de l’équipe projet en assurant un suivi RH régulier, la gestion des compétences et les entretiens annuels des acteurs en tenant compte des périmètres métiers de chacun ainsi que des éventuelles situations de handicap afin d’en assurer un déroulement optimal

Déterminer les modalités, les outils et les étapes formalisés dans un plan d’accompagnement en tenant compte du contexte du projet d’architecture de données massives, des outils de communication et de formation disponibles afin de préparer l’accompagnement au changement adapté au contexte du projet

Rédiger la documentation fonctionnelle à destination des utilisateurs et de l’équipe technique dans un outil de partage documentaire afin d’assurer leur appropriation de la solution et leur adhésion

Modalités d'évaluation :

Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale

Présentation d'un mémoire construit autour d’actions menées en entreprise liées aux compétences de la certification.

RNCP37172BC01 - Concevoir un projet d’architecture de gestion de données massives

Liste de compétences Modalités d'évaluation

 Analyser le fonctionnement d’une organisation et ses flux de données à partir d’une cartographie des données et d’une étude préalable afin d’identifier l’opportunité de développement d’un projet d’architecture

Décrire, en les formalisant, des cas d’usages du domaine de la Data en exploitant des méthodes d’idéation et en prenant en compte les spécificités de l’écosystème pour déterminer les besoins d’une architecture de gestion de données

Elaborer un système de veille technologique et réglementaire propre au secteur du numérique avec une attention particulière sur les thèmes du cloud, du décisionnel et du Big Data en sélectionnant différentes sources vérifiées, en collectant et en analysant les informations afin d’adapter les choix technologiques et les pratiques associées aux tendances observées

Identifier les sources critiques relatives au respect du cadre juridique et de la démarche de responsabilité sociétale en suivant les publications des organismes officiels afin d’améliorer la conformité du projet d’architecture de gestion de données massives en continu et de garantir le respect du cadre juridique

Partager les résultats issus de la veille en les synthétisant en interne via un outil de partage documentaire professionnel afin de diffuser les bonnes pratiques et le respect réglementaire auprès des équipes projet

 Initier une étude de faisabilité de l’architecture data en collaboration avec un Data Scientist ou un Data Analyst, en sélectionnant et en catégorisant les données à traiter en fonction de leur disponibilité, leur valeur ajoutée et leur adéquation vis-à-vis du projet d’architecture, afin de définir le périmètre du prototype

 Elaborer un prototype de l’architecture data en utilisant la technologie retenue sur un périmètre fonctionnel réduit afin d’évaluer son opérationnalité et sa pertinence au regard des besoins identifiés

Rédiger un cahier des charges formalisant les besoins, les objectifs, les risques, les contraintes, les sources de données ainsi que les enjeux réglementaires (RGAA, RGPD) et éthiques associés tels que la RSE et la sobriété énergétique Green IT afin de définir le périmètre du projet 

Rédiger les spécifications techniques et fonctionnelles générales de l’architecture d’analyse de données massives en analysant les besoins et les retours d’expérience du prototype afin de préparer la mise en œuvre du projet

Mise en situation professionnelle - Cas pratique avec rendu de livrables

 

RNCP37172BC02 - Elaborer une solution technique de collecte et de traitement de données massives

Liste de compétences Modalités d'évaluation

Concevoir un processus de collecte et de traitement de données massives en déterminant le référentiel de données, en créant des procédures de sélection et d’extraction de données multiples ainsi que des solutions de stockages afin de préparer le paramétrage des outils d’extraction, de traitement et de chargement

Elaborer une doctrine de collecte et de traitement des données exhaustive et commune à l’organisation en décrivant les étapes et calculs de traitement et de visualisation des données dans le respect des normes juridiques et des procédures garantissant la sécurité des données et des systèmes afin de réduire les risques juridiques

Intégrer des donnés à la solution de traitement en extrayant les sources au préalable, en élaborant des circuits automatisant les flux de données et en transformant les données de différentes sources afin de les mettre en forme et les harmoniser avant de les stocker

Alimenter les environnements de stockage en lançant la procédure de chargement des données et en supervisant son bon fonctionnement afin d’avoir à disposition une base correctement structurée et des données actualisées et exploitables

Installer et paramétrer des solutions de stockage de données massives en structurant des bases de données NoSQL, en organisant des systèmes de fichiers distribués et de stockage répartis de données afin d’obtenir un environnement de stockage opérationnel et conforme aux spécifications

Mettre à disposition l’ensemble des données aux Data Scientists ou aux Data Analysts selon un format exploitable en s’appuyant sur les données de référence du système d’information afin de garantir la qualité de données et la consolidation des systèmes de stockage de données sur le cloud au sein de Data Warehouse/Data Lake

Analyser de gros volumes de données en développant des algorithmes et en réalisant des analyses statistiques et techniques au moyen de langages d’exploration ou statistiques afin de produire des résultats chiffrés et quantifiés

Présenter les résultats aux utilisateurs de la solution sous forme de rapports structurés et intelligibles en exploitant des outils de restitution de données, en ajoutant des moyens de segmentation et d’organisation des données afin de garantir la compréhension des points importants de l'analyse aux utilisateurs

Tester l’architecture d’exploitation de données massives élaborée en concevant des tests de validation et en les menant sur l’environnement de recette afin de garantir son bon fonctionnement .et de décider ou non de mettre en production la solution

Rédiger le bilan des tests dans un procès-verbal de recette après consignation des résultats dans un tableau afin de valider la mise en production de la solution par une instance décisionnaire.

Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale

RNCP37172BC03 - Déployer l’architecture de gestion de données massives

Liste de compétences Modalités d'évaluation

Déployer la solution informatique en installant tous les composants sur le SI avec les équipe techniques d’exploitation, en installant la solution et en définissant les rôles et habilitations utilisateurs afin de rendre l’architecture opérationnelle

Activer les procédures d’échanges et de synchronisation des données avec les autres briques fonctionnelles du SI afin de les interconnecter au moyen des outils et automatismes du SI

Accompagner les équipes utilisatrices à la prise en main de la solution en présentant les méthodes et concepts associés, en explicitant les fonctionnalités de l’architecture, en prenant en compte les éventuelles situations de handicap afin d’assurer la montée en compétences des équipes clients

 Assurer un appui technique aux équipes utilisatrices au moyen d’outils de collecte et de traitement d’anomalies, d’incidents ou de problèmes afin d’assurer l’appropriation de la solution par les équipes

Conduire une maintenance corrective régulière en implémentant un système d’enregistrement et de gestion des incidents et anomalies, afin d’assurer le maintien opérationnel de l’architecture et des outils développés

Conduire une maintenance évolutive compte tenu des évolutions réglementaires et techniques liés à la sécurité des données et des systèmes, en intégrant de nouveaux besoins identifiés dans une feuille de route applicative (RoadMap) validé par une instance décisionnaire afin d’assurer l’opérationnalité de l’architecture et de ses outils dans le temps et de répondre aux besoins émergents sur le marché

Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale

RNCP37172BC04 - Piloter un projet de gestion de données massives

Liste de compétences Modalités d'évaluation

Déterminer l’organisation du projet en rédigeant un plan de projet formalisant les facteurs clés de succès, l’inclusion des personnes en situation de handicap, l’évaluation des charges, l’identification des acteurs, un plan d’actions intégrant les spécifications techniques et fonctionnelles afin de partager ce cadrage avec les acteurs du projet

 Définir les conditions de suivi du projet et les instances de pilotage en les décrivant dans le plan de projet afin de répondre aux orientations du projet de gestion de données massives dans le délai imparti

Superviser un projet d’architecture de gestion de données massives en organisant et coordonnant l’équipe projet, en vérifiant le respect des clauses contractuelles, effectuant des reporting, en exploitant des méthodes agiles et en prenant en compte les éventuelles situations de handicap afin d’assurer l’exécution du projet

Suivre le budget alloué au projet en identifiant les charges consommées et le reste à produire et en mesurant les écarts entre le prévu et le réalisé afin de respecter la limite financière du projet

Coordonner efficacement les membres de l’équipe projet en assurant un suivi RH régulier, la gestion des compétences et les entretiens annuels des acteurs en tenant compte des périmètres métiers de chacun ainsi que des éventuelles situations de handicap afin d’en assurer un déroulement optimal

Déterminer les modalités, les outils et les étapes formalisés dans un plan d’accompagnement en tenant compte du contexte du projet d’architecture de données massives, des outils de communication et de formation disponibles afin de préparer l’accompagnement au changement adapté au contexte du projet

Rédiger la documentation fonctionnelle à destination des utilisateurs et de l’équipe technique dans un outil de partage documentaire afin d’assurer leur appropriation de la solution et leur adhésion

Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

L’obtention de la certification est conditionnée à la validation de l’ensemble des blocs de compétences. Les blocs de compétences peuvent être acquis séparément. Un bloc acquis l’est à vie.  

La validation de la certification est soumise à une évaluation complémentaire prenant la forme d’un mémoire évaluant les compétences de façon transversale faisant l’objet d’en rendu écrit et d’une soutenance orale devant jury.  

La certification sera acquise pour les candidats ayant obtenu une moyenne globale supérieure ou égale à 10/20 et une moyenne par bloc de compétence supérieure ou égale à 5/20. 

Secteurs d’activités :

Tous les secteurs d’activités sont potentiellement concernés par l’usage de l’intelligence artificielle dès lors que des solutions de résolution de problèmes complexes s’appuyant sur l’informatique font l’objet de projets de développement. L’activité du Data Engineer peut s’exercer au sein d’entreprise utilisatrices, de service de conseils, d’organismes publics ou encore chez des constructeurs informatiques. Ainsi, le professionnel peut évoluer dans des entreprises de taille variable, aussi bien au sein d’un grand groupe qu’au sein d’une PME ou d’un service public. En tant qu'indépendant, il intervient majoritairement sur des projets de plusieurs clients différents. Ses missions sont plus larges en indépendant : son expertise est couplée avec les missions du Data Scientist et du Data Analyst.   

Dans une PME / TPE, chez un éditeur de logiciel, il joue un rôle clé dans la définition et l'évolution du produit/système. La demande de compétences sera ici plus variée et les projets de taille inférieure, en règle générale. Il sera aussi amené à travailler avec des partenaires extérieurs et ainsi maîtriser les règles de fonctionnement de ce type de relation.

Dans les petites et moyennes entreprises, le métier est également couplé avec celui de Data Scientist et Data Analyst.

Dans une grande Entreprise de Service Numérique, il apporte son expertise technique sur les infrastructures. Il sera ici focalisé sur son périmètre de projet et son expertise métier, souvent de plus grande taille et interne. Le besoin d'expertise métier y sera équivalent dans une structure moyenne ou grande et va intervenir sur des missions en interne et externe. 

Type d'emplois accessibles :

Data Ingénieur 

Ingénieur de données

Ingénieur Big Data

Concepteur Big Data

Data Scientist

Data Analyst  

Code(s) ROME :

  • M1403 - Études et prospectives socio-économiques
  • M1802 - Expertise et support en systèmes d''information
  • M1805 - Études et développement informatique

Références juridiques des règlementations d’activité :

Dans l’exercice de son activité, le Data Engineer doit respecter le Règlement Général sur la Protection des Données (RGPD), nouveau règlement européen entré en vigueur le 25 mai 2018 faisant écho à la Loi française Informatique et Liberté du 6 janvier 1978.

Ce nouveau règlement accroit la protection des citoyens en renforçant le contrôle de l’utilisation pouvant être faite des données les concernant.

Le Data Engineer participe activement à la politique de responsabilité sociétale des entreprises (RSE) mise en place dans l’organisation à laquelle il appartient ou par le client pour lequel il effectue ses missions. Notamment la transparence et l’éthique dans l’exploitation des données ou l’application des bonnes pratiques du Green IT pour les aspects environnementaux.

Les règle d’accessibilité numériques, Référentiel général d'amélioration de l'accessibilité (RGAA) définissent les bonnes pratiques en termes d’interfaces, de navigation et d’assistance aux utilisateurs des outils qui sont mis à disposition des utilisateurs.

Le cas échant, prérequis à l’entrée en formation :

L'accès au dispositif menant à la certification de Data Engineer est soumis à la condition préalable de détenir un diplôme ou une certification de niveau 6 dans le domaine visé et enregistrée au RNCP. 

Le dispositif s’adresse à des candidats détenant à minima ce niveau 6.

Le cas échant, prérequis à la validation de la certification :

Pré-requis disctincts pour les blocs de compétences :

Non

Validité des composantes acquises :

Validité des composantes acquises
Voie d’accès à la certification Oui Non Composition des jurys
Après un parcours de formation sous statut d’élève ou d’étudiant X

Le jury est composé de 3 membres dont 2 professionnels du domaine

En contrat d’apprentissage X

Le jury est composé de 3 membres dont 2 professionnels du domaine

Après un parcours de formation continue X

Le jury est composé de 3 membres dont 2 professionnels du domaine

En contrat de professionnalisation X

Le jury est composé de 3 membres dont 2 professionnels du domaine

Par candidature individuelle X -
Par expérience X

Le jury est composé de 3 membres dont 2 professionnels du domaine

Validité des composantes acquises
Oui Non
Inscrite au cadre de la Nouvelle Calédonie X
Inscrite au cadre de la Polynésie française X

Statistiques :

Lien internet vers le descriptif de la certification :

https://www.ecole-pmn.fr/formations/mastere-data-engineer-alternance/

Liste des organismes préparant à la certification :

Référentiel d'activité, de compétences et d'évaluation :