Rechercher une certification - France compétences

Nom légal	Siret	Nom commercial	Site internet
AIVANCITY	88343992900067	-	https://www.aivancity.ai/

Objectifs et contexte de la certification :

La certification « Expert en infrastructures et traitement de données massives » vise à former des professionnels capables de concevoir, déployer et piloter des infrastructures de données massives au service des usages analytiques et des projets d’intelligence artificielle. Elle s’inscrit dans un contexte de transformation numérique marqué par l’augmentation rapide des volumes de données, la généralisation des architectures cloud et le développement des projets data et IA dans l’ensemble des secteurs économiques. Dans ce contexte, les organisations ont besoin de profils capables d’industrialiser la chaîne de traitement des données : collecte, stockage, traitement distribué, fiabilisation et mise à disposition des données pour l’analyse et la prise de décision.

Cette certification vise ainsi à développer des compétences couvrant l’ensemble du cycle de l’ingénierie des données, tout en intégrant les enjeux organisationnels, juridiques et éthiques liés à l’exploitation des données (gouvernance, protection des données personnelles, sécurité et responsabilité des usages). Elle prépare les titulaires à intervenir sur l’ensemble de la chaîne de valeur des infrastructures data et à accompagner les organisations dans la valorisation et la sécurisation de leurs données.

Activités visées :

Identification des méthodes et usages dans le domaine des données massives (Big Data) appliquée à l’organisation

Intégration des considérations éthiques et juridiques et d’accessibilité numérique en lien avec l’utilisation des données massives dans les organisations

Conception et gestion des entrepôts de données

Extraction, transformation et chargement des données structurées, semi-structurées et non structurées provenant de multiples sources

Traitement et adaptation des divers flux de données

Préparation et exportation des données

Analyse et traitement des données massives

Analyse des besoins du projet data

Mise en œuvre et suivi de l’ensemble du processus de développement du projet Big Data

Compétences attestées :

Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en caractérisant les pratiques existantes de Big Data, en structurant une analyse des tendances du marché à partir d’une veille technologique, réglementaire et sectorielle, et en identifiant les architectures, modes d’industrialisation et exigences de sécurité et de conformité réellement déployés sur des projets comparables, pour répondre à une problématique métier.

Analyser les usages et enjeux du Big Data dans les organisations, en mobilisant une veille économique recensant, qualifiant et priorisant les cas d’usage, en estimant la valeur attendue et les impacts, et en identifiant les contraintes de mise en œuvre en matière de sécurité, de conformité, de sobriété numérique et d’accessibilité, afin de détecter les opportunités de projets data au sein de l’organisation.

Définir les méthodes et les outils à appliquer liés au masquage et à l’intégrité des données, en établissant les règles d’accessibilité numérique, de qualité et de maitrise des données, et en assurant la conformité avec la réglementation en vigueur et les référentiels éthiques afin de garantir des usages responsables, inclusifs et conformes des données.

Analyser les risques juridiques et éthiques liés à la gestion des données en analysant la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation y compris les risques liés à la prévention santé-sécurité, à l’accessibilité numérique et à l’inclusion des personnes en situation de handicap lorsque les usages data y exposent l’organisation, afin de contribuer à la mise en œuvre d’une politique de protection de données efficace.

Mettre en œuvre une architecture d’entrepôt de données, en concevant et en déployant des solutions relationnelles ou non relationnelles, en sélectionnant les outils et les technologies appropriés, et en intégrant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers, ainsi que les exigences de sécurité, de traçabilité, de durabilité et d’accessibilité, pour assurer le stockage et l’exploitation des données.

Exploiter un entrepôt de données en administrant et en gérant les composants de la plateforme, en utilisant les technologies des données massives et les outils du Cloud appropriés, et en assurant la disponibilité, la performance, la supervision et la maîtrise des accès, pour exploiter efficacement les données répondant aux problématiques métier de l’organisation.

Alimenter un entrepôt de données en extrayant, en transformant et en chargeant des données hétérogènes au regard des besoins métiers, en s’appuyant sur la technologie ETL et en appliquant des règles de qualité, d’intégrité et de traçabilité des transformations dans le respect des contraintes légales et des principes de responsabilité et d’éthique, en appliquant la minimisation et les mesures de protection adaptées, et en intégrant les exigences d’accessibilité, afin d’assurer des synchronisations fiables de vastes ensembles de données.

Sécuriser des pipelines de données en créant et en gérant des chaînes de traitement issues de sourceshétérogènes, internes et externes à l'entreprise en mettant en œuvre des contrôles d’intégrité et en limitant l’empreinte des traitements par l’optimisation des flux et des ressources, afin de permettre l’exploitation et le stockage des données dans des conditions maîtrisées, afin de les exploiter et de les stocker.

Optimiser la collecte et la gestion des flux de données, en sélectionnant et en mettant en place des outils de traitement adaptés à la complexité, aux catégories et à la qualité des données, en intégrant des critères de sobriété numérique, de sécurité, et d’accessibilité lorsque les flux alimentent des services destinés aux utilisateurs, afin d’assurer une collecte efficiente et robuste.

Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues, en s’appuyant sur des outils de streaming et de supervision des données exploitées, pour répondre aux besoins métiers.

Préparer des données structurées, semi-structurées et non structurées, en analysant et en prétraitant les jeux de données, en réalisant le nettoyage des données, en assurant le respect des contraintes légales et des valeurs de responsabilité et d’éthique, en intégrant la minimisation et les mesures de protection adaptées, afin de fournir aux spécialistes de la science des données les données adéquates à analyser.

Réaliser une réduction de la dimensionnalité des données de grandes dimensions, en utilisant des méthodes d’optimisation des temps de calcul, en arbitrant entre précision, explicabilité et consommation de ressources, afin d’avoir une meilleure modélisation des données.

Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données, en représentant graphiquement les données de manière claire et pertinente, et en respectant les règles d’accessibilité numérique, afin de faciliter l’interprétation et la compréhension des résultats.

Améliorer les performances du traitement des données massives de manière simultanée en s’appuyant sur les outils d’optimisation, et en intégrant des objectifs de sobriété numérique et de maîtrise des ressources, afin de permettre une analyse adéquate de volumes importants de données.

Produire des analyses et des modèles à partir de volumes importants de données en analysant et en modélisant les jeux de données, en mobilisant des outils analytiques et de programmation appropriés, et en intégrant des exigences de traçabilité, de sécurité et de conformité des traitements, afin d’extraire des informations opérationnelles pour la prise de décision répondant aux enjeux métiers.

Cadrer un projet data en analysant le besoin exprimé par l’entreprise, en utilisant les données disponibles et les technologies Big Data existantes, et en définissant une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique, afin d’assurer la faisabilité et la pertinence du projet.

Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet, et en traduisant les exigences de conformité, de traçabilité et d’accessibilité en critères non fonctionnels, afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières.

Définir le plan de transition et de renforcement de la stratégie data de l'entreprise, en identifiant les métiers concernés et en définissant les différents jalons, indicateurs et modalités de gouvernance, afin de permettre une mise en œuvre réussie du projet par les différents acteurs et utilisateurs.

Superviser le déploiement d’un projet Big Data en assurant une communication et une supervision continues entre développement et opérations, et en mettant en place des mécanismes de contrôle, de sécurisation et de traçabilité compatibles avec les exigences réglementaires et éthiques, afin d’accélérer la mise en production dans des conditions maîtrisées.

Piloter une équipe projet lié à un projet Big Data, en animant des groupes de travail interdisciplinaires, en aidant les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers et en intégrant la prise en compte des situations de handicap dans les modalités de déploiement et de sensibilisation, ainsi que la prévention des risques liés à l’organisation du travail, afin de transformer durablement les pratiques.

Modalités d'évaluation :

Etudes de cas d'entreprises et de projets Data basées sur des sources documentaires fournis au candidat

Etudes de cas pratiques de création ou de développement de projet Data, d'analyse des risques et de définition de plan de transition

Mises en situations professionnelles de conception et de gestion d'entrepôt de données, de préparation, d'analyse et de traitement de données massives

Mise en situation professionnelle réelle à travers une mission en entreprise et la participation à un projet Data Engineering

RNCP42322BC01 - Définir les usages et les applications du Big Data dans les organisations en intégrant les considérations juridiques et éthiques des données et les enjeux d’accessibilité numérique et de situations de handicap

Liste de compétences	Modalités d'évaluation
Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en caractérisant les pratiques existantes de Big Data, en structurant une analyse des tendances du marché à partir d’une veille technologique, réglementaire et sectorielle, et en identifiant les architectures, modes d’industrialisation et exigences de sécurité et de conformité réellement déployés sur des projets comparables, pour répondre à une problématique métier. Analyser les usages et enjeux du Big Data dans les organisations, en mobilisant une veille économique recensant, qualifiant et priorisant les cas d’usage, en estimant la valeur attendue et les impacts, et en identifiant les contraintes de mise en œuvre en matière de sécurité, de conformité, de sobriété numérique et d’accessibilité, afin de détecter les opportunités de projets data au sein de l’organisation. Définir les méthodes et les outils à appliquer liés au masquage et à l’intégrité des données, en établissant les règles d’accessibilité numérique, de qualité et de maitrise des données, et en assurant la conformité avec la réglementation en vigueur et les référentiels éthiques afin de garantir des usages responsables, inclusifs et conformes des données. Analyser les risques juridiques et éthiques liés à la gestion des données en analysant la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation y compris les risques liés à la prévention santé-sécurité, à l’accessibilité numérique et à l’inclusion des personnes en situation de handicap lorsque les usages data y exposent l’organisation, afin de contribuer à la mise en œuvre d’une politique de protection de données efficace.	Etude de cas : A partir d’une documentation complète présentant un cas d’usage du Big Data dans une organisation mise à disposition par l’organisme de formation, le / la candidat(e) doit identifier les technologies et méthodes de Big Data en lien avec une problématique métier. Le/la candidat doit ensuite proposer les technologies et les méthodes adaptées à l’utilisation optimale du Big Data dans l’organisation. Etude de cas : A partir d’une étude de cas d’une organisation détaillant ses objectifs stratégiques, son secteur d’activité et ses enjeux futurs, le/la candidat(e) doit identifier les possibles usages du Big Data au sein de l’organisation. En s’appuyant sur la réalisation d’une veille de l’écosystème, il propose différentes options pour l’usage de la Data au sein de l’organisation. Etude de cas pratique : A partir d’un cas de création ou de développement d’un projet Data en entreprise, le/la candidat(e) devra cerner et identifier les problématiques potentielles liées à la sécurisation et la protection des données personnelles ainsi que les risques de non-accessibilité numérique ou d’exclusion liés aux usages data. Ensuite, le candidat doit proposer des méthodes et des outils adéquats à la réglementation en vigueur. Etude de cas pratique : A partir d’une étude de cas d’une organisation détaillant son activité, ses données collectées et utilisées et ses systèmes et moyens techniques et informatiques, le/la candidat(e) devra réaliser une analyse complète des risques juridiques et éthiques liés à la gestion des données, incluant l’analyse des impacts potentiels sur l’accessibilité des systèmes et la prise en compte des situations de handicap.

Liste de compétences

Modalités d'évaluation

Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en caractérisant les pratiques existantes de Big Data, en structurant une analyse des tendances du marché à partir d’une veille technologique, réglementaire et sectorielle, et en identifiant les architectures, modes d’industrialisation et exigences de sécurité et de conformité réellement déployés sur des projets comparables, pour répondre à une problématique métier.

Analyser les usages et enjeux du Big Data dans les organisations, en mobilisant une veille économique recensant, qualifiant et priorisant les cas d’usage, en estimant la valeur attendue et les impacts, et en identifiant les contraintes de mise en œuvre en matière de sécurité, de conformité, de sobriété numérique et d’accessibilité, afin de détecter les opportunités de projets data au sein de l’organisation.

Définir les méthodes et les outils à appliquer liés au masquage et à l’intégrité des données, en établissant les règles d’accessibilité numérique, de qualité et de maitrise des données, et en assurant la conformité avec la réglementation en vigueur et les référentiels éthiques afin de garantir des usages responsables, inclusifs et conformes des données.

Analyser les risques juridiques et éthiques liés à la gestion des données en analysant la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation y compris les risques liés à la prévention santé-sécurité, à l’accessibilité numérique et à l’inclusion des personnes en situation de handicap lorsque les usages data y exposent l’organisation, afin de contribuer à la mise en œuvre d’une politique de protection de données efficace.

Etude de cas : A partir d’une documentation complète présentant un cas d’usage du Big Data dans une organisation mise à disposition par l’organisme de formation, le / la candidat(e) doit identifier les technologies et méthodes de Big Data en lien avec une problématique métier. Le/la candidat doit ensuite proposer les technologies et les méthodes adaptées à l’utilisation optimale du Big Data dans l’organisation.

Etude de cas : A partir d’une étude de cas d’une organisation détaillant ses objectifs stratégiques, son secteur d’activité et ses enjeux futurs, le/la candidat(e) doit identifier les possibles usages du Big Data au sein de l’organisation. En s’appuyant sur la réalisation d’une veille de l’écosystème, il propose différentes options pour l’usage de la Data au sein de l’organisation.

Etude de cas pratique : A partir d’un cas de création ou de développement d’un projet Data en entreprise, le/la candidat(e) devra cerner et identifier les problématiques potentielles liées à la sécurisation et la protection des données personnelles ainsi que les risques de non-accessibilité numérique ou d’exclusion liés aux usages data. Ensuite, le candidat doit proposer des méthodes et des outils adéquats à la réglementation en vigueur.

Etude de cas pratique : A partir d’une étude de cas d’une organisation détaillant son activité, ses données collectées et utilisées et ses systèmes et moyens techniques et informatiques, le/la candidat(e) devra réaliser une analyse complète des risques juridiques et éthiques liés à la gestion des données, incluant l’analyse des impacts potentiels sur l’accessibilité des systèmes et la prise en compte des situations de handicap.

RNCP42322BC02 - Concevoir, déployer et maintenir une architecture d’entrepôt de données

Liste de compétences	Modalités d'évaluation
Mettre en œuvre une architecture d’entrepôt de données, en concevant et en déployant des solutions relationnelles ou non relationnelles, en sélectionnant les outils et les technologies appropriés, et en intégrant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers, ainsi que les exigences de sécurité, de traçabilité, de durabilité et d’accessibilité, pour assurer le stockage et l’exploitation des données. Exploiter un entrepôt de données en administrant et en gérant les composants de la plateforme, en utilisant les technologies des données massives et les outils du Cloud appropriés, et en assurant la disponibilité, la performance, la supervision et la maîtrise des accès, pour exploiter efficacement les données répondant aux problématiques métier de l’organisation. Alimenter un entrepôt de données en extrayant, en transformant et en chargeant des données hétérogènes au regard des besoins métiers, en s’appuyant sur la technologie ETL et en appliquant des règles de qualité, d’intégrité et de traçabilité des transformations dans le respect des contraintes légales et des principes de responsabilité et d’éthique, en appliquant la minimisation et les mesures de protection adaptées, et en intégrant les exigences d’accessibilité, afin d’assurer des synchronisations fiables de vastes ensembles de données. Sécuriser des pipelines de données en créant et en gérant des chaînes de traitement issues de sourceshétérogènes, internes et externes à l'entreprise en mettant en œuvre des contrôles d’intégrité et en limitant l’empreinte des traitements par l’optimisation des flux et des ressources, afin de permettre l’exploitation et le stockage des données dans des conditions maîtrisées, afin de les exploiter et de les stocker. Optimiser la collecte et la gestion des flux de données, en sélectionnant et en mettant en place des outils de traitement adaptés à la complexité, aux catégories et à la qualité des données, en intégrant des critères de sobriété numérique, de sécurité, et d’accessibilité lorsque les flux alimentent des services destinés aux utilisateurs, afin d’assurer une collecte efficiente et robuste. Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues, en s’appuyant sur des outils de streaming et de supervision des données exploitées, pour répondre aux besoins métiers.	Mise en situation professionnelle : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le/la candidat(e) devra déterminer et justifier une solution de stockage adaptée aux types de données utilisées par une entreprise. Le/la candidat(e) devra concevoir un entrepôt de données en sélectionnant les outils et technologies appropriés pour améliorer les performances, réaliser des économies et faciliter la gestion des entrepôts de données. Ensuite, le candidat devra choisir les technologies Big Data et les outils du Cloud permettant la gestion des entrepôts de données. Mise en situation professionnelle reconstituée : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le/la candidat(e) devra extraire, transformer et charger les données dans un entrepôt de données (data warehouse) en utilisant les solutions ETL de son choix, et en veillant au respect des contraintes légales, de sécurité et du cadre éthique. Le/la candidat(e) devra créer un pipeline de données sécurisé à l’aide de différents outils d’extraction et de transformation de données identifiés et justifiés Mise en situation professionnelle : A partir d’une technologie ETL permettant de collecter des données en provenance de différentes sources, le/la candidat(e) devra spécifier et exécuter un outil approprié à la gestion des flux de données pour en réduire la latence, la durée des traitements et les coûts. Mise en situation professionnelle : A partir de critères de performance technique des flux de données définis, le/la candidat(e) devra proposer une adaptation du volume et de la vitesse de la gestion des flux de données.

Liste de compétences

Modalités d'évaluation

Mettre en œuvre une architecture d’entrepôt de données, en concevant et en déployant des solutions relationnelles ou non relationnelles, en sélectionnant les outils et les technologies appropriés, et en intégrant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers, ainsi que les exigences de sécurité, de traçabilité, de durabilité et d’accessibilité, pour assurer le stockage et l’exploitation des données.

Exploiter un entrepôt de données en administrant et en gérant les composants de la plateforme, en utilisant les technologies des données massives et les outils du Cloud appropriés, et en assurant la disponibilité, la performance, la supervision et la maîtrise des accès, pour exploiter efficacement les données répondant aux problématiques métier de l’organisation.

Alimenter un entrepôt de données en extrayant, en transformant et en chargeant des données hétérogènes au regard des besoins métiers, en s’appuyant sur la technologie ETL et en appliquant des règles de qualité, d’intégrité et de traçabilité des transformations dans le respect des contraintes légales et des principes de responsabilité et d’éthique, en appliquant la minimisation et les mesures de protection adaptées, et en intégrant les exigences d’accessibilité, afin d’assurer des synchronisations fiables de vastes ensembles de données.

Sécuriser des pipelines de données en créant et en gérant des chaînes de traitement issues de sourceshétérogènes, internes et externes à l'entreprise en mettant en œuvre des contrôles d’intégrité et en limitant l’empreinte des traitements par l’optimisation des flux et des ressources, afin de permettre l’exploitation et le stockage des données dans des conditions maîtrisées, afin de les exploiter et de les stocker.

Optimiser la collecte et la gestion des flux de données, en sélectionnant et en mettant en place des outils de traitement adaptés à la complexité, aux catégories et à la qualité des données, en intégrant des critères de sobriété numérique, de sécurité, et d’accessibilité lorsque les flux alimentent des services destinés aux utilisateurs, afin d’assurer une collecte efficiente et robuste.

Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues, en s’appuyant sur des outils de streaming et de supervision des données exploitées, pour répondre aux besoins métiers.

Mise en situation professionnelle : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le/la candidat(e) devra déterminer et justifier une solution de stockage adaptée aux types de données utilisées par une entreprise. Le/la candidat(e) devra concevoir un entrepôt de données en sélectionnant les outils et technologies appropriés pour améliorer les performances, réaliser des économies et faciliter la gestion des entrepôts de données. Ensuite, le candidat devra choisir les technologies Big Data et les outils du Cloud permettant la gestion des entrepôts de données.

Mise en situation professionnelle reconstituée : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le/la candidat(e) devra extraire, transformer et charger les données dans un entrepôt de données (data warehouse) en utilisant les solutions ETL de son choix, et en veillant au respect des contraintes légales, de sécurité et du cadre éthique. Le/la candidat(e) devra créer un pipeline de données sécurisé à l’aide de différents outils d’extraction et de transformation de données identifiés et justifiés

Mise en situation professionnelle : A partir d’une technologie ETL permettant de collecter des données en provenance de différentes sources, le/la candidat(e) devra spécifier et exécuter un outil approprié à la gestion des flux de données pour en réduire la latence, la durée des traitements et les coûts.

Mise en situation professionnelle : A partir de critères de performance technique des flux de données définis, le/la candidat(e) devra proposer une adaptation du volume et de la vitesse de la gestion des flux de données.

RNCP42322BC03 - Traiter et analyser des volumes importants de données

Liste de compétences	Modalités d'évaluation
Préparer des données structurées, semi-structurées et non structurées, en analysant et en prétraitant les jeux de données, en réalisant le nettoyage des données, en assurant le respect des contraintes légales et des valeurs de responsabilité et d’éthique, en intégrant la minimisation et les mesures de protection adaptées, afin de fournir aux spécialistes de la science des données les données adéquates à analyser. Réaliser une réduction de la dimensionnalité des données de grandes dimensions, en utilisant des méthodes d’optimisation des temps de calcul, en arbitrant entre précision, explicabilité et consommation de ressources, afin d’avoir une meilleure modélisation des données. Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données, en représentant graphiquement les données de manière claire et pertinente, et en respectant les règles d’accessibilité numérique, afin de faciliter l’interprétation et la compréhension des résultats. Améliorer les performances du traitement des données massives de manière simultanée en s’appuyant sur les outils d’optimisation, et en intégrant des objectifs de sobriété numérique et de maîtrise des ressources, afin de permettre une analyse adéquate de volumes importants de données. Produire des analyses et des modèles à partir de volumes importants de données en analysant et en modélisant les jeux de données, en mobilisant des outils analytiques et de programmation appropriés, et en intégrant des exigences de traçabilité, de sécurité et de conformité des traitements, afin d’extraire des informations opérationnelles pour la prise de décision répondant aux enjeux métiers.	Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat(e) devra les analyser et les nettoyer afin d’améliorer la qualité des données. Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat(e) devra réduire la dimensionnalité de ces données en réduisant le nombre de variables prédictives. Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources et une fois que ces données sont combinées et structurées en données propres, le/la candidat(e) devra représenter graphiquement ces données à l’aide d'éléments visuels. Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat€ devra mettre en œuvre et orchestrer des calculs distribués de façon optimale permettant de tirer profit des données massives. Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat€ devra proposer et sélectionner des outils analytiques de traitement de données massives permettant de répondre à un problème métier.

Liste de compétences

Modalités d'évaluation

Préparer des données structurées, semi-structurées et non structurées, en analysant et en prétraitant les jeux de données, en réalisant le nettoyage des données, en assurant le respect des contraintes légales et des valeurs de responsabilité et d’éthique, en intégrant la minimisation et les mesures de protection adaptées, afin de fournir aux spécialistes de la science des données les données adéquates à analyser.

Réaliser une réduction de la dimensionnalité des données de grandes dimensions, en utilisant des méthodes d’optimisation des temps de calcul, en arbitrant entre précision, explicabilité et consommation de ressources, afin d’avoir une meilleure modélisation des données.

Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données, en représentant graphiquement les données de manière claire et pertinente, et en respectant les règles d’accessibilité numérique, afin de faciliter l’interprétation et la compréhension des résultats.

Améliorer les performances du traitement des données massives de manière simultanée en s’appuyant sur les outils d’optimisation, et en intégrant des objectifs de sobriété numérique et de maîtrise des ressources, afin de permettre une analyse adéquate de volumes importants de données.

Produire des analyses et des modèles à partir de volumes importants de données en analysant et en modélisant les jeux de données, en mobilisant des outils analytiques et de programmation appropriés, et en intégrant des exigences de traçabilité, de sécurité et de conformité des traitements, afin d’extraire des informations opérationnelles pour la prise de décision répondant aux enjeux métiers.

Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat(e) devra les analyser et les nettoyer afin d’améliorer la qualité des données.

Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat(e) devra réduire la dimensionnalité de ces données en réduisant le nombre de variables prédictives.

Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources et une fois que ces données sont combinées et structurées en données propres, le/la candidat(e) devra représenter graphiquement ces données à l’aide d'éléments visuels.

Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat€ devra mettre en œuvre et orchestrer des calculs distribués de façon optimale permettant de tirer profit des données massives.

Mise en situation professionnelle reconstituée : En se basant sur un jeu de données brutes émanant de multiples sources, le/la candidat€ devra proposer et sélectionner des outils analytiques de traitement de données massives permettant de répondre à un problème métier.

RNCP42322BC04 - Conduire l’ingénierie d’un projet Big Data et accompagner le changement des acteurs

Liste de compétences	Modalités d'évaluation
Cadrer un projet data en analysant le besoin exprimé par l’entreprise, en utilisant les données disponibles et les technologies Big Data existantes, et en définissant une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique, afin d’assurer la faisabilité et la pertinence du projet. Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet, et en traduisant les exigences de conformité, de traçabilité et d’accessibilité en critères non fonctionnels, afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières. Définir le plan de transition et de renforcement de la stratégie data de l'entreprise, en identifiant les métiers concernés et en définissant les différents jalons, indicateurs et modalités de gouvernance, afin de permettre une mise en œuvre réussie du projet par les différents acteurs et utilisateurs. Superviser le déploiement d’un projet Big Data en assurant une communication et une supervision continues entre développement et opérations, et en mettant en place des mécanismes de contrôle, de sécurisation et de traçabilité compatibles avec les exigences réglementaires et éthiques, afin d’accélérer la mise en production dans des conditions maîtrisées. Piloter une équipe projet lié à un projet Big Data, en animant des groupes de travail interdisciplinaires, en aidant les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers et en intégrant la prise en compte des situations de handicap dans les modalités de déploiement et de sensibilisation, ainsi que la prévention des risques liés à l’organisation du travail, afin de transformer durablement les pratiques.	Etude de cas : A partir d’une documentation complète présentant un cas d’usage data dans une organisation, le / la candidat(e) devra réaliser une analyse du projet data et proposer une méthodologie de gestion de projet permettant de répondre à la problématique métier. Étude de cas pratique : A partir d’un projet data réel ou fictif, le/la candidat(e) devra rédiger un cahier des spécifications fonctionnelles et techniques et un plan de transition/renforcement de la stratégie Data (jalons, méthodes d’accompagnement des acteurs, indicateurs de suivi, moyens). Ensuite, il/elle devra les présenter devant le jury d’évaluation. Etude de cas : A partir d’une présentation détaillée d’un projet Big Data d’entreprise réel ou fictif, le/la candidat(e) devra réaliser une analyse critique des méthodes de suivi mises en œuvre durant l’ensemble du processus de développement du projet. Mise en situation professionnelle réelle : Dans le cadre d’une mission confiée par une entreprise portant sur la mise en œuvre d’un projet de Data Engineering, le/la candidat(e) devra participer au sein d’une équipe projet au pilotage et à l’accompagnement au changement des acteurs directement concernés par le projet.

Liste de compétences

Modalités d'évaluation

Cadrer un projet data en analysant le besoin exprimé par l’entreprise, en utilisant les données disponibles et les technologies Big Data existantes, et en définissant une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique, afin d’assurer la faisabilité et la pertinence du projet.

Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet, et en traduisant les exigences de conformité, de traçabilité et d’accessibilité en critères non fonctionnels, afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières.

Définir le plan de transition et de renforcement de la stratégie data de l'entreprise, en identifiant les métiers concernés et en définissant les différents jalons, indicateurs et modalités de gouvernance, afin de permettre une mise en œuvre réussie du projet par les différents acteurs et utilisateurs.

Superviser le déploiement d’un projet Big Data en assurant une communication et une supervision continues entre développement et opérations, et en mettant en place des mécanismes de contrôle, de sécurisation et de traçabilité compatibles avec les exigences réglementaires et éthiques, afin d’accélérer la mise en production dans des conditions maîtrisées.

Piloter une équipe projet lié à un projet Big Data, en animant des groupes de travail interdisciplinaires, en aidant les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers et en intégrant la prise en compte des situations de handicap dans les modalités de déploiement et de sensibilisation, ainsi que la prévention des risques liés à l’organisation du travail, afin de transformer durablement les pratiques.

Etude de cas : A partir d’une documentation complète présentant un cas d’usage data dans une organisation, le / la candidat(e) devra réaliser une analyse du projet data et proposer une méthodologie de gestion de projet permettant de répondre à la problématique métier.

Étude de cas pratique : A partir d’un projet data réel ou fictif, le/la candidat(e) devra rédiger un cahier des spécifications fonctionnelles et techniques et un plan de transition/renforcement de la stratégie Data (jalons, méthodes d’accompagnement des acteurs, indicateurs de suivi, moyens). Ensuite, il/elle devra les présenter devant le jury d’évaluation.

Etude de cas : A partir d’une présentation détaillée d’un projet Big Data d’entreprise réel ou fictif, le/la candidat(e) devra réaliser une analyse critique des méthodes de suivi mises en œuvre durant l’ensemble du processus de développement du projet.

Mise en situation professionnelle réelle : Dans le cadre d’une mission confiée par une entreprise portant sur la mise en œuvre d’un projet de Data Engineering, le/la candidat(e) devra participer au sein d’une équipe projet au pilotage et à l’accompagnement au changement des acteurs directement concernés par le projet.

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

L’obtention de la certification est conditionnée à la validation des 4 blocs de compétences et à la réalisation d’une mission en entreprise (le candidat participe au pilotage d’un projet data dans le cadre d’une mission entreprise (stage, alternance, contrat de travail, immersion, conseil…) d’une durée minimale de 3 mois, réalise un rapport de stage et une soutenance orale devant le jury d’évaluation composé de professeurs et d’experts).

Le jury de certification, seule autorité autorisée à délivrer la certification professionnelle, se base pour prendre sa décision d'attribution de la certification sur les critères suivants :

ne pas avoir obtenu de note inférieure à 7/20 pour une ou plusieurs compétences du référentiel.
avoir obtenu un résultat supérieur ou égal à 10/20 pour chacun des blocs de compétences.
avoir validé son rapport de mission par une note globale (rapport + soutenance) supérieur ou égale à 10/20.
ne pas s'être vu refusée à l’unanimité la certification par le Jury de certification qui aurait alors motivé son refus dans un procès-verbal de refus de certification signé par chacun des membres du Jury de certification.

Ces conditions sont cumulatives.

Les modalités d'évaluation peuvent être adaptées aux personnes en situation de handicap.

Par la voie de la VAE : le jury VAE procède à l’évaluation des compétences professionnelles du candidat acquises par l’expérience sur la base d'un dossier de recevabilité (Livret 1), d'un entretien de faisabilité orientation approfondi et la constitution d'un portefeuille de preuves (Livret 2).

Secteurs d’activités :

En France, plusieurs rapports et études ont identifié certains secteurs particulièrement porteurs pour le développement des projets liés à la donnée et à l’intelligence artificielle. Ces secteurs se caractérisent par une forte exposition aux impacts des données massives et par un niveau élevé de transformation numérique. Parmi les principaux domaines concernés figurent notamment :

Santé : les applications de la donnée sont nombreuses et couvrent notamment la médecine préventive, l’aide au diagnostic et au choix des traitements, l’analyse épidémiologique, ainsi que le développement de dispositifs de médecine augmentée et de systèmes d’aide à la décision médicale.

Services financiers : le secteur financier fait partie des domaines les plus impactés par l’exploitation des données massives. Les applications concernent notamment les activités de marché (analyse prédictive, évaluation des performances des fonds d’investissement, optimisation de la tarification des actifs), ainsi que les opérations courantes telles que l’octroi de crédit, l’analyse documentaire, la gestion des risques ou encore la détection de fraudes.

Services juridiques : les données massives contribuent à transformer les pratiques juridiques, en particulier à travers les outils de recherche et d’analyse documentaire (jurisprudence, informations légales sur les entreprises), permettant d’identifier, trier et analyser les documents les plus pertinents pour le traitement d’un dossier juridique, ainsi que d’automatiser certaines opérations juridiques courantes.

Commerce de détail : dans ce secteur, l’exploitation des données permet notamment de personnaliser l’expérience client grâce à l’analyse en temps réel des comportements d’achat et à une meilleure anticipation des besoins. Les données contribuent également à optimiser la gestion des points de vente, les opérations de back-office et la performance globale des chaînes de distribution.

Type d'emplois accessibles :

Expert infrastructure et traitement de données massives - Data Engineer / Ingénieur de données / Ingénieur développement Big Data - Chief Data officer - Consultant Big Data - Data manager - Architecte de données - Responsable Applications Data

Code(s) ROME :

M1805 - Études et développement informatique
M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information

Références juridiques des règlementations d’activité :

Même si les métiers de la data et de l’intelligence artificielle ne constituent pas des professions réglementées au sens de l’accès à la profession, leur exercice s’inscrit dans un environnement juridique et réglementaire structurant, qui encadre la collecte, le traitement, le partage et l’exploitation des données. Les professionnels de la data doivent ainsi maîtriser un ensemble croissant de réglementations nationales et européennes visant à garantir la protection des données, la transparence des traitements et la responsabilité des usages numériques.

En France, les principaux textes applicables sont notamment :

la loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, modifiée à plusieurs reprises afin de s’aligner sur le droit européen de la protection des données ;
le décret n° 2019-536 du 29 mai 2019, précisant les modalités d’application de la loi Informatique et Libertés et du règlement européen sur la protection des données ;
la loi n° 2004-575 du 21 juin 2004 pour la confiance dans l’économie numérique (LCEN), qui encadre notamment les services numériques, la responsabilité des acteurs en ligne et certaines obligations liées aux contenus et aux données.

Au niveau européen, plusieurs règlements structurent aujourd’hui l’économie de la donnée :

le Règlement (UE) 2016/679 du 27 avril 2016, dit Règlement général sur la protection des données (RGPD), qui constitue le cadre juridique central de la protection des données personnelles en Europe ;
le Data Governance Act (Règlement (UE) 2022/868), applicable depuis septembre 2023, qui vise à favoriser le partage et la réutilisation des données au sein de l’Union européenne dans un cadre sécurisé et de confiance ;
le Data Act (Règlement (UE) 2023/2854), adopté en 2023 et applicable progressivement à partir de 2025, qui organise l’accès et le partage des données générées par les objets connectés et les services numériques, afin de mieux répartir la valeur de l’économie de la donnée entre les différents acteurs ;
le Règlement européen sur l’intelligence artificielle (AI Act) adopté en 2024, qui établit un cadre de régulation des systèmes d’IA fondé sur une approche par niveaux de risque, avec des exigences renforcées en matière de transparence, de gouvernance des données, de sécurité et de responsabilité des systèmes d’intelligence artificielle.

Dans ce contexte réglementaire en constante évolution, les professionnels formés par la certification doivent être capables d’intégrer ces exigences dans la conception et l’exploitation des infrastructures de données, notamment à travers les principes de protection des données dès la conception (privacy by design), de gouvernance des données, de sécurité des systèmes d’information et de conformité réglementaire.

Le cas échant, prérequis à l’entrée en formation :

Certifications professionnelles ou diplômes et/ou grades universitaires de niveau 6 en informatique, sciences de l’ingénieur, mathématiques, statistiques, sciences physiques, sciences économiques et de gestion

Le cas échant, prérequis à la validation de la certification :

Pré-requis disctincts pour les blocs de compétences :

Non

Validité des composantes acquises
Voie d’accès à la certification	Oui	Non	Composition des jurys	Date de dernière modification
Après un parcours de formation sous statut d’élève ou d’étudiant	X		Le jury de certification est composé de cinq membres : 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification) et 3 professionnels du domaine de la data et de l’IA dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury.	01-06-2026
En contrat d’apprentissage	X		Le jury de certification est composé de cinq membres : 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification) et 3 professionnels du domaine de la data et de l’IA dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury.	01-06-2026
Après un parcours de formation continue	X		Le jury de certification est composé de cinq membres : 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification) et 3 professionnels du domaine de la data et de l’IA dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury.	01-06-2026
En contrat de professionnalisation	X		Le jury de certification est composé de cinq membres : 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification) et 3 professionnels du domaine de la data et de l’IA dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury.	01-06-2026
Par candidature individuelle		X	-	-
Par expérience	X		Le jury de certification est composé de cinq membres : 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification) et 3 professionnels du domaine de la data et de l’IA dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury.	01-06-2026

Validité des composantes acquises
	Oui	Non
Inscrite au cadre de la Nouvelle Calédonie		X
Inscrite au cadre de la Polynésie française		X

Certifications professionnelles enregistrées au RNCP en correspondance partielle :

Certifications professionnelles enregistrées au RNCP en correspondance partielle
Bloc(s) de compétences concernés	Code et intitulé de la certification professionnelle reconnue en correspondance partielle	Bloc(s) de compétences en correspondance partielle
RNCP42322BC02 - Concevoir, déployer et maintenir une architecture d’entrepôt de données	RNCP36398 - Expert Big Data Engineer (MS)	RNCP36398BC02 - Déployer des infrastructures informatiques pour stocker, extraire et analyser la data
RNCP42322BC02 - Concevoir, déployer et maintenir une architecture d’entrepôt de données	RNCP37422 - Data Engineer	RNCP37422BC03 - Concevoir les architectures big data valorisant les données
RNCP42322BC02 - Concevoir, déployer et maintenir une architecture d’entrepôt de données	RNCP40234 - Expert big data engineer (MS)	RNCP40234BC02 - Déployer des infrastructures informatiques d'analyse de la data
RNCP42322BC03 - Traiter et analyser des volumes importants de données	RNCP37624 - Data engineer	RNCP37624BC01 - Conduire et réaliser le développement ou l’adaptation d’une solution pour collecter, nettoyer, traiter, stocker et exploiter des données
RNCP42322BC03 - Traiter et analyser des volumes importants de données	RNCP38919 - Data engineer	RNCP38919BC03 - Déployer une solution d’analyse de données massives intégrant l’intelligence artificielle

Anciennes versions de la certification professionnelle reconnues en correspondance totale :

Anciennes versions de la certification professionnelle reconnues en correspondance totale
Code et intitulé de la certification professionnelle reconnue en correspondance
RNCP37763 - Expert infrastructure et traitement des données massives

Date de décision	29-05-2026
Durée de l'enregistrement en années	3
Date d'échéance de l'enregistrement	29-05-2029
Date de dernière délivrance possible de la certification	29-05-2033

Statistiques :

Statistiques
Année d'obtention de la certification	Nombre de certifiés	Nombre de certifiés à la suite d’un parcours vae	Taux d'insertion global à 6 mois (en %)	Taux d'insertion dans le métier visé à 6 mois (en %)	Taux d'insertion dans le métier visé à 2 ans (en %)
2024	44	0	84	88	90
2023	11	0	100	100	100

Le certificateur n'habilite aucun organisme préparant à la certification

Certification(s) antérieure(s) :

Certification(s) antérieure(s)
Code de la fiche	Intitulé de la certification remplacée
RNCP37763	Expert infrastructure et traitement des données massives

Référentiel d'activité, de compétences et d'évaluation :

Référentiel d’activité, de compétences et d’évaluation

Certification professionnelle

Expert en infrastructures et traitement de données massives

Objectifs et contexte de la certification :

Activités visées :

Compétences attestées :

Modalités d'évaluation :

RNCP42322BC01 - Définir les usages et les applications du Big Data dans les organisations en intégrant les considérations juridiques et éthiques des données et les enjeux d’accessibilité numérique et de situations de handicap

RNCP42322BC02 - Concevoir, déployer et maintenir une architecture d’entrepôt de données

RNCP42322BC03 - Traiter et analyser des volumes importants de données

RNCP42322BC04 - Conduire l’ingénierie d’un projet Big Data et accompagner le changement des acteurs

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

Secteurs d’activités :

Type d'emplois accessibles :

Code(s) ROME :

Références juridiques des règlementations d’activité :

Le cas échant, prérequis à l’entrée en formation :

Le cas échant, prérequis à la validation de la certification :

Pré-requis disctincts pour les blocs de compétences :

Certifications professionnelles enregistrées au RNCP en correspondance partielle :

Anciennes versions de la certification professionnelle reconnues en correspondance totale :

Statistiques :

Le certificateur n'habilite aucun organisme préparant à la certification

Certification(s) antérieure(s) :

Référentiel d'activité, de compétences et d'évaluation :

Rechercher