L'essentiel

Icon de la nomenclature

Nomenclature
du niveau de qualification

Niveau 7

Icon NSF

Code(s) NSF

326 : Informatique, traitement de l'information, réseaux de transmission

Icon formacode

Formacode(s)

11016 : Analyse données

31036 : Administration base de données

31009 : Architecture système information

Icon date

Date d’échéance
de l’enregistrement

19-07-2026

Niveau 7

326 : Informatique, traitement de l'information, réseaux de transmission

11016 : Analyse données

31036 : Administration base de données

31009 : Architecture système information

19-07-2026

Nom légal Siret Nom commercial Site internet
AIVANCITY 88343992900026 - https://www.aivancity.ai/

Objectifs et contexte de la certification :

La certification vise prépare au métier d'Expert infrastructure et traitement des données massives, et répond à un besoin grandissant des entreprises en France et à travers le monde. En effet, l’explosion des données est le socle sur lequel s’appuie la transformation digitale de l’économie et des services au niveau mondial. Elle constitue un bouleversement majeur de ce siècle. Mais une mauvaise prise en compte des données est généralement considérée comme l’une des raisons majeures de l’échec des projets en Intelligence artificielle.

L’importance de former des spécialistes de la donnée est attestée par le marché au niveau mondial où l’offre pour ce métier est particulièrement élevée. En France la demande en Experts Data a augmenté de 76% entre 2017 et 2019, et sur l’ensemble des métiers de la donnée, les experts infrastructure et traitement Big Data concentraient en 2019 près de 27 % des offres d’emplois.

Dans ce contexte, cette certification vise non seulement à maitriser tout le cycle de l’ingénierie des données (acquisition, architecture, conservation, nettoyage, tri, structuration, sécurisation et analyse), en utilisant les meilleures technologies, mais aussi à comprendre leurs enjeux dans les organisations (aide à la prise de décision, business models de la donnée, relation clients/usagers, compréhension des processus métiers…) ainsi que leurs implications juridiques, éthiques et sociétales (Gouvernance des données, respect des données personnelles, neutralité, biais, équité, diversité, transparence…).

Activités visées :

Identification des méthodes et usages dans le domaine des données massives (Big Data) appliquée à l’organisation

Intégration des considérations éthiques et juridiques et d'accessibilité numérique en lien avec l’utilisation des données massives dans les organisations

Conception et gestion des entrepôts de données

Extraction, transformation et chargement des données structurées, semi-structurées et non structurées provenant de multiples sources

Traitement et adaptation des divers flux de données

Préparation et exportation des données

Analyse et traitement des données massives

Analyse des besoins du projet data

Mise en œuvre et suivi de l’ensemble du processus de développement du projet Big Data

Compétences attestées :

Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en s’appuyant sur l’étude des pratiques existantes de Big Data pour répondre à une problématique métier.

Analyser les usages et enjeux du Big Data dans les organisations en s’appuyant sur un système de veille technologique et économique afin de détecter les opportunités de projets data au sein de l’organisation.

Appliquer les méthodes et les outils liés au masquage et à l’intégrité des données, ainsi que les règles d’accessibilité numérique, en s’appuyant sur la réglementation en vigueur et les référentiels éthiques existants afin d’éviter les dérives potentielles.

Analyser les risques juridiques et éthiques liés à la gestion des données en s’appuyant sur la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation afin de contribuer à la mise en œuvre d’une politique de protection de données efficace.

Concevoir et déployer des entrepôts de données en s’appuyant sur les outils et les technologies appropriés tout en considérant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers pour stocker des bases de données relationnelles ou non relationnelles.

Administrer et gérer les entrepôts des données en utilisant les technologies des données massives et les outils du Cloud appropriés pour exploiter efficacement les données répondant aux problématiques métier de l’organisation.

Extraire, transformer et charger différentes sortes de données en lien avec les besoins métiers en s’appuyant sur la technologie ETL afin d’effectuer des synchronisations de vastes ensembles de données vers l’entrepôt de données dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Créer et gérer des pipelines de données issues de sources hétérogènes, internes et externes à l'entreprise et ceci de façon sécurisée afin de les exploiter et de les stocker.

Sélectionner et mettre en place les outils de traitement des flux de données en fonction de la complexité, des catégories et de la qualité de données afin d’optimiser la collecte et la gestion des flux de données.

Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues et des données exploitées pour répondre aux besoins métiers.

Analyser et prétraiter des données structurées, semi-structurées et non structurées en s’appuyant sur le nettoyage des données réalisé, afin de fournir aux spécialistes de la science des données les données adéquates à analyser, dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Réaliser une réduction de la dimensionnalité des données de grandes dimensions en utilisant des méthodes d’optimisation des temps de calcul afin d’avoir une meilleure modélisation des données.

Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données afin de représenter graphiquement les données d'une manière claire et pertinente et tout en prenant en compte les règles d’accessibilité.

Améliorer les performances du traitement des données de manière simultanée en s’appuyant sur les outils d’optimisation afin de permettre une analyse adéquate des données massives.

Analyser et modéliser des volumes importants de données en s’appuyant sur les outils analytiques et de programmation appropriés afin d’extraire des informations opérationnelles pour la prise de décision et répondant aux enjeux métiers.

Analyser le besoin du projet data défini par l’entreprise en utilisant les données disponibles et les technologies Big Data existantes afin de proposer une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières.

Définir le plan de transition/renforcement de la stratégie data de l'entreprise, en identifiant les métiers concernés et en définissant les différents jalons et indicateurs qui permettent une mise en œuvre réussi du projet par les différents acteurs et utilisateurs.

Déployer un projet Big Data en assurant une communication et une supervision permanentes entre les développeurs et les opérations tout au long du cycle de vie du projet afin d’accélérer la mise en production dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Piloter une équipe projet avec des groupes de travail interdisciplinaires et aider les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers afin d’accompagner le changement des pratiques.

Modalités d'évaluation :

Etudes de cas d'entreprises et de projets Data basées sur des sources documentaires fournis au candidat

Etudes de cas pratiques de création ou de développement de projet Data, d'analyse des risques et de définition de plan de transition

Mises en situations professionnelles de conception et de gestion d'entrepôt de données, de préparation, d'analyse et de traitement de données massives

Mise en situation professionnelle réelle à travers une mission en entreprise et la participation à un projet Data Engineering

RNCP37763BC01 - Définir les usages et les applications du Big Data dans les organisations en intégrant les considérations juridiques et éthiques liées aux données

Liste de compétences Modalités d'évaluation

Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en s’appuyant sur l’étude des pratiques existantes de Big Data pour répondre à une problématique métier.

Analyser les usages et enjeux du Big Data dans les organisations en s’appuyant sur un système de veille technologique et économique afin de détecter les opportunités de projets data au sein de l’organisation.

Appliquer les méthodes et les outils liés au masquage et à l’intégrité des données ainsi que les règles d’accessibilité numérique en s’appuyant sur la réglementation en vigueur et les référentiels éthiques existants afin d’éviter les dérives potentielles.

Analyser les risques juridiques et éthiques liés à la gestion des données en s’appuyant sur la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation afin de contribuer à la mise en œuvre d’une politique de protection de données efficace.

Etude de cas : A partir d’une documentation complète présentant un cas d’usage du Big Data dans une organisation mise à disposition par l’organisme de formation, le candidat doit identifier les technologies et méthodes de Big Data en lien avec une problématique métier. Le candidat doit ensuite proposer les technologies et les méthodes adaptées à l’utilisation optimale du Big Data dans l’organisation.

Etude de cas : A partir d’une étude de cas d’une organisation détaillant ses objectifs stratégiques, son secteur d’activité et ses enjeux futurs, le candidat doit identifier les possibles usages du Big Data au sein de l’organisation. En s’appuyant sur la réalisation d’une veille de l’écosystème, il propose différentes options pour l’usage de la Data au sein de l’organisation.

Etude de cas pratique : A partir d’un cas de création ou de développement d’un projet Data en entreprise, le candidat devra cerner et identifier les problématiques potentielles liées à la sécurisation et la protection des données personnelles. Ensuite, le candidat doit proposer des méthodes et des outils adéquats à la réglementation en vigueur pour une meilleure protection des données.

Etude de cas pratique : A partir d’une étude de cas d’une organisation détaillant son activité, ses données collectées et utilisées et ses systèmes et moyens techniques et informatiques, le candidat devra réaliser une analyse complète des risques juridiques et éthiques liés à la gestion des données.

RNCP37763BC02 - Concevoir, déployer et maintenir une architecture d’entrepôt de données

Liste de compétences Modalités d'évaluation

Concevoir et déployer des entrepôts de données en s’appuyant sur les outils et les technologies appropriés tout en considérant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers pour stocker des bases de données relationnelles ou non relationnelles.

Administrer et gérer les entrepôts des données en utilisant les technologies des données massives et les outils du Cloud appropriés pour exploiter efficacement les données répondant aux problématiques métier de l’organisation.

Extraire, transformer et charger différentes sortes de données en lien avec les besoins métiers en s’appuyant sur la technologie ETL afin d’effectuer des synchronisations de vastes ensembles de données vers l’entrepôt de données dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Créer et gérer des pipelines de données issues de sources hétérogènes, internes et externes à l'entreprise et ceci de façon sécurisée afin de les exploiter et de les stocker.

Sélectionner et mettre en place les outils de traitement des flux de données en fonction de la complexité, des catégories et de la qualité de données afin d’optimiser la collecte et la gestion des flux de données.

Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues, des données exploitées, pour répondre aux besoins métiers.

Mise en situation professionnelle : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le candidat devra déterminer et justifier une solution de stockage adaptée aux types de données utilisées par une entreprise. Le candidat devra :

  • concevoir un entrepôt de données en sélectionnant les outils et technologies appropriés pour améliorer les performances, réaliser des économies et faciliter la gestion des entrepôts de données. Ensuite, le candidat devra choisir les technologies Big Data et les outils du Cloud permettant la gestion des entrepôts de données.
  • extraire, transformer et charger les données dans un entrepôt de données (data warehouse) en utilisant les solutions ETL de son choix, et en veillant au respect des contraintes légales, de sécurité et du cadre éthique. Le candidat devra créer un pipeline de données sécurisé à l’aide de différents outils d’extraction et de transformation de données identifiés et justifiés.

Mise en situation professionnelle : A partir d’une technologie ETL permettant de collecter des données en provenance de différentes sources, le candidat devra spécifier et exécuter un outil approprié à la gestion des flux de données pour en réduire la latence, la durée des traitements et les coûts.

Mise en situation professionnelle : A partir de critères de performance technique des flux de données définis, le candidat devra proposer une adaptation du volume et de la vitesse de la gestion des flux de données.

RNCP37763BC03 - Traiter et analyser des volumes importants de données

Liste de compétences Modalités d'évaluation

Analyser et prétraiter des données structurées, semi-structurées et non structurées en s’appuyant sur le nettoyage des données réalisé, afin de fournir aux spécialistes de la science des données les données adéquates à analyser, dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Réaliser une réduction de la dimensionnalité des données de grandes dimensions en utilisant des méthodes d’optimisation des temps de calcul afin d’avoir une meilleure modélisation des données.

Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données afin de représenter graphiquement les données d'une manière claire et pertinente et tout en prenant en compte les règles d’accessibilité.

Améliorer les performances du traitement des données de manière simultanée en s’appuyant sur les outils d’optimisation afin de permettre une analyse adéquate des données massives.

Analyser et modéliser de volumes importants de données en s’appuyant sur les outils analytiques et de programmation appropriés afin d’extraire des informations opérationnelles pour la prise de décision et répondant aux enjeux métiers.

Mises en situations professionnelles reconstituées : En se basant sur un jeu de données brutes émanant de multiples sources, le candidat :

  • devra les analyser et les nettoyer afin d’améliorer la qualité des données
  • réduire la dimensionnalité de ces données en réduisant le nombre de variables prédictives
  • représenter graphiquement ces données à l’aide d'éléments visuels
  • mettre en œuvre et orchestrer des calculs distribués de façon optimale permettant de tirer profit des données massives
  • proposer et sélectionner des outils analytiques de traitement de données massives permettant de répondre à un problème métier.

RNCP37763BC04 - Conduire l’ingénierie d’un projet Big Data et accompagner le changement

Liste de compétences Modalités d'évaluation

Analyser le besoin du projet data défini par l’entreprise en utilisant les données disponibles et les technologies Big Data existantes afin de proposer une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières.

Définir le plan de transition/renforcement de la stratégie data de l'entreprise, en identifiant les métiers concernés et en définissant les différents jalons et indicateurs qui permettent une mise en œuvre réussi du projet par les différents acteurs et utilisateurs.

Déployer un projet Big Data en assurant une communication et une supervision permanentes entre les développeurs et les opérations tout au long du cycle de vie du projet afin d’accélérer la mise en production dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique.

Piloter une équipe projet avec des groupes de travail interdisciplinaires et aider les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers afin d’accompagner le changement des pratiques.

Etude de cas : A partir d’une documentation complète présentant un cas d’usage data dans une organisation, le candidat devra réaliser une analyse du projet data et proposer une méthodologie de gestion de projet permettant de répondre à la problématique métier.

Étude de cas pratique : partir d’un projet data réel ou fictif, le candidat devra rédiger un cahier des spécifications fonctionnelles et techniques et un plan de transition/renforcement de la stratégie Data. Ensuite, il/elle devra le présenter devant le jury d’évaluation.

Etude de cas : A partir d’une présentation détaillée d’un projet Big Data d’entreprise réel ou fictif, le candidat devra réaliser une analyse critique des méthodes de suivi mises en œuvre durant l’ensemble du processus de développement du projet.

Mise en situation professionnelle réelle : Dans le cadre d’une mission confiée par une entreprise portant sur la mise en œuvre d’un projet de Data Engineering, le candidat devra participer au sein d’une équipe projet au pilotage et à l’accompagnement au changement des acteurs directement concernés par le projet.

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

L’obtention de la certification est conditionnée à la validation des 4 blocs de compétences et à la réalisation d’une mission en entreprise (le candidat participe au pilotage d’un projet data dans le cadre d’une mission entreprise (stage, alternance, contrat de travail, immersion, conseil…) d’une durée minimale de 3 mois, réalise un rapport de stage et une soutenance orale devant le jury d’évaluation composé de professeurs et d’experts).

Le jury de certification, seule autorité autorisée à délivrer la certification professionnelle, se base pour prendre sa décision d'attribution de la certification sur les critères suivants :

  • Les candidats n’ayant pas obtenu une notre inférieure à 7/20 pour une ou plusieurs compétences du référentiel.
  • Les candidats ayant obtenu un résultat supérieur ou égal à 10/20 pour chacun des blocs de compétences mentionnées dans le référentiel de certification professionnelle.
  • Les candidats qui ont validé leur rapport de mission par une note globale (rapport + soutenance) supérieur ou égale à 10/20.
  • Les candidats à qui le Jury de certification n’a pas refusé à l’unanimité la certification ET motivé son refus dans un procès-verbal de refus de certification signé par chacun des membres du Jury de certification.

Ces conditions sont cumulatives.

Les modalités d'évaluation peuvent être adaptées aux personnes en situation de handicap.

Par la voie de la VAE

Le jury VAE procède à l’évaluation des compétences professionnelles du candidat acquises par l’expérience sur la base d'un dossier de recevabilité (Livret 1), d'un entretien de faisabilité-orientation approfondi et la constitution d'un portefeuille de preuves (Livret 2).

Secteurs d’activités :

 En France, différents rapports et études ont identifié certains secteurs les plus porteurs pour la data et vecteurs de projets d’Intelligence Artificielle. Ces secteurs d’activités se caractérisent par une forte exposition des effectifs aux impacts des données massives et de l’IA, et un niveau élevé d’exposition à la digitalisation. Parmi ces principaux secteurs, on trouve : 

  • Santé : Les domaines où la date intervient sont vastes : médecine de prévention, aide au diagnostic et au choix des traitements, , épidémiologie, médecine augmentée, etc.
  • Services financiers : Parmi les domaines les plus impactés par les Big data, on peut citer : les activités de marché (analyse prédictive du marché, performance des fonds d’investissement, aide pour fixer le meilleur prix des actions etc.), les opérations courantes (vente de produits financiers : accord ou non d’une demande de prêt, octroi de crédit, analyse documentaire, détection de fraudes etc.)
  • Service juridique :Parmi les domaines les plus impactés par les données massives, citons : la recherche et analyse de documents (jurisprudence, informations légales de l’entreprise et une analyse pour trier et grouper les documents les plus pertinents pour le cas juridique à traiter), le suivi des opérations juridiques quotidiennes.
  • Commerce de détail :Les principaux domaines impactés par les Big Data sont les suivants : personnalisation de l’expérience client (analyse plus fine du comportement des consommateurs en temps réel et meilleure anticipation de leurs besoins), optimisation du fonctionnement du point de vente, optimisation du backoffice.

Type d'emplois accessibles :

  • Expert infrastructure et traitement de données massives
  • Data Engineer / Ingénieur de données / Ingénieur développement Big Data
  • Chief Data officer
  • Consultant Big Data
  • Data manager / Data Analyst

(au sein d'une entreprise privée ou dans un organisme public)

Code(s) ROME :

  • M1805 - Études et développement informatique
  • M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information

Références juridiques des règlementations d’activité :

Même si les métiers de la Data ne sont pas réglementés, ils nécessitent la maitrise de plusieurs réglementations qui se développent, en particulier en Europe pour encadrer les usages des solutions IA/Data. On peut citer :

En France :

  • La loi no 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, plus connue sous le nom de loi informatique et libertés (dans sa rédaction en vigueur depuis 2019)
  • Le décret n° 2019-536 du 29 mai 2019 qui détaille les modalités d’application de la Loi Informatique et Liberté et de la RGPD
  • La loi n° 2004-575 du 21 juin 2004 pour La Confiance en l'Économie Numérique (LCEN)

Eu Europe :

  • Le règlement UE 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données, dit règlement général sur la protection des données (RGPD)
  • Le règlement sur la gouvernance des données (Data Governance Act) - voté en mai 2022, et applicable en septembre 2023 qui régit le partage des données personnelles et non personnelles au niveau européen.
  • La proposition de règlement sur les données (Data Act) - du 23 février 2022 - propose de gérer la répartition de la valeur issue de l’utilisation des données personnelles et non personnelles entre les acteurs de l’économie de la donnée (utilisation des objets connectés et développement de l’Internet des objets).

Le cas échant, prérequis à l’entrée en formation :

Titres certifiés niveau 6 ou diplômes et/ou grades universitaires niveau 6 en informatique, sciences de l’ingénieur, mathématiques, statistiques, sciences physiques, sciences économiques et de gestion

Le cas échant, prérequis à la validation de la certification :

Pré-requis disctincts pour les blocs de compétences :

Non

Validité des composantes acquises :

Validité des composantes acquises
Voie d’accès à la certification Oui Non Composition des jurys
Après un parcours de formation sous statut d’élève ou d’étudiant X

Le jury de certification est composé de cinq membres :

  • 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification)
  • 3 professionnels du secteur de la Data dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury
En contrat d’apprentissage X

Le jury de certification est composé de cinq membres :

  • 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification)
  • 3 professionnels du secteur de la Data dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury
Après un parcours de formation continue X

Le jury de certification est composé de cinq membres :

  • 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification)
  • 3 professionnels du secteur de la Data dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury
En contrat de professionnalisation X

Le jury de certification est composé de cinq membres :

  • 2 représentants de l’école (le directeur Académique et le responsable pédagogique de la certification)
  • 3 professionnels du secteur de la Data dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury
Par candidature individuelle X -
Par expérience X

Le jury de certification est composé de cinq membres :

  • 2 représentants de l’école (le directeur Académique  et le responsable pédagogique de la certification)
  • 3 professionnels du secteur de la Data dont un désigné comme président du jury. Parmi ces 3 professionnels, il doit y avoir au moins un salarié en activité, un employeur et une femme. Si une seule femme est présente, elle sera désignée d’office présidente du Jury
Validité des composantes acquises
Oui Non
Inscrite au cadre de la Nouvelle Calédonie X
Inscrite au cadre de la Polynésie française X

Statistiques :

Lien internet vers le descriptif de la certification :

http://story.aivancity.com/expert-infra-traitement-donnees-massives/

Le certificateur n'habilite aucun organisme préparant à la certification

Référentiel d'activité, de compétences et d'évaluation :