Aller à la navigation principale Aller au contenu Aller à la navigation de bas de page
Répertoire national des certifications professionnelles

Expert en sciences des données (MS)

Active

N° de fiche
RNCP35197
Nomenclature du niveau de qualification : Niveau 7
Code(s) NSF :
  • 326m : Informatique, traitement de l'information
Formacode(s) :
  • 31011 : Cloud computing
  • 31052 : Data Warehouse
Date d’échéance de l’enregistrement : 20-01-2026
Nom légal SIRET Nom commercial Site internet
INST NAT SCIENCES APPLIQUEES ROUEN 19760165100023 - https://www.insa-rouen.fr/
Objectifs et contexte de la certification :

Cette certification, accréditée par la CGE depuis sa mise en œuvre en 2015 (et réaccréditée cette année), a été créée afin de former des professionnels capables de répondre à l’enjeu actuel de l’exploitation des données massives. Ces données ouvrent de nouvelles perspectives, d’analyse, de recherche, d’étude… qui réclament des compétences en ressources humaines en mesure de les exploiter. Le défi n’est plus d’accéder à l’information mais de traiter la masse d’informations hétérogènes. Pour y répondre, le métier d’expert en Sciences des données (ou Data Scientist) est devenu une nécessité. Cette nécessité a été mise en exergue dans le rapport Villani sur la stratégie nationale de l’intelligence artificielle. Cette certification permet de répondre aux besoins des grands groupes industriels, des sociétés de conseils en systèmes d’information confrontées à l’épineuse question du traitement de l’information, des start-up, des institutions et collectivités publiques. Ces entreprises et institutions peuvent ainsi former leurs collaborateurs (actuels ou futurs) aux différentes techniques de la Science des données, leur permettant de créer de nouvelles opportunités sur le marché national et international.

La certification s’adosse aux savoir-faire des laboratoires LITIS et LMI de l’INSA Rouen Normandie et permet ainsi de répondre à de nombreux enjeux économiques et sociétaux, dans tous les secteurs, an niveau national comme au niveau régional, pour les entreprises, cabinets de conseils et services, start-up et PME, services publics et collectivités : exploiter les données massives pour en tirer un avantage compétitif à travers une meilleure connaissance des usagers et de leurs tendances, et ainsi mieux orienter les décisions et la stratégie de l'entreprise ou des politiques publiques. La certification permet également d'accompagner la transformation numérique et la convergence entre big data et intelligence artificielle.

Activités visées :

L’expert en sciences des données réalise la gestion et l’analyse pointue des données massives pour la stratégie et l’opérationnel de l’entreprise.

Dans ce cadre, il  réalise plusieurs activités :     

- dans ce premier grand champ d’activité, il va analyser les données, en procédant à leur analyse dans le cadre de la modélisation des données massives hétérogènes ou non d’une entreprise puis il va élaborer un modèle prédictif de traitement de données afin de modéliser ces données. 

- dans un second grand champ d’activités, il va s’atteler à extraire et collecter des données via une technique d’analyse et de stockage pour chaque donnée ; il va réaliser le traitement et l’exploitation des données collectées et veiller à l’amélioration continue du traitement des données structurées ou non structurées.    

- enfin, il va avoir pour mission d’élaborer une stratégie d’exploitation et de valorisation de la donnée lui permettant d’exploiter les données hétérogènes de la structure, puis d’organiser et planifier des projets de la structure, de façon collaborative et avec les différents services de la structure concernés par la donnée.   

Compétences attestées :

Bloc de compétences 1 : Modéliser les données massives d'une structure

C1.1. Maitriser les outils d’analyse pour décrire les données en tenant compte du contexte.  

C1.2. Identifier l’outil de modélisation statistique en fonction du type de donnée, structurée ou non structurée, afin de la traiter.  

C1.3. Effectuer l’analyse exploratoire et la description des masses de données au travers d’une méthode statistique pour déterminer les problématiques de description, de projection, de visualisation et de regroupement des données en catégories homogènes. 


 C2.1. Sélectionner une méthodologie de traitement statistique au regard du problème posé, du type de donnée pour la modéliser.  

 C2.2. Concevoir et réaliser un prototype du modèle à partir de logiciels de programmation haut niveau pour montrer la faisabilité et la pertinence du modèle.  

C2.3. Evaluer la performance du modèle au regard des contraintes de mise en production pour le mettre en œuvre. 


Bloc de compétences 2 : Collecter, structurer et traiter les données d'une structure

C1.1. Maitriser et utiliser les outils d’interrogation des bases de données pour extraire et collecter les données. 

C1.2. Concevoir un système d’ingénierie de données en définissant une approche méthodologique de collecte, de stockage et d’interrogation pour l’analyse de masse de données réelles. 

C2.1. Elaborer et mettre en place une stratégie de traitement distribué en ligne ou hors ligne de la donnée structurée et non structurée par un langage de programmation fonctionnel afin de les exploiter.  

C2.2. Développer des implémentations au regard des données à traiter pour cadrer les algorithmes et performances prédictives. 

C3.1. Analyser les retours pour mettre à jour l’exploitation et le stockage des données.  

C3.2. Repérer le type de problème rencontré, d’apprentissage ou de fouille de données, en utilisant des algorithmes d’optimisation pour le résoudre. 


Bloc de compétences 3 : Concevoir une stratégie de valorisation de la donnée 

C1.1. Maîtriser les fonctionnalités d’une architecture informatique robuste pour le stockage et le traitement distribué des données.  

C1.2. Traduire un problème business en problème mathématiques/statistiques afin de définir une stratégie de valorisation des données pour exploiter les informations décisionnelles de la structure.  

C1.3. Concevoir une stratégie de valorisation des données en proposant des « entrepôts de données » tenant compte de l’écosystème économique, réglementaire et des contraintes de sécurité liées au traitement des données. 

 C.2.1 Formuler et présenter des analyses statistiques décisionnels à viser des différents services de la structure pour les accompagner dans leur prise de décision. 

C.2.2 Communiquer sur le potentiel des outils innovants de représentation, de modélisation et de visualisation pour contribuer à la plus-value et la prise de décisions utiles à la structure. 

C.2.3 Dimensionner les actions du projet en définissant les choix techniques et méthodologiques des interventions pour évaluer et planifier les ressources techniques, budgétaires et humaines. 

C.2.4 Communiquer sur la stratégie de valorisation des données de la structure pour sensibiliser les acteurs, accompagner au changement et améliorer le fonctionnement interne. 

Modalités d'évaluation :

  E1 - Mise en situation professionnelle reconstituée d’analyse de donnéesChaque candidat réalise un support (code, rapport) d’un modèle d’analyse exploratoire et de représentation des données. L’analyse de données porte sur des données publiquement disponibles.     

E2 - Thèse professionnelleLa thèse professionnelle est à réaliser par chaque candidat, de manière individuelle. Elle porte sur une problématique liée à leur entreprise d’alternance. La problématique est validée en amont par le tuteur entreprise et les responsables du programme. Chaque candidat doit rendre un rapport écrit, mémoire et effectuer une soutenance orale devant le jury de certification. Le mémoire doit comprendre à minima 30 pages sur le sujet traité en précisant le contexte, les problématiques du sujet, les enjeux et intérêts de ces problématiques et relier si possible ces problèmes à des thématiques du programme. La démarche utilisée pour traiter le problème est présentée (recherches bibliographiques, développement des éléments théoriques, conception de solutions, étapes de la procédure, démarche expérimentale menée, résultats obtenus, analyse critique,   etc.).   La soutenance a pour but de vérifier les capacités de synthèse, de prise de parole en public, d’argumentation, et de recul critique. Elle comprend deux parties : un exposé oral, d’une durée de 30 minutes, suivi de questions et d'échanges, d’une durée de 15 à 20 minutes. L’exposé doit permettre de présenter de manière synthétique les points clés de la thèse : la problématique, les enjeux, les approches de solution, les résultats et leur analyse.     

E3 - Projet de conception        Les candidats réalisent, par groupe de 2-3 candidats, un rapport écrit sur un projet de conception au choix. Chaque groupe présente son projet au jury de certification durant une soutenance orale. Chaque groupe présente les données traitées, le prototype fonctionnel de l’architecture de traitement des données fonctionnelles, la méthodologie d’évaluation employée, les résultats obtenus, la répartition des tâches entre les membres de l’équipe projet, la gestion du projet (planification, versionning du code) …       

E4 : QCM  Le QCM comprend 10 questions portant sur les concepts théoriques et pratiques.  Exemples de thématiques : -Modèle SVM et Bayes -Modèle d’apprentissage supervisé vs non supervisé -Modèle convolutif et récurrent (IA) -Optimisation     

E5 : Mise en situation professionnelle reconstituée sur un système de stockage de la donnéeChaque candidat réalise la conception, la configuration et l’implémentation de systèmes de stockage de la donnée via des outils d’interrogation des bases de données. L’évaluation porte sur des données publiquement disponibles.     

E6 : Mise en situation professionnelle reconstituée portant sur l’architecture de traitement distribuée des donnéesChaque candidat conçoit et réalise une architecture de traitement distribuée des données. Cette évaluation porte sur des données publiquement disponibles.     

E7 : Mise en situation professionnelle réelle sur la réglementation, la sécurisation des données. Pour évaluer l’aspect réglementaire, chaque candidat traite une problématique réglementaire, de sécurisation des données de l’entreprise dans laquelle il réalise son alternance.      

RNCP35197BC01 - Modéliser les données massives d'une structure

Liste de compétences Modalités d'évaluation

C1.1. Maitriser les outils   d’analyse pour décrire les données en tenant compte du contexte.   

C1.2. Identifier l’outil de modélisation statistique en fonction du type de donnée, structurée ou non structurée, afin de la traiter.      

C1.3. Effectuer l’analyse exploratoire et la description des masses de données au travers d’une méthode statistique pour déterminer les problématiques de description, de projection, de visualisation et de regroupement des données en catégories homogènes. 

C2.1. Sélectionner une méthodologie de traitement statistique au regard du problème posé, du type de donnée pour la modéliser.  

C2.2. Concevoir et réaliser un prototype du modèle à partir de logiciels de programmation haut niveau pour montrer la faisabilité et la pertinence du modèle.  

C2.3. Evaluer la performance du modèle au regard des contraintes de mise en production pour le mettre en œuvre. 

  E1 - Mise en situation professionnelle reconstituée d’analyse de données publiquement disponibles : chaque candidat réalise un support (code, rapport) de son modèle d'analyse exploratoire et de représentation des données   

E2 - Thèse professionnelle   E3 - Projet en groupe

E4 : QCM de 10 questions sur les concepts théoriques et pratiques.Exemple de thématiques:

-modèle SVM et Bayes

- modèle d'apprentissage supervisé vs non supervisé

- modèle convolutif et récurrent (IA)

- optimisation  

RNCP35197BC02 - Collecter, structurer et traiter les données d'une structure

Liste de compétences Modalités d'évaluation

 C1.1. Maitriser et utiliser les outils d’interrogation des bases de données pour extraire et collecter les données. 

C1.2. Concevoir un système d’ingénierie de données en définissant une approche méthodologique de collecte, de stockage et d’interrogation pour l’analyse de masse de données réelles. 

C2.1. Elaborer et mettre en place une stratégie de traitement distribué en ligne ou hors ligne de la donnée structurée et non structurée par un langage de programmation fonctionnel afin de les exploiter.  

C2.2. Développer des implémentations au regard des données à traiter pour cadrer les algorithmes et performances prédictives. 

C3.1. Analyser les retours pour mettre à jour l’exploitation et le stockage des données.  

C3.2. Repérer le type de problème rencontré, d’apprentissage ou de fouille de données, en utilisant des algorithmes d’optimisation pour le résoudre. 

   E2 - Thèse professionnelle   E3 - Projet en groupe  E5 : Mise en situation professionnelle reconstituée sur le stockage de la donnée:Chaque candidat réalise la conception, la configuration et l'implémentation de systèmes de stockage de la donnée via des outils d'interrogation des bases de données et à partir de données publiquement disponibles. 

  E6 : Mise en situation professionnelle reconstituée portant sur l’architecture de traitement distribuée de données:Chaque candidat conçoit et réalise une architecture de traitement distribuée des données à partir de données publiquement disponibles. 

RNCP35197BC03 - Concevoir une stratégie de valorisation de la donnée

Liste de compétences Modalités d'évaluation

C1.1. Maîtriser les fonctionnalités d’une architecture informatique robuste pour le stockage et le traitement distribué des données.  

C1.2. Traduire un problème business en problème mathématiques/statistiques afin de définir une stratégie de valorisation des données pour exploiter les informations décisionnelles de la structure.  

C1.3. Concevoir une stratégie de valorisation des données en proposant des « entrepôts de données » tenant compte de l’écosystème économique, réglementaire et des contraintes de sécurité liées au traitement des données. 

C.2.1 Formuler et présenter des   analyses statistiques décisionnels à viser des différents services de la   structure pour les accompagner dans leur prise de décision.   

 C.2.2 Communiquer sur le potentiel des outils innovants de représentation, de modélisation et de visualisation pour contribuer à la plus-value et la prise de décisions utiles à la structure.    

 C.2.3 Dimensionner les actions du projet en définissant les choix techniques et méthodologiques des interventions pour évaluer et planifier les ressources techniques, budgétaires et humaines. 

 C.2.4 Communiquer sur la stratégie de valorisation des données de la structure pour sensibiliser les acteurs, accompagner au changement et améliorer le fonctionnement interne. 

   E2 - Thèse professionnelle   E3 - Projet en groupe

E7 - Mise en situation professionnelle réelle sur la réglementation, la sécurisation des données:Chaque apprenant(e) traite l'aspect règlementaire sur une problématique de l'entreprise dans laquelle il (elle) réalise son alternance

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

La validation de l'ensemble des blocs de compétences constitue la certification.

Secteurs d’activités :

L’expert en sciences des données travaille sur des technologies numériques à haute valeur ajoutée intellectuelle et technique dans des entreprises de toutes tailles : grands groupes, sociétés de prestations (consultants), collectivités territoriales, PME, startups.  

Il peut exercer son activité dans les secteurs suivants : les banques, les compagnies d’assurances, les sociétés de transport, les cabinets de conseil, les entreprises spécialisées dans l’énergie, le web marketing, les plateformes d’e-commerce, l’industrie, la R&D.

Type d'emplois accessibles :

L’expert en sciences des données (data scientist) détermine et met en œuvre une stratégie de collecte des données massives, complexes et hétérogènes (structurées ou non structurées), afin d’en retirer l’information pour une prise de décision optimale. Il  maîtrise les méthodes efficaces de collecte, stockage, mise en forme, visualisation, modélisation et traitement de ces données. Il  explore les données de multiples sources dispersées.  Suivant les secteurs et les structures, il  assure les postes et fonctions suivantes : 

- Data analyst et data scientist : procède à des analyses sur les approches statistiques possibles en relation avec des enjeux métiers. Conçoit et déploie des modèles prédictifs. Maintient, améliore et conçoit des algorithmes d’extraction d’information. Traduit les données en leviers opérationnels, accompagne les développeurs jusqu’au déploiement en production des solutions et assure une veille technologique. 

- Consultant valorisation des données : analyse les besoins clients big data, définit les architectures applicatives et techniques nécessaires au traitement des données, conçoit des modèles de données, participe au développement et à l’implémentation des algorithmes de traitement, à la mise en production, rédige la documentation associée et effectue la veille technologique sur les nouvelles tendances autour de l’exploitation des données. 

- Business analyst/business developer : interface indispensable entre les départements opérationnels de l’entreprise et le service informatique, il  analyse le processus d’information et les stratégies au service de la prise de décision quotidienne de sa société afin d’en évaluer l’efficacité ou d’apporter les ajustements nécessaires.   

Autres appellations de fonctions possibles : 

- Ingénieur d’étude et développement de données massives 

- Strategy manager/project manager      


L’expert en sciences des données est un cadre détenant des compétences techniques, scientifiques et transversales faisant de lui  un vecteur facilitant la prise de décision en entreprise. Il est à même d’intervenir au plus haut niveau de la stratégie de l’entreprise.  Il est l'interlocuteur privilégié du Directeur des Systèmes Informatiques, comme du Directeur Marketing, du Directeur R&D ou Bureaux d’études, comme encore du Président de start up. Son niveau de responsabilité varie en fonction du positionnement de l’entreprise et de sa stratégie de valorisation des données.  Il  est amené à travailler dans un environnement multi-échelle, à l’interface entre différents services : R&D, informatique, marketing, ressources humaines, direction financière, direction générale, etc.  

Code(s) ROME :
  • M1802 - Expertise et support en systèmes d''information
  • M1403 - Études et prospectives socio-économiques
  • M1801 - Administration de systèmes d''information
  • M1805 - Études et développement informatique
Références juridiques des règlementations d’activité :

La certification tient compte du règlement nᵒ 2016/679, dit règlement général sur la protection des données (RGPD). 

Le cas échant, prérequis à l’entrée en formation :

Les conditions d’admission sont fixées par la CGE dans le cadre de Mastère Spécialisé labélisé.  Sont donc recevables les candidatures de titulaires d’un des diplômes suivants : 

▪ Diplôme d’ingénieur habilité par la Commission des Titres d’Ingénieur (liste CTI), 

▪ Diplôme d’une école de management habilitée à délivrer le grade national de Master (liste CEFDG),

 ▪ Diplôme de 3ème cycle habilité par les autorités universitaires (DEA, DESS, Master…) ou diplôme professionnel de niveau BAC + 5, 

▪ Diplôme de M1 ou équivalent, pour des auditeurs justifiant d’aux moins trois années d’expérience professionnelle,

 ▪ Titre inscrit au RNCP niveau 7, 

▪ Diplôme étranger équivalent aux diplômes français exigés ci-dessus dans les domaines des mathématiques, de l’informatique et du traitement de l’information.    

Par dérogation, pour 30 % maximum du nombre d’étudiants suivant la formation MASTERE SPECIALISE® concernée : 

▪ Niveau M1 validé ou équivalent sans expérience professionnelle, 

▪ Diplôme de L3 justifiant d’une expérience adaptée de 3 ans minimum, 

▪ VAP, Valorisation des Acquis Professionnels  (10 % maximum de l’effectif de la formation).  


Le cas échant, prérequis à la validation de la certification :

Pré-requis disctincts pour les blocs de compétences :
Non

Validité des composantes acquises :
Voie d’accès à la certification Oui Non Composition des jurys
Après un parcours de formation sous statut d’élève ou d’étudiant X

  2 Responsables de la formation et 4 professionnels extérieurs.   

En contrat d’apprentissage X

2 Responsables de la formation et 4 professionnels extérieurs.

Après un parcours de formation continue X

 2 Responsables de la formation et 4 professionnels extérieurs.   

En contrat de professionnalisation X

  2 Responsables de la formation et 4 professionnels extérieurs.    

Par candidature individuelle X

 2 Responsables de la formation et 4 professionnels extérieurs.   

Par expérience X

 2 Responsables de la formation et 4 professionnels extérieurs.   

Oui Non
Inscrite au cadre de la Nouvelle Calédonie X
Inscrite au cadre de la Polynésie française X
Date de décision 20-01-2021
Durée de l'enregistrement en années 5
Date d'échéance de l'enregistrement 20-01-2026
Promotions (année d'obtention) pouvant bénéficier du niveau de qualification octroyé 2018|2020|2017|2019
Statistiques :
Année d'obtention de la certification Nombre de certifiés Nombre de certifiés à la suite d’un parcours vae Taux d'insertion global à 6 mois (en %) Taux d'insertion dans le métier visé à 6 mois (en %) Taux d'insertion dans le métier visé à 2 ans (en %)
2018 16 0 100 75 -
2017 12 0 83 50 64
Lien internet vers le descriptif de la certification :

Le certificateur n'habilite aucun organisme préparant à la certification

Référentiel d’activité, de compétences et d’évaluation :

Référentiel d’activité, de compétences et d’évaluation
Ouvre un nouvel onglet Ouvre un site externe Ouvre un site externe dans un nouvel onglet