Le stagiaire rejoindra l'équipe Collecte de DATA IA sur la mise en place d'indicateur généraux de qualité de service sur les données disponibles sur le Cloud public. Il pourra côtoyer les data Engineer et les data-scientists de la communauté d'Orange.
La Data Mediation Zone collecte les données de 450 sources différentes. Son patrimoine est d'un peu plus de 4000 flux. Assurer la qualité des données est essentiel pour garantir un usage efficace et éclairé. Les équipes utilisant ces données doivent être informées de leur niveau de qualité, classé en trois catégories : Or, Argent et Bronze (L'utilisation de données de catégorie Bronze, qui présentent une qualité de service insuffisante, peut compromettre les résultats des traitements)
Pour cela, il faudra travailler sur 4 étapes principales :
- Elaboration des règles de classification " Or ", " argent ", " Bronze " : Analyser divers indicateurs de qualité de service (complétude, fraîcheur, taux de rejet, etc.) et proposer des règles de classification pour les données.
- Développement de la classification : Concevoir, tester et valider les classifications dans un environnement de développement, puis les déployer en production.
- Création d'un tableau de bord " Golden Data " : Mettre en place un tableau de bord classant les données en catégories Or, Argent et Bronze, avec des justifications pour chaque classement. Ce tableau servira de référence pour les utilisateurs et aidera à identifier les sources nécessitant des améliorations en qualité de service et qualité des données.
- Validation des performances d'exécution : S'assurer que la solution est compatible avec les développements de collecte de données, tout en portant une attention particulière aux coûts opérationnels.
L'outil doit pouvoir traiter un très grand nombre de données (tant en quantité qu'en variété). Il doit être frugale (coûts peu élevés)
Sous la responsabilité d'un tuteur et dans le respect des règles de l'art et des normes de sécurité Orange, le stagiaire aura la charge de définir, modéliser, et mettre en place cet outil ainsi que de le documenter.
Localisez l'entreprise et calculez votre temps de trajet en un clic !
Etudiant.e en école d'ingénieur ou de master dans le domaine de l'informatique, vous possédez :
- Connaissance des Bases de Données : Compréhension des systèmes de gestion de bases de données (SQL, NoSQL).
- Compétences en Programmation : Maîtrise de langages comme Python, Spark ou Java pour le traitement des données.
- Analyse de Données : Capacité à utiliser des outils d'analyse et de visualisation (ex. : Tableau, Power BI).
Optionnel :
- Connaissance de l'environnement GCP (GCS, dataflow, composer, BQ)
Nous sommes l'un des principaux opérateurs de télécommunications et de services numériques dans le monde. Nous servons 298 millions de clients, particuliers, professionnels et grandes entreprises au 31 décembre 2023 : nous sommes notamment l'un des leaders mondiaux des services de télécommunication pour les entreprises multinationales, sous la marque Orange Business.
dès maintenant !