[Thèse soutenue] Gaëtan Heidsieck

[Thèse soutenue] Gaëtan Heidsieck: Gestion distribuée des workflows scientifiques pour le phénotypage haut-débit des plantes

Gaëtan a soutenu sa thèse le mercredi 9 décembre à 10h00, au Lirmm de Montpellier.

Gestion distribuée des workflows scientifiques pour le phénotypage haut-débit des plantes

Sujet de thèse cofinancée par #DigitAg

 

Je m’appelle Gaëtan Heidsieck et je prépare mon doctorat dans les locaux de l’équipe Zénith de l’Inria à Montpellier, au sein du Lirmm. J’ai suivi une formation d’ingénieur en informatique, spécialisé en apprentissage statistique à l’Ecole des Mines de Saint-Étienne. Au cours de ma formation, j’ai trouvé la gestion des données et calculs distribués très intéressante. J’ai ainsi choisi d’approfondir ces connaissances en les appliquant à un domaine actuellement clef.

  • Date de démarrage : novembre 2017
  • Université : Université de Montpellier / MUSE Université d’Excellence
  • Ecole doctoraleI2S , Montpellier
  • Discipline / Spécialité : Informatique
  • Directeur de thèse : Esther Pacitti (Université de Montpellier, équipe Zenith Lirmm), François Tardieu (Inrae, UMR Lepse)
  • Encadrant(es)  : Christophe Pradal (Cirad, UMR Agap)
  • Financement : #DigitAg – Inria
  • #DigitAg : Thèse cofinancée – Axe 4 – Challenge 2

Mots-clés : Workflow scientifique, calcul distribué, calcul sur cloud/ grille, phénotypage, reproductibilité

Résumé : Au cours de la dernière décennie, le phénotypage haut-débit des plantes s’est développé pour caractériser la variabilité génétique de la réponse des plantes aux facteurs environnementaux pour des milliers de plantes, en identifiant ainsi les traits héritables en sélection génomique et prédire les valeurs génétiques des combinaisons alléliques dans différents environnements. Cela implique d’automatiser la mesure et l’analyse d’un très grand nombre de traits, et de caractériser la croissance, le développement et le fonctionnement des plantes. Cela demande aussi de pouvoir combiner de façon fluide des données avec des modèles éco-physiologiques simulant la réponse des plantes, qui sont essentiels dans l’analyse des interactions entre déterminisme génétique et facteurs environnementaux (GxE), ainsi que dans l’intégration des processus pour prédire la performance des cultures. L’agriculture de précision et en particulier les plateformes de phénotypage produisent de très grands volumes de données. Par exemple, le réseau Phénome produit de 150 à 200 To de données par an sur ses sept sites. L’analyse de ces données en un temps acceptable, ainsi que la distribution et la reproduction des résultats scientifiques demeure encore un défi à relever.
L’objectif de cette thèse est de répondre à deux défis critiques posés par la gestion des analyses et simulation en phénotypage des plantes : 1) la distribution des calculs à grande échelle et 2) la réutilisation et la reproduction des chaines de traitements par des utilisateurs non informaticiens. Ces développements méthodologiques en informatique seront appliqués à des workflows, développés dans la plateforme OpenAlea, et actuellement utilisés dans le projet Equipex Phénome.

Contact :  Esther.Pacitti [AT] lirmm.fr​ – Tél: 04.67.14.97.27

Réseaux : LinkedIn

Publications
Télécharger le mémoire de thèse


Publications dans des journaux internationaux

Christophe Pradal (Cirad), Sarah Cohen-Boulakia (Univ. Paris-Saclay), Gaetan Heidsieck (Inria), Esther Pacitti (Univ. Montpellier), François Tardieu (INRA) and Patrick Valduriez (Inria) (2018) . Distributed Management of Scientific Workflows for High-Throughput Plant Phenotyping. ERCIM News 113, April 2018 , Special theme: Smart Farming (short article) – https://hal.inria.fr/hal-01948568

G. Heidsieck, D. de Oliveira, E. Pacitti, C. Pradal, F. Tardieu, P. Valduriez, Execution of Scientific Workflows in the Cloud Through Adaptive Caching. Transactions on Large-Scale Data-and Knowledge-Centered Systems (pp. 41-66), 2020

Heidsieck G., de Oliveira D., Pacitti E., Pradal C., Tardieu F., Valduriez P. (2020) Efficient Execution of Scientific Workflows in the Cloud Through Adaptive Caching, Lecture Notes in Computer Science

Communications dans des conférences internationales

G. Heidsieck, D. de Oliveira, E. Pacitti, C. Pradal, F. Tardieu, P. Valduriez, Distributed Caching of Scientific Workflows in Multisite Cloud, DEXA 2020 : International Conference on Database and Expert Systems Applications (pp. 51-65) – https://dx.doi.org/10.1007/978-3-030-59051-2_4

G. Heidsieck, D. de Oliveira, E. Pacitti, C. Pradal, F. Tardieu, P. Valduriez., Adaptive Caching for Data-Intensive Scientific Workflows in the Cloud. DEXA 2019 : International Conference on Database and Expert Systems Applications (pp. 452-466) – https://agritrop.cirad.fr/593357/

G. Heidsieck, D. de Oliveira, E. Pacitti, C. Pradal, F. Tardieu, P. Valduriez. Cache-aware scheduling of scientific workflows in multisite cloud: Gestion de Données – Principes, Technologies et Applications (under revision)

G. Heidsieck, D. de Oliveira, E. Pacitti, C. Pradal, F. Tardieu, P. Valduriez, Efficient Execution of Scientific Workflows in the Cloud Through Adaptive Caching. BDA 2019 : Gestion de Données – Principes, Technologies et Applications (pp. 41-66)- https://www.springerprofessional.de/en/efficient-execution-of-scientific-workflows-in-the-cloud-through/18363540