[Paroles de doctorants] Luis-Felipe Vargas-Rojas : Combiner le web sémantique et la modélisation pour organiser des données phénotypiques acquises à différentes échelles d’organisation des plantes

Luis-Felipe Vargas-Rojas porte une thèse cofinancée par #DigitAg et l’Inra

Bonjour, je m’appelle Felipe Vargas, je viens de Colombie. J’ai une formation en informatique, je suis ingénieur en informatique de l’Universidad del Valle de Cali-Colombie. Je me suis spécialisé en sciences des données et en Big Data appliquées aux questions agricoles. J’ai travaillé pendant 3 ans au CIAT (Centre international d’agriculture tropicale) pour le programme HarvestPlus.

Les 6 derniers mois avant ma thèse, j’ai travaillé comme ingénieur à l’Inra (LEPSE), et maintenant, je démarre ma thèse. Je travaille à l’interface entre deux équipes de l’Inra, l’UMR LEPSE, pionnière dans les approches de phénotypage et l’UMR MISTEA spécialiste en gestion de données.

Ma thèse porte sur l’enrichissement des outils du Web sémantique pour l’organisation d’ensembles de données phénomiques végétales, le but étant d’établir un mécanisme basé sur des ontologies pour exprimer des équations numériques et des règles comme relations entre des caractères à plusieurs niveaux (champ et serre). De cette façon, les agents logiciels pourront récupérer les données générées automatiquement par inférence par rapport aux connaissances formalisées. Les connaissances théoriques sur la dynamique de la phénomique du plan ont été utilisées manuellement pour cartographier l’information à différentes échelles, par exemple du niveau de la plante au niveau de la canopée. En incluant cette information dans la modélisation des données, les chercheurs et les intervenants pourront automatiquement obtenir et combiner des données supplémentaires afin d’explorer de nouvelles hypothèses et d’obtenir des idées à plusieurs niveaux.

J’ai deux expériences où j’ai dû relever des défis dans ce domaine. D’abord mon mémoire de maîtrise, où j’ai mis en œuvre une architecture complète Big Data de bout en bout pour exécuter des modèles d’apprentissage machine sur des données agronomiques, certains processus comme la préparation des données et le nettoyage des données ont inclus des pipelines pour harmoniser des données qui avaient un niveau de détail différent. Ma deuxième expérience a porté sur les outils du web sémantique. Je crée une ontologie pour modéliser le vocabulaire agronomique de l’ICASA. Je pense que les ontologies offrent un ensemble robuste d’outils de stockage de données couplés à des métadonnées sophistiquées et des relations externes. En outre, il y a des raisons de créer de nouvelles données dérivées d’enregistrements existants. Cependant, ils ne fonctionnent qu’avec des règles logiques qui négligent d’autres types de sources de connaissances comme les équations, les modèles statistiques, l’apprentissage machine, les pipelines. En formalisant ces connaissances en termes d’ontologies, nous pourrions automatiser plusieurs processus offrant un cadre plus complet pour la communauté.

Combiner le web sémantique et la modélisation pour organiser des données phénotypiques acquises à différentes échelles d’organisation des plantes

  • Date de démarrage : décembre 2019
  • Université : MUSE – Montpellier SupAgro
  • Ecole doctorale :  GAIA (Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau) – ED 584
  • Discipline / Spécialité : Informatique, Sciences des données
  • Directeur de thèse : François Tardieu, Inra LEPSE
  • Encadrant(es)  : Llorenç Cabrera-Bosque, Inra LEPSE & Danai Symeonidou, Inra MISTEA
  • Financement : #DigitAg – Inra
  • #DigitAg : Thèse cofinancée – Axes 4, 6 – Challenge 2

Mots-clés : ontologies, phénomique végétale, modélisation

Résumé :

Les récents développements dans le domaine de la phénomique végétale ont permis l’acquisition massive de données d’une grande valeur dans différents contextes (ex. champs vs. plateformes contrôlées) et différents échelles d’organisation (ex. organe, plante, couvert). La réutilisation et ré-analyse de ces données est confrontée aux problèmes liés aux caractéristiques multi-origine et multi-échelle des données ainsi qu’à la difficulté de développer des systèmes d’information capables d’organiser cette masse d’information. Dans ce contexte, nous formulons l’hypothèse que l’utilisation d’équations issues de la modélisation permet d’améliorer les processus d’alignements pour relier des concepts et variables à différentes échelles d’organisation. L’objectif principal de cette thèse consistera ainsi à combiner la modélisation de cultures et des techniques dans le domaine du web sémantique afin de faciliter l’alignement de ces concepts. Ceci permettra de développer un cadre conceptuel facilitant l’organisation de jeux de données acquis en conditions de plein champ et en plateforme de phénotypage et de relier des concepts à différents échelles d’organisation tout en créant des liens dynamiques. Enfin, nous espérons que le cadre conceptuel développé pendant cette thèse facilitera l’assemblage de futurs jeux de données permettant leur réutilisation et ré-analyse afin de générer de nouvelles connaissances.

 

Contact :  luis-felipe.vargas-rojas [AT] inra.fr​ – Tél : +33 (0)766847435

Réseaux : LinkedIn