[Thèse soutenue] Luis-Felipe Vargas-Rojas : Combiner le web sémantique et la modélisation pour organiser des données phénotypiques acquises à différentes échelles d’organisation des plantes

Sujet de thèse co-financé #DigitAg

Représentation sémantique et calcul de formules mathématiques pour l'exploitation des données phénomiques des plantes

Felipe a soutenu sa thèse le 15 décembre 2023 - Institut Agro Montpellier

Bonjour, je m’appelle Felipe Vargas, je viens de Colombie. J’ai une formation d’ingénieur en informatique de l’Universidad del Valle de Cali-Colombie. Je me suis spécialisé en sciences des données et en Big Data appliquées aux questions agricoles. J’ai travaillé pendant 3 ans au CIAT (Centre international d’agriculture tropicale) pour le programme HarvestPlus.
Pendant les 6 mois qui ont précédé ma thèse, j’ai travaillé comme ingénieur d’études à INRAE, au LEPSE.
Ma thèse est à l’interface entre 2 laboratoires INRAE : l’UMR LEPSE, pionnière dans les approches de phénotypage et l’UMR MISTEA, spécialiste en gestion de données.
Mes travaux portent sur l’enrichissement des outils du Web sémantique pour l’organisation d’ensembles de données phénomiques végétales, dans le but d’établir un mécanisme basé sur des ontologies, pour exprimer des équations numériques et des règles comme relations entre des caractères à plusieurs niveaux (champ et serre). De cette façon, les agents logiciels pourront récupérer les données générées automatiquement par inférence par rapport aux connaissances formalisées. Les connaissances théoriques sur la dynamique de la phénomique du plan ont été utilisées manuellement pour cartographier l’information à différentes échelles, par exemple du niveau de la plante au niveau de la canopée. En incluant cette information dans la modélisation des données, les chercheurs et les intervenants pourront automatiquement obtenir et combiner des données supplémentaires afin d’explorer de nouvelles hypothèses et d’obtenir des idées à plusieurs niveaux.
J’ai déjà pu relever des défis dans ce domaine lors de 2 précédentes expériences :

lors de mon stage de maîtrise, où j’ai mis en œuvre une architecture complète Big Data de bout en bout pour exécuter des modèles d’apprentissage machine sur des données agronomiques. Certains processus comme la préparation des données et le nettoyage des données ont inclus des pipelines pour harmoniser des données qui avaient un niveau de détail différent.

j’ai créé une ontologie pour modéliser le vocabulaire agronomique de l’ICASA. Je pense que les ontologies offrent un ensemble robuste d’outils de stockage de données couplés à des métadonnées sophistiquées et des relations externes. En outre, il y a des raisons de créer de nouvelles données dérivées d’enregistrements existants. Cependant, ils ne fonctionnent qu’avec des règles logiques qui négligent d’autres types de sources de connaissances comme les équations, les modèles statistiques, l’apprentissage machine, les pipelines. En formalisant ces connaissances en termes d’ontologies, nous pourrions automatiser plusieurs processus offrant un cadre plus complet pour la communauté.

Date de démarrage : décembre 2019
Date de soutenance : 15 décembre 2023
Université : MUSE – Institut Agro
Ecole doctorale : GAIA (Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau) – ED 584
Discipline / Spécialité : Informatique, Sciences des données
Directeur de thèse : François Tardieu, Lepse, Inrae
Encadrant(es) : Llorenç Cabrera-Bosque, Lepse, Inrae & Danai Symeonidou, UMR Mistea, Inrae
Financement : #DigitAg – Inrae
#DigitAg : Thèse cofinancée – Axes 4, 6 – Challenge 2

Mots-clés: Ontologies, phénomique végétale, modélisation

Résumé : Les récents développements dans le domaine de la phénomique végétale ont permis l’acquisition massive de données d’une grande valeur dans différents contextes (ex. champs vs. plateformes contrôlées) et différents échelles d’organisation (ex. organe, plante, couvert). La réutilisation et ré-analyse de ces données est confrontée aux problèmes liés aux caractéristiques multi-origine et multi-échelle des données ainsi qu’à la difficulté de développer des systèmes d’information capables d’organiser cette masse d’information. Dans ce contexte, nous formulons l’hypothèse que l’utilisation d’équations issues de la modélisation permet d’améliorer les processus d’alignements pour relier des concepts et variables à différentes échelles d’organisation. L’objectif principal de cette thèse consistera ainsi à combiner la modélisation de cultures et des techniques dans le domaine du web sémantique afin de faciliter l’alignement de ces concepts. Ceci permettra de développer un cadre conceptuel facilitant l’organisation de jeux de données acquis en conditions de plein champ et en plateforme de phénotypage et de relier des concepts à différents échelles d’organisation tout en créant des liens dynamiques. Enfin, nous espérons que le cadre conceptuel développé pendant cette thèse facilitera l’assemblage de futurs jeux de données permettant leur réutilisation et ré-analyse afin de générer de nouvelles connaissances.

Composition du jury:

Pierre MARTRE, Directeur de Recherche, INRAE, Directeur de thèse
Philippe VISMARA, Professeur, Institut Agro Montpellier, Président
Fatiha SAÏS, Professeur, Université Paris Saclay, Rapporteur
François PINET, Directeur de Recherche, INRAE, Rapporteur
Isabelle MOUGENOT, Professeur, Université de Montpellier, Examinatrice
Christophe PRADAL, Cadre Scientifique, CIRAD, Invité
Danai SYMEONIDOU, Chargée de recherche, INRAE, Co-Encadrante
Llorenç CABRERA-BOSQUET, Ingénieur de recherche, INRAE, Co-Encadrant

Contact : luis-felipe.vargas-rojas [AT] inrae.fr

Réseaux : LinkedIn

Publications
Publications dans revues internationales

Luis Felipe Vargas-Rojas, Llorenç Cabrera-Bosquet, Danai Symeonidou. QAVAN: Query-answering approach for actionable numerical relationships over Knowledge Graphs. Knowledge-Based Systems, 2024, 284, pp.111252. DOI : 10.1016/j.knosys.2023.111252

Actes de conférence et ateliers

Luis Felipe Vargas-Rojas, Axel Polleres, Llorenç Cabrera-Bosquet, Danai Symeonidou. PhyQus: Automatic Unit Conversions for WikidataPhysical Quantities. 4. Wikidata Workshop 2023 co-located with 22nd International Semantic Web Conference (ISWC 2023), Nov 2023, Athens, Greece. 9p.
Luis Felipe Vargas-Rojas. Ontological Formalisation of Mathematical Equations for Phenomic Data Exploitation. Lecture Notes in Computer Science, 12739, Springer International Publishing, pp.176-185, 2021, The Semantic Web: ESWC 2021 Satellite Events Virtual Event, June 6–10, 2021, Revised Selected Papers, 978-3-030-80417-6. DOI : 10.1007/978-3-030-80418-3_30

Date de modification : 09 septembre 2025 | Date de création : 19 août 2022 | Rédaction : ZM

Nom du cookie	Finalité	Durée de conservation
Cookies de sessions CAS et PHP	Identifiants de connexion, sécurisation de session	Session
Tarteaucitron	Sauvegarde vos choix en matière de consentement des cookies	12 mois

Nom du cookie	Finalité	Durée de conservation
atid	Tracer le parcours du visiteur afin d’établir les statistiques de visites.	13 mois
atuserid	Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site	13 mois
atidvisitor	Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.	13 mois