[Doctorant] Benjamin Deneu

[Thèse soutenue] Benjamin Deneu: Interprétabilité des modèles de distribution d’espèces basés sur des réseaux de neurones convolutifs

Benjamin soutiendra sa thèse le 24 novembre 2022 à 9h à l'amphithéâtre Jean-Jacques Moreau au campus Saint Priest (860 Rue de St - Priest, 34090 Montpellier)

Interprétabilité des modèles de distribution d’espèces basés sur des réseaux de neurones convolutifs

Après une prépa BCPST j’ai fait une formation d’ingénieur Agroparistech avec une spécialisation en dernière année dans la science des données et l’informatique en double diplôme avec l’université Paris Dauphine. J’ai réalisé mon stage de fin d’étude au sein de la même équipe que celle de mon doctorat ou j’ai commencé à travailler sur des problématiques proches de celles-ci. Après 1 an a travailler en ingénieur de recherche à l’INRA et l’Inria j’ai voulu continuer de travailler dans la recherche en commençant une thèse. Je suis hébergé dans l’équipe Inria Zénith au LIRMM ainsi que dans l’UMR AMAP au Cirad.

Mon sujet porte sur de nouvelles approches de modèles de distributions d’espèces se basant sur les progrès des réseaux de neurones convolutifs de ces dernières années. Ces nouveaux modèles ont l’avantage de pouvoir utiliser des données environnementales de grande dimensionnalité et d’y capturer une information écologique plus complexe et plus riche que la majorité des modèles état de l’art. Cependant leur complexité limite leur interprétabilité. Il s’agit d’étudier l’apprentissage et les prédictions de ces modèles pour mieux les interpréter et en extraire des connaissances qui pourraient se généraliser dans leur utilisation à d’autres modèles. Le contexte de l’étude est la distribution d’espèces végétales et plus particulièrement une application aux adventices de cultures.

Entre l’informatique et l’agroécologie, deux domaines que j’affectionne, ce sujet s’accorde avec ma formation pluridisciplinaire et me permet de continuer à étudier ces domaines ainsi que d’utiliser mes compétences acquises sur ces sujets.

  • Date de démarrage : octobre 2019
  • Université : Université de Montpellier
  • Ecole doctorale : I2S – Information, Structures, Systèmes
  • Discipline / Spécialité : Informatique
  • Directeur de thèse :  Alexis Joly (Inria LIRMM), François Munoz (Université Grenoble Alpes)
  • Encadrant(es) :  Pierre Bonnet (Cirad AMAP), Maximilien Servajean (Université de Montpellier LIRMM)
  • Financement : #DigitAg – Inria
  • #DigitAg : Thèse cofinancée – Axe 5 – Challenge 1

Mots-clés: Réseaux de Neurones Profonds, Transfert de connaissance, Interprétabilité, Interactions, Paysage, Pratique agricole, Biodiversité, Adventices des cultures, Agrécologie,

Résumé : Les modèles de distributions d'espèces font le lien entre la distribution géographique d’une espèce et son environnement. Les objectifs de l’utilisation de ces modèles sont multiples. On peut citer entre autres l’extraction de connaissance sur les espèces et leur préférences environnementales, l’aide aux plans de conservations et politiques de protections des espèces, la surveillance et l’anticipation de la propagation d’espèces envahissantes ou encore les simulations d’évolution de l’environnement et leurs impacts sur les espèces. Pour répondre au mieux à ces objectifs il est nécessaire de concevoir des modèles performants, précis et interprétables. La plupart des modèles utilisés aujourd’hui sont des modèles relativement peu complexes. Ces modèles ont l’avantage d’être faciles à interpréter en produisant des relations simples entre une espèce et son environnement. Cependant, ils partagent souvent certains défauts comme la sensibilité au sur-apprentissage nécessitant ainsi de bien choisir les données descriptives de l’environnement pour éviter les erreurs d’interprétation. Des modèles basés sur des approches d’apprentissage artificiel ont montré des performances souvent aussi bonnes voire meilleures avec une plus forte robustesse contre le sur-apprentissage. Ces méthodes sont en revanche plus souvent critiquées pour leur manque d’interprétabilité. C'est le cas avec les réseaux de neurones convolutifs dont les premières expériences ont montré des résultats prometteurs pour leur utilisation en modélisation de la distribution d’espèces. Les réseaux de neurones convolutifs sont connus pour leurs performances particulièrement élevées dans toutes les tâches de traitement d’image (classification, détection d’objets, comptage, etc.). Ils ont la particularité de pouvoir utiliser des données de très grandes dimensions avec peu de risques de sur-apprentissage. Encore plus que les autres modèles d’apprentissage artificiel, ces modèles sont très souvent décrits comme des boîtes noires difficiles à interpréter. Nous proposons d’étudier l’utilisation de ces modèles, appelés Deep-SDMs, dans le contexte de la prédiction de distribution d’espèces en portant une attention particulière à l'interprétation afin de mettre en avant les intérêts potentiels de cette nouvelle approche tout en essayant d’éclaircir au mieux les mécanismes en jeu.
Nous présentons l’utilisation et l’analyse des modèles Deep-SDMs avec plusieurs expériences d’interprétabilité dans différents contextes. Nous menons des comparaisons sur certains aspects avec des modèles plus état-de-l’art. Nous proposons des analyses qualitatives et quantitatives sur l’interprétation des apprentissages de Deep-SDMs. Nous proposons notamment d’étudier ce que le modèle capture, soit en analysant les différences de performances selon les données utilisées et les informations qu’elles contiennent, soit directement en étudiant l’espace de représentation appris du modèle (la dernière couche du modèle).
Dans l’ensemble nous montrons qu’il est possible d'analyser et d'interpréter l’apprentissage des modèles de plusieurs manières, permettant d’aboutir à des conclusions écologiques intéressantes. Nous montrons un potentiel intéressant des Deep-SDMs qui permettent: (1) d’apprendre un unique modèles pour de nombreuses espèces simultanément et en utilisant des données d’observations sans données d’absences, (2) d’utiliser des représentations plus complexes et plus riches de l’environnement grâce à leur capacité à utiliser des données de très grande dimension, (3) des performances souvent meilleures que les autres modèles, en particulier sur les espèces rares, (4) un apprentissage à la fois à très grande échelle (sur des milliers d’espèces et des régions de la taille de pays) et à très fine résolution (de l’ordre de la dizaine de mètres) grâce aux données de remote sensing, et (5) une réutilisation possible des modèles dans des contextes proches profitant en partie des apprentissage déjà effectués.

Composition du jury :

Christine MEYNARD, Chargée de recherche, INRAE - Rapportrice 

Christophe RANDIN, Privat-docent, Université de Lausanne - Rapporteur 

Laure BERTI-ÉQUILLE, Directrice de recherche, IRD - ExaminatriceAlexis JOLY, Directeur de recherche, Inria - Directeur de thèse

François MUNOZ, Professeur, Université Grenoble Alpes - Directeur de thèse

 

Membres invités du jury:

Pierre BONNET, Chargé de recherche, Cirad - Encadrant

Maximilien SERVAJEAN, Maître de conférence, Université Paul-Valéry Montpellier - Encadrant

Contact  benjamin.deneu@inria.fr​ – Tél : +33 (0)6.89.70.36.08

Réseaux :ResearchGateLinkedIn

Communications & Publications

Voir aussi

Communications & Publications

Date de modification : 23 août 2023 | Date de création : 19 août 2022 | Rédaction : ZM