[Thèse soutenue] Maxime Metz : Développement de méthodes chimiométriques pour le traitement des données massives

Sujet de thèse cofinancée par #DigitAg

Maxime a soutenu sa thèse le 26 novembre 2021 de 9h30 à 12h30 dans l’Amphithéâtre « Louis Malassis » à Agropolis International

Doctorant Inrae, accueilli à l’UMR ITAP (Information-Technologies- Analyse environnementale – Procédés agricoles) de Montpellier.

Mon parcours est aussi linéaire qu’un modèle quadratique 🙂 Tout d’abord, j’ai réalisé un D.U.T puis une licence professionnelle en chimie, en alternance à Saint-Avold (Lorraine). De cette expérience, j’ai conclu que le métier de technicien n’était pas adapté à ma personnalité, mais, j’avais déjà pris goût aux approches utilisées en chimiométrie, comme les plans d’expériences par exemple.

J’ai poursuivi mon cursus par un master 1 Chimie à Nice, puis j’ai tout naturellement pris la direction de Brest pour rejoindre, le master 2 Chimie spécialisé OPEX (Chimie Analytique, Chimiométrie, Qualité – Optimisation des Procédés Expérimentaux), une nouvelle fois en alternance, dans l’entreprise Continental en Lorraine.

Je me rappelle encore mes phrases du début d’année : ”une thèse, pas pour moi..”. Grâce à ce master, j’ai pu me former aux méthodes de chimiométrie, c’est à dire le traitement mathématique de données chimiques, et appliquer directement des notions apprises en cours à des problématiques industrielles. C’est à ce moment-là que j’ai choisi de faire une thèse et compris l’intérêt de développer des méthodes chimiométriques pour faire face au big-data.

Ma thèse fait face à une problématique de taille : Comment réaliser rapidement des modèles de régression et de classification locaux avec de grandes quantités de données ? Par exemple, comment, avec des millions de données de références, prédire rapidement une teneur en sucre d’une pomme, une teneur en protéine dans un produit alimentaire ?

Développement de méthodes chimiométriques pour le traitement des données massives

  • Date de démarrage : Octobre 2018
  • Université : MUSE Montpellier Université d’Excellence – Institut Agro-Montpellier SupAgro
  • Ecole doctorale : GAIA
  • Discipline / Spécialité : Chimiométrie
  • Directeur(s) de thèse : Jean-Michel Roger, Itap, Inrae et Matthieu Lesnoff, Selmet, Cirad
  • Encadrant(es)  : Nathalie Gorretta, Itap, Inrae, M. Lesnoff, Selmet, Cirad, Florent Masseglia, Inria Zenith
  • Financement : #DigitAg – Inrae
  • #DigitAg : Thèse cofinancée – Axe 5  – Challenges : sujet transverse

Mots-clés : régression des moindres carrés partiels (PLSR), méthodes locales, indexation, Spectroscopie infrarouge, Chimiométrie, grandes base de données (Big data)

Résumé : L’analyse des données chimiques, communément appelée chimiométrie, est utilisée en agronomie pour répondre à diverses questions telles que l’étude des sols, des fourrages ou le phénotypage. Aujourd’hui, une grande quantité de données peut être générée et les chimiométriciens doivent être capables de les analyser. Les outils habituels ne sont pas encore capables de traiter efficacement ces données. Des outils dans le domaine du big-data ont été développés afin de permettre de traiter des bases de données volumineuses. Ces outils n’ont pas encore été évalués pour la chimiométrie. L’objectif de cette thèse est donc d’étudier le traitement de données massives pour la chimiométrie. Pour ce faire, trois axes de recherche ont été étudiés. Le premier axe de recherche consiste à étudier comment permettre le traitement de données massives par des méthodes locales. Les méthodes locales calibrent un modèle par individu à prédire sur ses plus proches voisins. Le deuxième axe de recherche consiste à étudier la pertinence d’un individu au sein d’un modèle local. Le troisième axe consiste à combiner les idées développées dans les deux premiers axes pour rendre les méthodes performantes pour la chimiométrie. Pour répondre au premier axe, une nouvelle méthode nommée parSketch-PLS a été étudiée et développée. Pour aborder le deuxième axe, une méthode appelée RoBoost-PLSR a été développée. Pour étudier le troisième axe, deux prémices de méthodes ont été proposées. Les résultats associés à ces développement sont mis en évidence l’intérêt d’adapter les outils de traitement de données massives à la chimiométrie. En effet, les outils utilisés pour le traitement des données massives ne reposent pas forcément sur les mêmes connaissances que les outils développés pour la chimiométrie. Cela peut donc conduire à une diminution de la capacité prédictive des méthodes chimiométriques. Cette thèse met donc en avant l’intérêt de rapprocher ces deux domaines afin de proposer un ensemble de méthodes et d’outils de traitement de données massives chimique.

Membres du jury:

Gilbert Saporta, Professeur émérite, CNAM, France

Douglas Rutledge, Professeur émérite, AgroParisTech, France

Florent Masseglia, Directeur de recherche, INRIA,France

Fédérico Marini, Professeur, Université de Rome, Italie

Marina Cocchi, Professeure associée, Université de Modène et de Reggio d’Émilie, Italie

Jean-Michel Roger, Ingénieur de recherche, INRAE-ITAP, France

Matthieu Lesnoff, Chercheur, CIRAD, France

Reza Akbarinia, Chargé de Recherche, INRIA, France


Contact
:  maxime.metz [AT] inrae.fr​ – Tél : 06.48.34.22.46

Réseaux : LinkedIn


Communications & publications

Télécharger le mémoire de thèse

Maxime Metz, Florent Abdelghafour, Jean-Michel Roger, Matthieu Lesnoff (2021) A novel robust PLS regression method inspired from boosting principles: RoBoost-PLSR, Analytica Chimica Acta

Metz M.,Lesnoff M.,Abdelghafour F.,Akbarinia R.,Masseglia F.,Roger J.-M. (2020) A “big-data” algorithm for KNN-PLS, Chemometrics and Intelligent Laboratory Systems

Metz M., Biancolillo A., Lesnoff M., Roger J.-M. (2020) A note on spectral data simulation, Chemometrics and Intelligent Laboratory Systems

Maxime Metz, Jean-Michel Roger, Matthieu Lesnoff, Reza Akbarinia, Florent Masseglia (2019) Adaptation of two Big-data indexing algorithms for LOCAL-PLS.  Conférence Chiométrie 2019, Montpellier, 30.01-01-02 2019
– prix du meilleur poster