[Paroles de doctorants] Maxime Metz : Application des méthodes du « big data » pour l’amélioration des algorithmes de PLS locales en chimiométrie

Maxime porte un sujet de thèse cofinancée par #DigitAg

Bonjour, je m’appelle Maxime Metz doctorant Irstea accueilli à l’UMR ITAP (Information-Technologies- Analyse environnementale – Procédés agricoles) de Montpellier.

Mon parcours est aussi linéaire qu’un modèle quadratique 🙂 Tout d’abord, j’ai réalisé un D.U.T puis une licence professionnelle en chimie, en alternance à Saint-Avold (Lorraine). De cette expérience, j’ai conclu que le métier de technicien n’était pas adapté à ma personnalité, mais, j’avais déjà pris goût aux approches utilisées en chimiométrie, comme les plans d’expériences par exemple.

J’ai poursuivi mon cursus par un master 1 Chimie à Nice, puis j’ai tout naturellement pris la direction de Brest pour rejoindre, le master 2 Chimie spécialisé OPEX (Chimie Analytique, Chimiométrie, Qualité – Optimisation des Procédés Expérimentaux), une nouvelle fois en alternance, dans l’entreprise Continental en Lorraine.

Je me rappelle encore mes phrases du début d’année : ”une thèse, pas pour moi..”. Grâce à ce master, j’ai pu me former aux méthodes de chimiométrie, c’est à dire le traitement mathématique de données chimiques, et appliquer directement des notions apprises en cours à des problématiques industrielles. C’est à ce moment-là que j’ai choisi de faire une thèse et compris l’intérêt de développer des méthodes chimiométriques pour faire face au big-data.

Ma thèse fait face à une problématique de taille : Comment réaliser rapidement des modèles de régression et de classification locaux avec de grandes quantités de données ? Par exemple, comment, avec des millions de données de références, prédire rapidement une teneur en sucre d’une pomme, une teneur en protéine dans un produit alimentaire ?

Application des méthodes du « big data » pour l’amélioration des algorithmes de PLS locales en chimiométrie

  • Date de démarrage : Octobre 2018
  • Université : MUSE Montpellier Université d’Excellence – Montpellier SupAgro
  • Ecole doctorale : GAIA
  • Discipline / Spécialité : Chimiométrie
  • Directeur(s) de thèse : Jean-Michel Roger, Irstea ITAP et Matthieu Lesnoff, Cirad SELMET
  • Encadrant(es)  : Nathalie Gorretta, Irstea ITAP, M. Lesnoff, Cirad SELMET, Florent Masseglia, Inria Zenith
  • Financement : #DigitAg – Irstea
  • #DigitAg : Thèse cofinancée – Axe 5  – Challenges : sujet transverse

Mots-clés : régression des moindres carrés partiels (PLSR), méthodes locales, indexation, Spectroscopie infrarouge, Chimiométrie, grandes base de données (Big data)

Résumé :

La spectrométrie proche infrarouge peut fournir d’énormes quantités de données à l’agriculture numérique. L’outil principal utilisé pour analyser les spectres NIR, est la régression PLS, qui permet de construire des modèles à partir d’un grand nombre de variables, même fortement corrélées. La méthode a prouvé sa pertinence pour les petites bases de données homogènes. Son extension aux bases de taille moyenne (<10 000 individus) est la «local-PLS» : elle détermine un voisinage de l’individu à prédire, puis réalise une PLS usuelle sur ce voisinage. Cette méthode combine la puissance de la méthode des k plus proches voisins et de la PLS. Cependant, elle n’est pas capable de traiter de grandes bases de données qui apparaîtront dans un futur proche. Les algorithmes local-PLS actuels utilisent tous des algorithmes k-NN séquentiels pour lesquels les temps de calcul deviennent irréalistes; d’autres algorithmes doivent être considérés. Paradoxalement, très peu de recherches ont été effectuées sur ce défi en chimiométrie. Notre idée est que les algorithmes d’indexation utilisés dans les big data pourraient lever ce verrou méthodologique. Nous proposons de considérer deux algorithmes de réduction de dimension et de recherche rapide utilisés par l’équipe Zenith du Lirmm-Montpellier pour traiter de grands ensembles de séries chronologiques (ayant une structure de données similaire aux spectres NIR) : le hachage (calcul de sketches) et l’iSax (Approximation Symbolic Aggregate). Le travail consistera en deux étapes: (1) une intégration « business as usual » des deux algorithmes dans l’algorithme local-PLS, (2) une optimisation des algorithmes prenant en compte la spécificité chimiométrique des spectres NIR. Les nouveaux algorithmes développés dans cette thèse amélioreront la capacité à prédire les variables physico-chimiques à partir de grandes bases de données NIRS hétérogènes, et trouveront des applications directes dans de nombreux domaines (plantes, aliments, sols, etc.).

 

Contact:  maxime.metz [AT] irstea.fr​ – Tél : 06.48.34.22.46

Réseaux : LinkedIn

Communications & publications

Maxime Metz, Jean-Michel Roger, Matthieu Lesnoff, Reza Akbarinia, Florent Masseglia (2019) Adaptation of two Big-data indexing algorithms for LOCAL-PLS.  Conférence Chiométrie 2019, Montpellier, 30.01-01-02 2019
– prix du meilleur poster