OpenSILEX & Akene Services : Gérer et partager des données massives et hétérogènes de différentes sources

OpenSILEX est une suite logicielle open-source pour la création de systèmes d’information dirigés par ontologies, développée à l’Inra par les informaticiens de l’UMR MISTEA en collaboration avec des agronomes et des biologistes. Des connaissances formalisées et partagées sont utilisées pour structurer des données de recherche agronomiques et environnementales de différentes sources. A ce jour, plusieurs applications ont été développées, dont une, PHIS, pilote pour le phénotypage haut-débit. OpenSILEX entre en phase de maturation. L’équipe poursuit la construction de sa communauté à l’international et essaime avec un projet de création d’entreprise. Entretien avec Anne Tireau, responsable du développement, Pascal Neveu, responsable scientifique, Alice Boizet et Morgane Vidal, qui portent le projet Akène Services.

Le partage et la co-construction de connaissances nécessitent le traitement de données massives et variées pour les rendre compréhensibles et exploitables de tous. OpenSILEX est un outil numérique sans équivalent qui propose des méthodes et des outils pour la collecte, la structuration et la valorisation de big data d’origine agricole et environnementale. L’outil s’adapte aisément. Les données de recherche publiques comme privées sont concernées,

Quelle est l’origine d’OpenSILEX ?

[Anne Tireau] : A l’origine il y a plusieurs projets de systèmes d’information développés dans l’unité à partir de 2004, sur des financements successifs. Toutes les méthodes, expertise et outils ont été valorisés dans SILEX (Système d’Information pour L’EXpérimentation) un méta-projet collaboratif animé par MISTEA. Son objectif ? Mettre au point des systèmes d’information d’expérimentations thématiques, en collaboration avec d’autres unités de l’Inra (le LEPSE pour le phénotypage de plantes, SPO pour l’oenologie, le LBE pour les bio-procédés…) et en lien avec d’autres instituts comme le LIRMM. Ensuite, avec la problématique du phénotypage haut-débit et du big data, l’équipe a développé PHIS. Conçu pour plusieurs plateformes expérimentales de l’infrastructure Phenome (Programme Investissements d’Avenir), il fallait que l’outil s’adapte à différentes installations expérimentales, Ce logiciel est beaucoup plus intégré, avec des ontologies adaptées. Dans l’esprit, tout est ré-utilisable pour d’autres applications, et c’est l’objet d’OpenSILEX qui, grâce à PHIS, bénéficie des avancées du Web sémantique.

Comment ça marche ?

[Anne Tireau] : Si on parle de données de recherche, on peut de façon schématique dire qu’OpenSILEX contient tout ce qui permet de décrire et de formaliser une expérience, le matériel végétal, les équipements, toutes les caractéristiques mesurées…. Le but est d’avoir des données partagées et réutilisables pour de futures recherches ou d’autres finalités, et pour cela il faut pouvoir les décrire, les contextualiser, les annoter, les lier, dans le respect des standards. On parle de données FAIR (Faciles à trouver, Accessibles, Interopérables et Réutilisables). Le tout est disponible sur un espace de stockage de type cloud et géré via une « boîte à outils » logicielle open source.

[Alice Boizet] : Concrètement, on enregistre une expérimentation, on associe ses objets (parcelle ou serre, plante, capteurs, référence d’expérience) et on les décrit, On peut faire figurer toute donnée mesurée sur ces objets via des capteurs ou des mesures manuelles, comme des images hyperspectrales prises depuis drones ou phénomobiles. Par exemple, la surface foliaire, le nombre de feuilles (stade de végétation), des indices de végétation (NDVI), et aussi toutes les données environnementales (température, humidité…). On peut ajouter des données d’événements comme un problème technique ou environnemental : un souci de caméra, une attaque de ravageur sur la culture, un orage et son résultat sur la plante. Et ensuite les re-travailler : les annoter, éliminer les données aberrantes avant l’analyse… Avant tout cela était consigné dans les carnets de laboratoire, et par manque de temps les annotations n’étaient pas toujours prises en compte au moment de l’interprétation des résultats. Maintenant, algorithmes et sémantique interconnectent objets et informations complémentaires, y compris un commentaire ou un document, et l’utilisateur peut visualiser et mieux comprendre des données ou des images associées à des événements ou annotations, et donc en tenir compte dans son analyse.

[Morgane Vidal] : En ce moment je gère les données de 4 instances, c’est à dire 4 plateformes de phénotypage haut-débit et leur paramétrage spécifiques. Ces plateformes correspondent à des parcelles expérimentales de l’Inra sur tout le territoire, à Mauguio, Toulouse, Clermont-Ferrand, Dijon (Inra-Terres Innovia). Il s’agit là de cultures céréalières au champ, mais les outils utilisés sont identiques en serre pour des cultures tropicales. On pourrait tout aussi bien traiter les données privées de semenciers par exemple, ou comme pour un projet récent de l’équipe, celles de Sun’Agri de la startup Sun’R, où les données du matériel, des panneaux photovoltaïques, ont aussi été prises en compte.

Combien de données produit une expérience ?

La réanalyse d’ensembles de données nécessite de retracer les informations de milliers de plantes, de capteurs et d’événements.
Pour exemple, les données de phénotypage issues de 2 expériences sur 59 hybrides de maïs, menées au champ et et en serre ont été de :

  • Champ :  10 000 objets scientifiques, 178 capteurs, 10 000 images, 70 000 observations phénotypiques, 20 000 annotations et 1/2 million de mesures environnementales
  • Serre : 2204 objets scientifiques, 242 capteurs, environ 2 millions d’images, 10 millions d’observations phénotypiques, 15 000 annotations et plus de 4 millions de mesures environnementales

Gestion de la donnée et sémantique, coeur de l’outil

[Anne Tireau] : La gestion de la donnée et la sémantique sont le coeur de notre travail. L’architecture basée sur des ontologies d’OpenSILEX autorise l’intégration de données de multiples expériences et de différentes plateformes qui sont identifiées, trouvées et reliées sans ambiguïté. Nous formalisons des ontologies applicatives spécifiques et nous les interconnectons aux ressources de référence existantes. Les formats sont standards et ouverts, si bien que les données hébergées dans un système d’information OpenSILEX peuvent être échangées et utilisées par d’autres personnes que l’équipe de l’expérience, elles deviennent aussi combinables avec des données d’autres sources. L’outil propose aussi des connections à des ressources externes via des web services (web API) pour exporter les données dans d’autres systèmes, des plateformes de modélisation ou des bases de données externes par exemple.

La suite logicielle OpenSILEX comporte :

  • Une interface utilisateur (web)
  • Une couche de stockage de données et de connaissance (données environnementales & cultures) s’appuyant sur des grilles de stockage (cloud)
  • Une couche de services web (requêtes simples / complexes), compatibles avec des standards d’échange de communauté (Brapi)
  • Une couche « intelligente » (moteur d’inférence standard, règles expertes, ontologies généralistes et d’applications, métadonnées)
  • Des connexions vers une couche de calcul scientifique et de flux de travail
previous arrow
next arrow
previous arrownext arrow
Slider

Quels sont les enjeux à venir ?

{Pascal Neveu] : La masse des données à gérer est considérable et il existe peu de systèmes de ce type, OpenSILEX est même unique en son genre. La demande est forte pour disposer de notre outil et être formé. Nous sommes sollicités à l’international. en Australie, aux Pays-Bas (Wageningen University and Research) et à l’Université de Tokyo. La transparence de la science est aussi un sujet important, c’est à dire, rendre des données de recherche ouvertes, réutilisables pour de futures recherches et d’autres finalités comme l’enseignement et l’innovation, Et bien sûr, nous souhaitons agrandir la communauté des développeurs.

Cette année nous avons monté deux formations dont une internationale qui a accueilli 14 personnes de 5 pays : Japon, Tchéquie, Pays-Bas, Espagne, Inde, Thaïlande et France… Une seconde est prévue avec des participants de Grande Bretagne, de Belgique et de Chine.

Il y a aussi de la place pour la création d’une start-up. L’outil est prêt pour pouvoir proposer des prestations de service sur mesure et sur catalogue, mais ce n’est pas le rôle d’une équipe de recherche. C’est le bon moment pour passer le relais et nous concentrer sur l’élaboration de nouvelles applications, comme celle du projet ANR franco-chinois Answer, avec le Nanjin Institute of Geography and Limnology, Chinese Academy of Sciences (NIGLAS).

[Morgane Vidal] : Il y a maintenant beaucoup d’instances existantes à maintenir, de nouvelles à installer, des développements sur mesure en projet…

Akene Services, une start-up en pré-incubation

Akene, ou « Application with Knowledge ENhancement for Experimental data », pourrait bientôt proposer des prestations de service sur mesure à partir de la boîte à outils d’OpenSILEX. Son nom, référence aux végétaux et à la dissémination de leurs fruits, est un clin d’oeil  à la diffusion d’OpenSILEX.

Ce projet de startup réunit Alice Boizet, agronome et Morgane Vidal, informaticienne, toutes 2 ingénieures de recherche en CDD à l’Inra de Montpellier. Le partage de données massives, elles maîtrisent. Morgane a été recrutée comme administrateur système d’information dès le démarrage du projet OpenSILEX, il y a 3 ans. Et après sa spécialisation AgroTIC, Alice a rejoint MISTEA pour OpenSILEX et le projet européen AGINFRA+ . Dans le cadre de ce hub thématique, elle a été chargée de la mise en place d’un Virtual Research Environment (VRE), pour faciliter les collaborations entre chercheurs de la communauté du phénotypage haut-débit. Le projet OpenSILEX entré en phase de pré-maturation, leur positionnement pour une création de start-up a émergé et cela les a conduites en finale du concours Graines d’Agro 2019.

Au départ conçu pour des données expérimentales de cultures végétales « OpenSILEX est adaptable à d’autres types de données expérimentales ou non… C’est un point fort, l’outil n’a pas d’équivalent en termes d’adaptabilité et de prix ». Morgane ajoute que « cela ferait partie de notre offre justement, selon les besoins des clients, proposer une adaptation sur mesure, simple ou plus complexe avec des développements et des fonctionnalités spécifiques ». Alice et Morgane envisagent un package de services, à élaborer à partir des besoins récurrents de leurs premiers clients. L’offre intégrerait étude de cas, aide à l’installation, analyse et migration de données, formation utilisateurs et développeurs, développements de modules spécifiques et maintenance.

Dans un premier temps, les futurs clients identifiés sont ceux qui disposent de données massives de recherche publiques ou privées. Il s’agit d’instituts de recherche français et étrangers, de structures de transfert techniques. Dans le privé, il y a aussi toutes les données expérimentales R&D à traiter; celles d’entreprises de conseil en agriculture et environnement, de startups de l’AgTech….

Pourquoi se lancer ? « Nous avons beaucoup appris du concours Graines d’Agro » explique Alice qui souligne qu’il y a une réelle opportunité à saisir et finalement peu de risques : « on est jeunes… il y a des possibilités d’aides et nous disposons aussi d’un apport personnel, c’est le bon moment… Nous sommes soutenues par l’équipe de recherche, on a le produit, un outil sans équivalent sur le marché, facile à adapter et un début du carnet d’adresses, c’est plutôt rassurant. La suite OpenSILEX peut aussi être adaptée pour d’autres domaines et  le marché s’élargir dans un deuxième temps« .

Alice et Morgane sont au début de leur projet de création d’entreprises : elles terminent leurs CDD et en parallèle travaillent leur business plan, en visant une incubation à l’automne.

 

OpenSILEX en bref

Stocker, organiser, gérer & partager des données multidimensionnelles hétérogènes de sources multiples

Contacts

  • Responsables scientifique & projet : pascal neveu [AT] inra.fr et anne.tireau [AT] inra.fr
  • Akene Services : Alice Boizet et Morgane Vidal – akeneservices |AT] gmail.com

En savoir +

  • Site :  www.opensilex.org – Tester : Bac à sable
  • Exemples d’applications en agriculture :
    • PHIS – Phénotypage haut-débit de plantes, en champ & serre (données expérimentales)
    • Emphasis – Infrastructure européenne pour le phénotypage haut-débit de plantes cultivées
    • Sun’Agri – Partenariat avec la startup Sun’R (vignoble agrivoltaïque)
  • Communauté GitHub
  • Compte Twitter
  • Publication : Pascal Neveu, Anne Tireau, Nadine Hilgert, Vincent Nègre, Jonathan Mineau‐Cesari, Nicolas Brichet, Romain Chapuis, Isabelle Sanchez, Cyril Pommier, Brigitte Charnomordic, François Tardieu, Llorenç Cabrera‐Bosquet (2018). Dealing with multi‐source and multi‐scale information in plant phenomics: the ontology‐driven Phenotyping Hybrid Information System. New Phytologist, 221(1),588-601- https://doi.org/10.1111/nph.15385