PADI-web, une plateforme pour l’épidémiosurveillance en santé animale

A l’heure où coronavirus est un terme d’actualité quotidienne, sont publiées les avancées du développement de PADI-web, outil de veille automatisée en santé animale. PADI-Web fouille les articles de différentes sources d’information disponibles sur internet pour en extraire des informations épidémiologiques. Cette plateforme ouverte de  veille sanitaire internationale répond au besoin des épidémiologistes pour suivre en temps réel l’émergence et la propagation de maladies animales infectieuses. Les explications de Mathieu Roche et Sarah Valentin, chercheur et doctorante TETIS Cirad, qui développent l’outil en collaboration avec l’unité ASTRE (Cirad – INRAE).

La détection et la surveillance des foyers de maladies animales à l’échelle mondiale repose sur des organismes officiels intergouvernementaux comme la FAO et l’OIE, et de sources de médias non officiels, dont l’extraction manuelle d’informations pertinentes est complexe et chronophage. En France, le développement de l’outil d’intelligence épidémiologique PADI-web (Platform for Automated extraction of Disease Information from the web) a démarré en 2016. La cellule de Veille Sanitaire internationale (VSI) de la plateforme française d’Epidémiosurveillance en Santé Animale (ESA) l’utilise déjà pour surveiller des maladies infectieuses qui présentent des risques d’introduction dans les zones françaises et des effets néfastes sur les animaux et les chaînes de production.

Enrichir l’information officielle de textes non-officiels pertinents

PADI-web propose de compléter l’information officielle diffusée d’informations en provenance de sources non-officielles  Son terrain d’exploration : les articles de presse sélectionnés par Google News. Et comme utiliser des articles de médias solides ne met pas à l’abri d’informations erronées, l’expertise d’épidémiologistes est indispensable pour valider leur pertinence et enrichir les données de l’algorithme d’apprentissage de l’outil.

Grippe aviaire, peste porcine africaine, fièvre catarrhale du mouton mais aussi coronavirus, à partir d’interrogations de Google News, PADI-web collecte, classe, traduit l’ensemble des articles en anglais, et restitue les informations épidémiologiques. Ces textes sont collectés par noms de maladies et d’animaux hôtes, mais aussi par symptômes, qui peuvent être cités seuls dans les articles. L’intérêt est évident : non seulement le système apporte des informations fraîches, non encore publiées par les canaux officiels, et les trace par localisation et date de présence, mais il peut repérer les signaux d’une maladie avant qu’elle soit déclarée. Sa couverture média multilingue enrichit aussi considérablement sa base de données.. A ce jour, elle comprend de plus de 200000 articles, en anglais, français, chinois, espagnol et arabe, entre autres.

En fonction de l’actualité sanitaire, le nombre d’articles relatif à une maladie varie de zéro à plus d’une quarantaine par jour en cas d’émergence ou de nouveaux foyers détectés.
Deux exemples : La semaine du 24 février 2020, PADI-web a détecté sur Google News 25 articles pertinents de sources non officielles sur la grippe aviaire. Et depuis le 31 janvier 2019, ce sont plus de 2600 articles sur les coronavirus qui ont été classés pertinents dans PADI-web.

Une requête sur le terme “coronavirus” et un article classé pertinent dans PADI-web (copie d’écran, avril 2020)

Évolution de la veille sanitaire internationale

Dans le cercle des outils de veille médias existants, PADI-web est le seul dédié à la surveillance des maladies animales infectieuses et à la détection de maladies émergentes et nouvelles, qu’il s’agisse de maladies qui se transmettent entre animaux, ou entre humains et animaux. L’équipe de recherche souhaite élargir la veille aux réseaux sociaux, et, après Google, pouvoir traiter les données issues de Baidu, le moteur de recherche chinois. Et faire en sorte de mutualiser les approches pour que les acquis de PADI-web soient utilisables dans d’autres domaine, en santé végétale par exemple.

Nous arrivons à identifier les signaux faibles, maintenant le challenge sera de les interpréter. La veille sanitaire internationale pourrait devenir très performante en combinant PADI-web et d’autres outils existants. C’est l’objet du projet H2020 MOOD (MOnitoring Outbreak events for Disease surveillance in data science context) qui a débuté en janvier dernier, pour améliorer outils et services d’intelligence épidémique conclut Mathieu Roche. Un autre défi sera d’identifier les signaux faibles en provenance de certaines sources de données et alors prendre les dispositions nécessaires, comme le font des pays asiatiques.

En savoir plus

Le pipeline PADI-web

  1. A partir de requêtes prédéfinies, PADI-web collecte chaque jour des articles issus des flux RSS de Google News paramétrés pour suivre des maladies. Un premier type de flux RSS est composé d’une association de termes (noms de maladies, signes cliniques ou hôtes)  extrait par une approche intégrée qui combine fouille de texte et validation par des experts du domaine.. Un second type de flux est basé sur les symptômes : cette combinaison de signes cliniques et d’hôtes (par exemple, avortements ET bovins) n’inclut aucun terme de maladie. Cela permet de détecter des maladies qui ne sont pas explicitement surveillées ou non confirmées au moment de la publication de l’article, ainsi que les dangers encore inconnus.
  2. La traduction : Tous les articles de presse qui ne sont pas en anglais sont détectés et traduits en anglais, langue pivot de PADI-web, à l’aide de bibliothèques Python dédiées et de Microsoft Azure. Les langues prises en charge sont entre autres,  l’anglais, le français, l’espagnol, l’arabe et le chinois .Depuis février 2019, le traitement multilingue a entraîné jusqu’à 131% d’augmentation des articles d’actualité pertinents : c’est le cas pour la peste porcine africaine: avec 207 articles en anglais et 272 traduits). L’augmentation constatée est de 67% pour la fièvre aphteuse (104 en anglais, 174 traduits) et de 47% pour la grippe aviaire (212 en anglais, 99 traduits).
  3. L’étape de la classification des données permet de sélectionner les articles de presse pertinents avant d’en extraire les informations épidémiologiques. Par exemple, la notification d’une épidémie en cours, ses mesures de prévention et de contrôle, ses impacts socio-économiques, etc. Le module de classification est basé sur l’apprentissage supervisé réalisé à partir d’exemples annotés. Un corpus de 600 articles composé de 200 articles pertinents et 400 autres non-pertinents pris de manière aléatoire dans la base de données PADI-web, a été annoté manuellement par un épidémiologiste expert. Le score d’exactitude du classificateur PADI-web  est de 92 %. En réduisant ainsi le nombre d’articles de presse non pertinents récupérés, il économise un temps considérable de filtrage manuel.
    Les annotations : les utilisateurs peuvent annoter manuellement la pertinence des actualités. Si elle est différente de l’étiquette du classificateur, c’est celle de l’utilisateur qui prévaut. Ces contributions sont ajoutées à l’ensemble des données d’apprentissage initiales, qui ainsi augmente rapidement et s’adapte. Les utilisateurs peuvent détecter des biais de classification importants ou des erreurs : c’est primordial avec des données textuelles susceptibles de changer rapidement, dans le cas de l’apparition d’une nouvelle maladie par exemple.
  4. L’extraction des données épidémiologiques du texte des actualités. Le processus d’extraction de l’information repose sur une méthode combinée de systèmes à base de règles et de données. Pour extraire des noms de maladies, d’hôtes et de symptômes, il est utilisé un vocabulaire créé à l’aide de méthodes de fouille de textes et validé par des experts du domaine. Les lieux sont identifiés en faisant correspondre les textes avec les noms de lieux de la nomenclature des noms géographiques, et les dates avec le système HeidelTime basé sur des règles. Le nombre de cas est extrait d’une liste d’expressions régulières, correspondants (format numérique ou texte).

Pour faciliter la comparaison des données officielles et non officielles, l’outil de visualisation EpidNews a été développé par le LIRMM en collaboration avec les UMR TETIS et Astre. Il sera pleinement intégré à l’interface bientôt.

Un article de presse annoté dans PADI-web (Sarah Valentin, 2020)

 

.