Un serveur suisse aide à l’optimisation de Wikidata dans le domaine de la médecine

Traduire cet article

Les prestations de soutien de Wikimedia CH ne se limitent pas à la Suisse. Cette fois-ci, un projet s’étend jusqu’en Tunisie. Un étudiant en médecine y a eu l’idée passionnante d’optimiser les connaissances libres sur les maladies, les symptômes, les médicaments, leurs interactions avec d’autres médicaments et bien plus encore. À l’aide de l’intelligence artificielle et d’un nombre infini de tests, il travaille actuellement à ce que les requêtes Wikidata dans le secteur médical soient beaucoup plus efficaces à l’avenir. L’objectif est de transformer Wikidata en une ressource sémantique biomédicale à grande échelle, couvrant de manière significative la plupart des aspects de la pratique clinique.

Cet étudiant en médecine est Houcemeddine Turki (User:Csisc). En lisant le profil de ce trentenaire, on comprend vite d’où vient l’inspiration d’un tel projet titanesque : Houcemeddine Turki est un ancien membre du conseil d’administration du Wikimedia TN User Group et du Wikimedia and Libraries User Group, membre du Wiki Project Med, contributeur actif à Wikipedia et Wikidata et ancien administrateur de wiki test au sein de l’incubateur Wikimedia. Il a participé à la création de la première structure de recherche liée à Wikimedia dans son pays, appelée Data Engineering and Semantics, et a fait partie de l’équipe centrale de plusieurs conférences Wikimedia, dont Wikimania, WikiIndaba et WikiConvention Francophone. En 2015, il s’est porté candidat au conseil d’administration de la Wikimedia Foundation. Sa proposition d’inviter des professeurs émérites à contribuer à Wikipédia a été récompensée par le premier prix du concours de la campagne IdeaLab Inspire 2017.

Fort de ces expériences dans le monde wiki et d’un bagage médical de plus en plus important, il a mûri l’idée que les bases de données structurées constituent également une ressource importante dans le domaine de la santé. Elles fournissent des informations détaillées sur les maladies, les médicaments, les gènes ou les protéines, et facilitent ainsi le traitement et la présentation de toutes sortes d’informations cliniques. L’introduction de telles ressources est toutefois difficile, en particulier dans le Sud. Les moyens financiers et le savoir-faire nécessaires font souvent défaut.

Des plateformes de connaissances ouvertes comme Wikidata pourraient aider à surmonter ces obstacles. Wikidata présente toutefois quelques lacunes : L’informatique biomédicale n’est pas suffisamment représentée. Les experts diagnostiquent une incohérence critique dans les données existantes. Le projet de Houcemeddine Turki vise à remédier à cette situation.

Dans le cadre de son projet, il entend non seulement transformer Wikidata en une ressource sémantique biomédicale, mais aussi valider les informations biomédicales librement accessibles dans Wikidata. En outre, il souhaite promouvoir Wikidata pour l’utilisation de données biomédicales dans les pays du Sud.

La Wikimedia Foundation a accordé une bourse de recherche pour ce projet. Le programme d’innovation de Wikimedia CH a mis à disposition l’un de ses 20 serveurs pour les tests intensifs, qui requièrent une puissance de calcul considérable. Ce qui est fait sur ce serveur est une autre couche du projet visant à rendre les informations biomédicales de Wikidata plus robustes. L’étudiant en médecine explique avec passion tous les processus techniques nécessaires à l’optimisation des réseaux d’information, qui combinent l’exploration de données, l’apprentissage automatique et le domaine de l’intelligence artificielle générative. Pour les non-experts, cette matière plutôt complexe se transforme rapidement en une jungle impénétrable de termes techniques, de formules et d’algorithmes. Mais en fin de compte, il est évident que le monde de la connaissance médicale librement accessible fera un grand pas en avant grâce au travail de Houcemeddine Turki. Wikimedia CH est fière d’y avoir contribué, ne serait-ce qu’un peu.

En décembre 2024, Houcemeddine Turki (User:Csisc) a partagé quelques résultats avec nous :

  • Nous avons trouvé une nouvelle façon de vérifier la fiabilité des réponses des LLM aux questions vrai-faux.
  • Nous avons utilisé notre méthode pour vérifier les résultats de l’extraction de relations biomédicales de PubMed avant de les ajouter à Wikidata.
  • Les techniques de recherche d’informations peuvent être utilisées pour identifier des milliers de relations Wikidata manquantes. Nous essayons de voir comment utiliser les LLM pour passer en revue une telle masse de données afin de réduire considérablement la charge de travail liée à la validation des données.

Pour en savoir plus :

Pouvez-vous nous aider à traduire cet article ?

Pour que cet article soit diffusé au plus grand nombre, nous avons besoin de votre aide. Pouvez-vous traduire cet article pour faire passer le message ?