Une version synthétique de cet article a été publiée sur le blog de la Biodiversity Heritage Library.



La Biodiversity Heritage Library (BHL) est un consortium international qui a pour mission de rendre accessibles à tous et toutes les ouvrages historiques sur la biodiversité. Cette infrastructure majeure de la biodiversité (plus de 60 millions de pages numérisées) entretient une relation d’interdépendance avec le contenu Wikimédia grâce au personnel de la BHL et aux bénévoles du mouvement Wikimédia. Cet article raconte brièvement cette histoire, notamment comment BHL a accueilli son premier Wikimédien en résidence (WeR) et comment ces travaux s’inscrivent dans des discussions plus larges sur l’équité des connaissances et la résilience des institutions GLAM.

En novembre 2024, j’ai eu l’immense plaisir de commencer une carrière de wikimédien en résidence à la BHL. J’ai été embauché pour contribuer à l’organisation des métadonnées, à l’intégration de magnifiques illustrations issues du domaine public aux projets Wikimédia et à l’accompagnement d’une communauté grandissante de bénévoles et d’institutions profondément attachés à la biodiversité et au libre-accès au savoir. La mission principale de ce poste visait à soutenir le groupe de travail BHL-Wiki, une collaboration originale entre les wikimédiens et wikimédiennes et la Biodiversity Heritage Library.

Un peu de contexte pour commencer. Ce poste de wikimédien en résidence est le résultat des recommandations communautaires du livre blanc Unifying Biodiversity Knowledge to Support Life on a Sustainable Planet, rédigé par J. J Dearborn. Sa réalisation a été menée par quatre personnes clés : J. J Dearborn, Jake Orlowitz, Giovanna Fontenelle et Siobhan Leachmann. L’équipe a présenté les données structurées sur Commons comme une pièce maîtresse de ce puzzle, a rédigé un cahier des charges et a lancé le processus de sélection. J’ai eu la chance d’être retenu par l’équipe et j’ai commencé à travailler à ce job de rêve.



Le premier item de la liste consistait à organiser la présence de la BHL sur Wikimédia. En tant que bibliothèque ouverte disposant d’un riche contenu dans le domaine public, les bénévoles du mouvement Wikimédia utilisaient le contenu de la BHL bien avant le partenariat. Pour leur intérêt mutuel, la page Commons de la BHL a été créée par Gaurav en 2011 dans l’espoir de faciliter un partenariat entre la BHL et Wikimédia Commons. La présentation initiale précisait que pour convaincre la BHL d’investir ses maigres ressources dans cette tâche, le groupe souhaitait leur démontrer l’intérêt de Wikimédia Commons et créer une liste de diffusion pour discuter des collaborations BHL/Wikipédia. On peut dire que le projet a été un succès, même s’il s’est concrétisé 13 ans plus tard ! La plus grande part des importations d’images a eu lieu vers 2014-2015. Fæ a téléchargé la plupart des images de la BHL sur Commons, via Flickr et l’interface de programmation de la BHL. Cet effort a permis de rendre plus de 300 000 fichiers dérivés de la BHL prêts à être utilisés sur Commons. C’est un bon début !

En plus de Commons, les contributions étaient réparties sur Wikidata et sur plusieurs Wikipédias. Nous avons donc créé une magnifique page multi-projets sur MetaWiki. Cette page fait désormais le liens entre les deux communautés. Dans une sous-page, j’ai également commencé à renseigner les réalisation de mon travail du wikimédien en résidence, au fur et à mesure de son avancement, afin que chacun puisse revenir en arrière et suivre le processus étape par étape.

Après avoir organisé la page MetaWiki, je me suis penché sur les données en développant un petit jeu sur Toolforge, BHL Arena, pour explorer la diversité du contenu de la BHL. Ce jeu consiste à choisir son image préférée entre deux images aléatoires de la BHL. Il classe les images préférées des utilisateurs et utilisatrices, ce qui permet de prioriser les éléments à valoriser sur les projets Wikimédia.

Il était également nécessaire de mesurer l’impact des collections d’images de la BHL dans l’écosystème Wikimédia. Les GLAM utilisent différents outils pour suivre les contributions, chacun ayant des fonctionnalités légèrement différentes. Pour la BHL, j’ai mis en place un petit tableau de bord exploitant l’API Commons Impact Metrics (API CIM). Ce tableau de bord est également utilisable pour tous les partenariats GLAM couverts par l’API CIM et est ouvert à l’exploration. Grâce à lui, nous avons constaté que les images de la BHL sont vues chaque mois sur les projets Wikimédia environ vingt millions de fois. Le site web de la BHL enregistre qu’en a lui environ 1,5 million de vues par mois. En diffusant du contenu sur le wikiverse, il est remarquable que nous puissions étendre la portée de BHL sur cet ordre de grandeur ! L’image ci-dessous présente un pic important en avril 2025, avec environ 38 millions de vues.

Nombre de pages vues par mois avec le contenu de la BHL sur Wikimédia via le tableau de bord Commons Impact Metrics.

J’aurai aimé dire que ce pic de consultation est le résultat de mon travail de wikimédien en résidence ; ce n’est pas le cas. Le tableau de bord nous permet d’explorer cela en détails et de voir quelles pages (et quels fichiers) contribuent le plus aux décomptes. Ce pic est dû à l’annonce de la prétendue disparition du Loup terrible. La page Wikipédia en anglais consacrée à l’espèce a été consultée massivement, avec à elle seule 11 millions de vues en avril. La page inclue plusieurs images BHL dans une arbre phylogénétique du loup et le nombre de vues mondiales du contenu de la BHL sur Wikipédia a atteint un pic historique. Le tableau de bord permet ainsi d’identifier les tendances comme les anomalies et d’en étudier les causes et les points d’amélioration. Nous vous invitons à l’explorer, que ce soit pour la BHL ou pour les autres catégories GLAM disponibles.

Avec cette solide base, je me suis concentré sur les tâches clés de ce projet :

1 – Consolider un modèle de métadonnées pour les images de la BHL sur Commons ;

2 – Mettre en place des flux de travail pour ajouter des informations sur Wikimédia Commons ;

3 – Mettre à jour les données structurées d’au moins 5 000 images ;

4 – Faire la promotion de la réutilisation de ces images en participant à l’organisation d’événements ;

5 – Communiquer sur le travail réalisé.

Le groupe de travail travaillait déjà sur un modèle de métadonnées qui couvrait de nombreux cas particuliers. Afin d’éviter toute paralysie analytique, nous avons mis en place un système de gestion des versions du modèle. Ce dernier a d’abord été réalisé sur un tableur Google (Minimum BHL Image Data Model – v 0.1.6) afin d’en garder la maîtrise pendant ma période de résidence de wikimédien. Le modèle est désormais disponible sur le wiki ici, où il pourra être mis à jour ultérieurement par la communauté.

Dans le même temps, nous avons rédigé un tutoriel expliquant comment utiliser OpenRefine afin d’ajouter des données structurées aux images de la BHL. Il s’agissait d’une modification intégrant des notes spécifiques à la BHL à l’excellente documentation de l’extension Commons (merci Sandra !). OpenRefine est un excellent moyen d’ajouter des informations par lots de manière semi-automatique, simplifiant ainsi la curation. L’utilisateur Ambrosia10 a utilisé et perfectionné ce flux de travail de manière intensive, améliorant ainsi les informations de milliers d’images de la BHL !

Je pense en effet qu’OpenRefine est magique, mais il nécessite une intervention humaine. Pour l’édition en masse d’images, comme c’est le cas des plus de 300 000 images de la collection BHL, nous avions besoin de méthodes plus automatisées. Nous avons commencé à utiliser WikibaseIntegrator comme base pour mettre à jour les données structurées sur Wikimédia Commons avec un rythme plus élevé.

Les cycles de conception-construction-test et l’amélioration progressive du code ont été essentiels à la réussite du projet, mais les détails pourraient être un peu trop techniques pour cet article. Il suffit de préciser que le code a analysé et intégré trois ressources différentes :

L’API Flickr, utilisée comme source des noms taxonomiques et pour identifier les artistes,

organisée par des bénévoles au cours des 10 dernières années

L’API BHL fournit les métadonnées de chaque œuvre, comme les institutions qui ont conservé et numérisé les images, et autres éléments conservés par la BHL au fil des ans. Elle fournit également des noms taxonomiques supplémentaires, issus des processus de reconnaissance optique de caractères et d’entités nommées de la BHL ;

Et l’API GBIF, qui a fourni un moyen automatique de faire correspondre les noms scientifiques du passé à leur nom actuellement reconnu.

De plus, j’ai adapté un flux de travail de curation basé sur de la ligne de commande (en utilisant le package wdcuration) pour transformer les informations encodées sous forme de chaînes de caractères (strings) en entités (things), c’est-à-dire les identifiants Wikidata représentant ces institutions.

Au fur et à mesure que le projet progressait, une autre source d’information importante est apparue : Commons lui-même. Les catégories de Wikimédia Commons, organisées par les bénévoles au fil des décennies, constituent une riche source de données structurées, à condition de disposer d’une bonne heuristique.

Pour commencer, nous nous sommes concentrés sur les catégories d’illustrations botaniques sur Commons, qui sont extrêmement bien organisées. Un script de bot a analysé ces catégories, recherchant les noms de taxons et les ajoutant à Wikidata lorsqu’aucune image était présente. Auparavant, 15 869 images de la BHL étaient utilisées sur Wikidata, après le passage du bot il y en avait 21 250 images (environ 5 400 de plus, soit une augmentation de 34 %). Nous avons utilisé deux propriétés, en choisissant la plus appropriée dans chaque cas : soit une image (P18), soit une illustration de référence (P13162), en fonction de la couverture précédente. Ces images finissent par alimenter d’innombrables projets Wikipédia. Par exemple, dans la Wikipédia lusophone, il y avait 959 images BHL avant l’exécution du script. Après celui-ci, il y en avait 1 449 (environ 500 de plus, soit une augmentation de 51 %). Nous l’avons également utilisé pour ajouter sur Commons plus de 50 000 déclarations « dépeint » aux illustrations botaniques, ce qui a suscité de nombreux retours positifs et même un bandeau, L’étoile d’idée brillante pour le bot. C’est une excellente source d’inspiration pour des travaux futurs. Elle étend les inférences de catégorie à des données structurées au-delà des seules illustrations botaniques.

Grâce à cette combinaison de stratégies, nous avons atteint l’objectif initial du projet (ajouter des données structurées à plus de 5 000 fichiers sur Commons) fin mars, à temps pour les événements #1pic1bio, organisés par la Fondation Wikimédia en partenariat avec la BHL. Ces événements visaient à accroître l’utilisation des images de la BHL sur Wikipédia. Ils se sont déroulés en espagnol le 26 mars, en français le 28 mars et en portugais le 2 avril, et étaient animés par Giovanna, Siobhan, Lidia Ponce de la Vega et moi-même. Chacun de ces événements a duré environ 1h45 et a apporté des éclairages différents sur la relation entre les communautés Wikimédia et la BHL. Il a donné lieu à des interactions enrichissantes. Portant sur l’équité, la diversité et l’inclusion, ces événements ont été parrainés par la Fondation Wikimédia, et non par le Smithsonian, afin de se conformer aux directives fédérales américaines.

Parallèlement aux changements apportés aux politiques fédérales américaines, des signes avant-coureurs d’un profond changement dans le modèle de gouvernance de la BHL ont commencé à apparaître à cette époque. Quelques mois plus tard, la Smithsonian Institution a officiellement confirmé que la Biodiversity Heritage Library ne pouvait plus accueillir les fonctions administratives. Cette décision ouvre de nouvelles perspectives pour la BHL, qui doit envisager un modèle de gouvernance plus international, mais implique le début d’une période de transition dont les prochaines étapes ne sont pas encore connues.

Être wikimédien en résidence durant cette période et observer de près tous ces changements fut passionnant. D’un côté, le contexte de transition a rendu impossible la prolongation du contrat pour ce travail (ce que j’aurais d’ailleurs adoré, car l’équipe et la mission ont rendu cette expérience extraordinaire). Mais d’un autre côté, cela ouvre aussi des perspectives pour un nouvel avenir pour la BHL, peut-être pour explorer plus librement les aspects d’équité, de diversité et d’inclusion, et pour re-définir le trésor du patrimoine de la biodiversité.

D’une certaine manière, la participation de la communauté Wikimédia au contenu de la BHL est plus importante que jamais. Les images en particulier, sont magnifiques et inspirantes. Elles nous connectent à un sens plus large, à la fois à notre passé en tant que société et à notre rôle de petit point sur l’arbre de la vie. L’un des plaisirs d’être Wikimédien en résidence avec une collection aussi vaste et ouverte est que, maintenant que mon contrat est terminé, je suis hautement qualifié pour continuer à travailler de manière significative avec la collection de la BHL en tant que bénévole. Et surtout, pour aider mes collègues bénévoles à poursuivre eux aussi leur travail significatif !

En ce sens, je crois (outre l’ajout de données structurées respectant les 5 étoiles de l’open data pour plus de 18 000 fichiers) que quatre choses réalisées au cours de cette résidence sont particulièrement significatives pour l’avenir :

Le modèle de données, qui intègre les discussions BHL-Wiki dans un système de données structuré, peut être utilisé comme référence à l’avenir ; Le code et le processus qui permettent d’intégrer des données structurées depuis les API de la BHL, de Flickr et du GBIF nécessitent une certaine expertise technique mais peuvent fonctionner de manière semi-automatique. Cela pourrait même devenir un bot à l’avenir ; Le code et le processus décrivent des déclarations de catégories pour les illustrations taxonomiques, ce qui peut être dupliqué au-delà des simples illustrations botaniques ; et L’outil BHL Image Explorer, pour naviguer dans la collection et enrichir les projets Wikimédia.

J’ai laissé l’explorateur pour la fin. Vous pouvez donc ouvrir un nouvel onglet, fermer celui-ci et explorer cela. Ce petit outil a été développé pour les événements type #1Pic1Bio. Ses fonctionnalités ont été enrichies grâce aux retours des utilisateurs et utilisatrices. Il vous permet de parcourir les images de la BHL en les filtrant par taxons et par lieu, et de voir où ces images pourraient être utilisées sur les pages Wikipédia (actuellement disponible en anglais, français, espagnol et portugais).

Voici quelques détails techniques concernant cet outil :

Autocomplétion avec Wikidata : la recherche de taxons utilise Wikidata pour sélectionner les taxons. Cela signifie que la recherche porte sur les noms communs (par exemple « baobab » au lieu d’« Adansonia digitata »). Seuls les candidats disposant d’identifiants GBIF sont affichés, car ces identifiants sont nécessaires au traitement taxonomique.

Navigation par le clic : l’outil dispose également d’une boîte cliquable représentant un arbre taxonomique. Il permet aux utilisateurs et utilisatrices d’y naviguer d’un simple clic. Les noms des espèces sont également cliquables et redirigent l’utilisateur vers la page de l’explorateur de la BHL consacrée à l’espèce en question.

Carte de distribution : Une carte des occurrences des données du GBIF est affichée à côté de la taxonomie, donnant ainsi une indication visuelle de l’endroit où un taxon est susceptible d’être présent. Cela peut par exemple aider les utilisateurs et utilisatrices à savoir si une espèce est présente en Amérique du Sud ou si elle est exclusive à l’Amérique du Sud.

Traceur de réutilisation sur Wikimédia : les images affichent désormais un compteur de réutilisations pour chacune des images, donnant une idée de leur impact au sein de l’écosystème Wikimédia. La plupart des images ont 0 utilisation globale sur Wikimédia, ce qui offre de nombreuses opportunités aux bénévoles ! ː)

Si vous souhaitez utiliser l’explorateur et que vous rencontrez des difficultés, ou que avez besoin d’aide, n’hésitez pas à me le faire savoir ! Au cours de ces six derniers mois, je me suis pris de passion pour la collection d’images de la BHL. J’aimerais vraiment la voir partout (par exemple, chaque fois que j’ouvre un nouvel onglet). À l’ère des illustrations bon marché générées par l’IA, il y a quelque chose de grandiose à voir ces œuvres d’art extrêmement détaillées, fruit d’un travail acharné, qui représentent la nature dans ses moindres détails. Ces images racontent mille histoires sur la nature de l’humanité, éprise de biodiversité. Elles font ainsi le lien entre le passé et les questions urgentes liées à la crise de la biodiversité à laquelle nous sommes confrontés.

La première étape pour prendre soin de quelque chose consiste à l’observer, à le reconnaître et à l’admirer. C’est ce que fait iNaturalist pour la biodiversité qui nous entoure aujourd’hui. Et c’est ce que fait la collection de la Biodiversity Heritage Library pour admirer la biodiversité à travers l’histoire de l’humanité.

Et maintenant ? Il existe de nombreuses activités amusantes et impactantes pour les personnes passionnées par le patrimoine et la biodiversité sur l’écosystème Wikimédia. Certaines d’entre elles sont répertoriées sur la page BHL Meta-Wiki, d’autres restent à inventer. Je pense qu’au-delà des résultats tangibles de cette résidence, nous avons réussi à créer de nouvelles façons significatives pour la communauté Wiki de s’épanouir grâce au contenu de la Biodiversity Heritage Library. J’espère que notre travail sur ces magnifiques illustrations du passé permettra de semer les graines d’un avenir plus riche en données ouvertes et structurées pour Wikimédia Commons.

Amusez-vous bien !

Pouvez-vous nous aider à traduire cet article ? Pour que cet article soit diffusé au plus grand nombre, nous avons besoin de votre aide. Pouvez-vous traduire cet article pour faire passer le message ? Commencer la traduction