Moissonnage de données entre entrepôts Dataverse : expériences et observations

Comme prévu par le projet, nous avons procédé à plusieurs expérimentations de moissonnage de données entre les entrepôts de nos 3 instituts (INRAE, CIRAD et IRD), dont un point commun est d’être tous basés sur l’application open-source Dataverse . Ces travaux se poursuivent actuellement.

Plus précisément, le protocole standard OAI-PMH fait partie des fonctionnalités intégrées par défaut dans l’application Dataverse. Ce protocole permet d’interconnecter des entrepôts de données. Des sélections de jeux de données (« sets OAI ») publiés dans un entrepôt partenaire (source) peuvent ainsi être référencées et présentées sous forme d’encarts résumé et de liens dans un autre entrepôt (destination), comme sur l’exemple ci-dessous.

Avantage supplémentaire pour les utilisateurs, les métadonnées (descriptions) des jeux de données moissonnés sont indexées : les résultats des recherches incluent également ces données extérieures. En cas de publication de nouveaux jeux de données ou de mises à jour, la synchronisation des données moissonnées peut être automatisée avec une fréquence journalière ou hebdomadaire.

L’opération présente un intérêt particulier dans le cas des Unité Mixtes de Recherche (UMR) dont plusieurs de nos instituts sont cotutelles. Selon les projets et les chercheurs impliqués, des données ont pu être déposées indistinctement dans l’un des entrepôts Dataverse auxquels l’UMR a accès. Le moissonnage permet alors de regrouper virtuellement toutes les données déposées pour leur indexation et leur présentation aux utilisateurs. Des catalogues ou annuaires de données peuvent être ainsi créés.

La sélection des données à moissonner peut correspondre à l’ensemble d’une collection de données, tel que dans cet exemple : 33 jeux de données publiés dans la collection « UMR AMAP » de l’entrepôt de l’INRAE sont présentés dans l’entrepôt de l’IRD : https://dataverse.ird.fr/dataverse/inrae_umr_amap

Le bilan de nos expérimentations est mitigé.

Parmi les points positifs, le moissonnage a pu être configuré facilement sur nos différents serveurs Dataverse. De manière générale et du point de vue technique, la connexion entre les entrepôts fonctionne.

De nombreux points d’amélioration ont été identifiés, portant principalement sur la présentation des jeux de données moissonnés telle qu’elle est prévue par défaut par l’application Dataverse :

Pour les jeux de données moissonnés, l’information présentée (voir exemple ci-dessus) est succincte. L’accès à une fiche de métadonnées plus détaillée serait un plus pour les utilisateurs.
Dans les citations des jeux de données moissonnés, l’année de publication affichée est presque toujours erronée : le plus souvent c’est l’année à laquelle le moissonnage a été effectué, au lieu de la véritable année de publication des données. Nous observons que la même erreur survient aussi pour de nombreux jeux de données moissonnés qui sont présentés dans l’entrepôt Dataverse de l’Université de Harvard.
Les citations des jeux de données moissonnés pourraient également inclure le nom de l’entrepôt source, afin de mieux se conformer aux exigences de citation et aux principes FAIR.
De même, les numéros de version des jeux de données n’apparaissent pas dans les citations des jeux de données moissonnés.
Les métadonnées « Subject » et « Topic » sont transmises dans le même type de champ OAI. En conséquence, ils apparaissent seulement sous la forme de mots-clés suite au moissonnage : une solution qui n’est pas optimale pour le filtrage et les recherches de données.
Les opérations de moissonnage ignorent certains jeux de données à cause de leur contenu. Ce problème survient lorsque l’entrepôt source et l’entrepôt destination ont défini leurs propres listes limitatives de valeurs pour certains champs de métadonnées. L’entrepôt destination rejette les jeux de données qui comportent des valeurs ne figurant pas dans ses listes.
Lorsque le moissonnage est réalisé périodiquement, seuls les jeux de données nouvellement créés ou modifiés devraient être pris en compte. Or il arrive que l’ensemble des jeux de données soient moissonnés à nouveau et présentés aux utilisateurs en tant que nouvelles publications.
Un incident technique grave -et totalement imprévisible- a conduit au moissonnage involontaire de l’ensemble des données publiées dans le dataverse de l’INRAE, soient plus de 80.000 jeux de données – au lieu des 30 jeux de données publiés dans une collection précise qui avait été paramétrée correctement dans les configurations des différents entrepôts. Les causes de l’incident sont encore en cours d’analyse. Le même incident est survenu sur les serveurs Dataverse de l’IRD et du CIRAD. Dans le cas du serveur de l’IRD, il a provoqué une saturation du serveur, des dysfonctionnements et finalement l’indisponibilité du service durant 12h. De plus et lorsqu’une opération de moissonnage est lancée, l’interface administrateur de l’application n’offre aucune possibilité de l’interrompre. Enfin, l’annulation de l’opération (retrait des données moissonnées par erreur) s’est bloquée et a dû être relancée. Par ailleurs, l’incident a permis de mesurer la vitesse à laquelle le moissonnage s’effectue, soient environ 6000 jeux de données par heure dans le cas de l’IRD.

De manière plus générale, ces diverses constatations nous conduisent à penser que le code source actuel de l’application Dataverse manque encore de robustesse et de rigueur pour son composant chargé du moissonnage de données. Des demandes d’amélioration du module de moissonnage ont ainsi déjà été transmises à la communauté des développeurs de l’application Dataverse. Une analyse du code et sa révision complète en profondeur pourraient s’avérer pertinents, de même que l’ajout de quelques fonctionnalités manquantes.