Dans le cadre du WP2 du projet ANR Bridge (2020-2022), une étude a été conduite pour évaluer selon des critères FAIR (facile à trouver, accessible, interopérable, réutilisable) un échantillon de dix jeux de données issus de travaux recherche menés par les partenaires du projet. L’objectif était d’avoir une meilleure connaissance de l’état des jeux de données que les chercheurs produisent, et d’identifier les points clés pour une gestion et une diffusion FAIR de ces données par les chercheurs afin d’en dégager des recommandations.
Les jeux de données ont été sélectionnés parmi ceux qui impliquaient au moins deux des trois partenaires du projet, et représentatifs de la diversité des domaines scientifiques couverts. .Les données sélectionnées portent sur le phénotypage et génotypage de plantes de culture , le carbone du sol, un herbier, un inventaire forestier, les mesures LIDAR du couvert végétal, le rhizotron et la physiologie végétale.
L’atelier a été organisé et animé par la société Datactiv’IST. La méthode a constitué à évaluer chaque jeu de données selon la grille d’évaluation FAIR “RDA-SHARC ig V1.2”[1], dans sa version “Extensive Template” . Cette grille contient 45 critères d’évaluation FAIR relatifs au jeu de données, ainsi que des questions relatives aux motivations ou freins des chercheurs pour ouvrir leurs jeux de données.
Des entretiens ont été menés systématiquement auprès des auteurs ou contributeurs de ces données. Des séances de travail collaboratives ont permis aux scientifiques d’échanger entre eux sur les difficultés rencontrées, les questions soulevées, et les réponses envisageables pour améliorer la qualité de leurs données.
Toutes les données analysées ont été produites dans le cadre de programmes scientifiques de longue durée. Certaines de ses données sont uniques par leur nature, leur granularité ou la période couverte.
Les difficultés rencontrées par les chercheurs dans la gestion et la diffusion de leurs données concernent le respect du cadre juridique, le traitement des données sensibles et personnelles, la traçabilité des traitements des données, les conditions (choix de licence) et modalités (application d’un embargo ou non) de leur diffusion , et le choix des standards de métadonnées et de vocabulaires pour décrire et documenter les données .
Les résultats de l’étude contribueront aà nourrir les recommandations du projet Bridge à destination des producteurs de donnés.
Liste des jeux de données analysés (note : les données en cours de préparation ne sont pas encore accessibles publiquement)
Cas d’étude | Unité /UMR Localisation | Accès | Description |
Données de phénotypage et génotypage du panel DROPS | UMR Génétique Quantitative et Évolution-Le Moulon | https://doi.org/10.15454/IASSTN | Jeu de données en 2 datasets : phénotypage doi:10.15454/IASSTN et génotypage doi:10.15454/AEC4BN |
Données de phénotypage GenTree | INRAE URGI | – dataset data.inrae.fr https://data.inrae.fr/dataset.xhtml?persistentId=doi:10.15454/DOWA7X&version=DRAFT Données forêt du projet GenTree soutenues par 3 datapapers : https://doi.org/10.1111/geb.13239 https://www.nature.com/articles/s41597-019-0340-y https://doi.org/10.1093/gigascience/giab010 |
– données intégrées dans le système d’information GnpIS (Ephesis et FAIDARE)
Protocole de collecte: https://forgemia.inra.fr/urgi-is/ontologies/raw/develop/Tree/GenTree_protocols_0.99.pdf |
Données carbone du sol (Guyane) | CIRAD Aida & Forêts et Sociétés INRAE InfoSol, IRD UMR EcoSols |
Jeu de données https://nx12829.your-storageshare.de/s/n2sbjYWp8ir7gSc issu de l’agrégation de http://coby.infosol.inrae.fr:8181/FROST-Server/v1.1/Things (INRAE) http://ns3192284.ip-5-39-73.eu:8181/FROST-Server/v1.0/Things (CIRAD) |
Le projet carbone du sol DATA4C+ (ANR Flash data 2019) est coordonné par Julien Demenois (Cirad). |
Herbier IRD de Guyane
|
UMR AMAP (chercheur IRD) | https://dataverse.ird.fr/privateurl.xhtml?token=5010f257-b39d-4c4e-8618-8e66222cb9fd | L’Herbier IRD de Guyane (CAY), riche de 200 000 spécimens collectés, joue un rôle central dans l’acquisition et la diffusion des connaissances sur la flore de la Guyane française, et plus largement du Bouclier Guyanais et de l’Amazonie. |
Données LIDAR du couvert végétal (Guyane) | UMR AMAP (chercheur IRD) | https://dataverse.ird.fr/privateurl.xhtml?token=b4ecadd8-a6cc-4bad-a2b3-f8ba9b24dcf5 | Aerial laser scanning (ALS) de la station expérimentale Paracou en Guyane |
Données allométriques du couvert végétal (Guyane) | UMR AMAP (chercheur IRD) | https://nx12829.your-storageshare.de/s/n2sbjYWp8ir7gSc/td> | Données transmises mais non publiées |
Inventaire forestier GUYADIV (Guyane) | UMR AMAP | https://dataverse.ird.fr/privateurl.xhtml?token=3326dcad-e7ca-4899-a195-c51f6a123450
http://vmamapgn-test.mpl.ird.fr/geonetwork/srv/eng/search?#|575eabd9-8ef6-402a-a7e3-4f9c2102e809 |
240 parcelles de différentes tailles résultant en > 94 000 arbres recensés, parmi lesquels > 97% sont identifiés à l’espèce ou à la morpho-espèce |
Données carbone talveg | UMR AMAP | https://dataverse.ird.fr/privateurl.xhtml?token=31687276-e4f0-4f4e-a33a-4fd77df1254d | Les talus comme puits de carbone : une étude sur les voies et mécanismes de séquestration du carbone dans le sol superficiel et le sous-sol exposé. |
Données rhizotron (physiologie végétale) UMR AMAP | UMR AMAP | https://dataverse.ird.fr/privateurl.xhtml?token=a1a00c87-67e5-4278-a244-43c41283bbf1 | – Pictures of rhizotron at different dates (every two weeks) SmartRoot analysis of the analyzed pictures, – length and diameter of roots at different dates (excel file) and the resulting Root Elongation Rate |
[1] “Templates for FAIRness evaluation criteria – RDA-SHARC ig”, 29 juin 2020, https://zenodo.org/record/3922069