LogoIST Que sont les données de la recherche (research data) ?

 

Les données de la recherche telles que définies par l’OCDE dans son rapport de 2007, sont définies « comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche.
Ce terme ne s’applique pas aux éléments suivants : carnets de laboratoire, analyses préliminaires et projets de documents scientifiques, programmes de travaux futurs, examens par les pairs, communications personnelles avec des collègues et objets matériels. »

 

 

Il existe différents types de données de la recherche qui diffèrent selon la manière dont les données sont produites et selon leur valeur supposée :

  • les données d’observation : capturées en temps réel ; habituellement uniques et donc impossible à reproduire (ex : données d’enquêtes) ;
  • les données expérimentales : obtenues à partir d'équipements de laboratoire ; souvent reproductibles mais parfois coûteuses (ex : chromatogrammes) ;
  • les données computationnelles, de modèles ou de simulation (ex : modèle de simulation sismique) ;
  • les données dérivées ou compilées(ex : fouille de textes) ;
  • les données de référence (ex : base de données de cristallographie).

 

 

LogoIST Pourquoi gérer et partager ses données ?

 

La gestion des données de recherche répond aux objectifs suivants (CoopIST, 2015) :

  • elle accroît l’efficience de la recherche, en facilitant l’accès et l’analyse des données par le chercheur qui a conduit la recherche ou par tout nouveau chercheur ;
  • elle assure la continuité de la recherche par la réutilisation des données, tout en évitant la duplication des efforts ;
  • elle favorise la diffusion élargie et accroît l’impact : des données de recherche correctement formatées, décrites et identifiées gardent une valeur à long terme ;
  • elle permet d’assurer l’intégrité de la recherche et la validation des résultats. Des données de recherche exactes et complètes permettent également la reconstruction des événements et des processus qui ont conduit aux résultats ;
  • elle réduit le risque de perte et renforce la sécurité des données par l’utilisation de dispositifs de stockage robustes et adaptés ;
  • elle accompagne l’évolution actuelle de la publication : les revues scientifiques proposent de plus en plus que les données qui constituent la base d’une publication soient partagées et déposées dans un entrepôt de données accessible. De ce fait, la gestion des données de recherche facilite la soumission aux revues scientifiques d’articles s’appuyant sur des jeux de données documentés ;
  • elle satisfait aux conditions de financement du projet par les bailleurs : ceux-ci s’intéressent de plus en plus à ce que les chercheurs font des données produites au cours d’un projet et conditionnent souvent le financement à l’ouverture de ces données pour qu’elles soient accessibles librement et gratuitement ;
  • elle atteste de votre responsabilité : en gérant vos données de recherche et en les rendant disponibles, vous faites preuve d’une utilisation responsable du financement public de la recherche.

 

Doranum Pour aller plus loin, s’informer et se former sur Doranum : Enjeux et Bénéfices

 

 

 

LogoIST Le plan de gestion de données (DMP)

 

Le plan de gestion des données est un outil de gestion. Il se présente sous forme d’un document structuré en rubriques. Il a pour objectif de synthétiser la description et l’évolution des jeux de données de votre projet de recherche. Il prépare le partage, la réutilisation et la pérennisation des données.

 

Depuis juillet 2016 tous les projets H2020 doivent fournir un DMP. Les exigences du programme sont détaillées ici, quelques-unes sont listées ci-dessous :

 

  • Une première version du DMP (livrable) dans les 6 premiers mois du projet ;
  • A l’étape de la proposition, fournir une courte description de la politique de gestion des données ;
  • H2020 incite ainsi la publication d’un DMP mis à jour au milieu du projet (Mid-term review DMP) ;
  • H2020 exige au minimum une nouvelle version du DMP avec les mises à jours nécessaires à la fin du projet (Final review DMP)
  • Les exigences minimales (1ère version du DMP) sont : une description des données qui seront générées ou collectées ; les standards et les métadonnées qui seront utilisées ; le partage des données ; l'archivage et la préservation les principes FAIR.

Le DMP est de plus en plus fréquemment encouragé ou imposé par les tutelles ainsi que par les agences de financement. Découvrez sur le site Sherpa/Juliet les exigences en matière de gestion et d'ouverture des productions scientifiques.

 

 

Les principes FAIR (Findability, Accessibility, Interoperability, Reusability) :

  • Findability : métadonnées descriptives ; identifiants permanents
  • Accessibility : autorisation appropriée ; protocole bien défini
  • Interoperability : formats ouverts ; standards communs ; vocabulaire cohérent
  • Reusability : droits clairs ; licence appropriée

 

Le DMP doit répondre aux types de questions suivantes :

  • Quels types de données seront collectés ou générés au cours du projet ?
  • Qui seront les personnes responsables de chaque étape de la gestion ?
  • Quelle sera la politique appliquée aux données : celle des agences de financement, celle de l'institution... ?
  • Comment seront organisés les données et les fichiers ?
  • Comment seront décrites les données (documentation et standards de métadonnées) ?
  • Comment et où seront stockées, sauvegardées et sécurisées les données ?
  • Comment seront partagées les données ? Propriété intellectuelle ? Licence de réutilisation ?
  • Comment seront préservées ces données à long terme ?
  • Quels seront le coût et les ressources nécessaires à la gestion et au partage des données ?

 

Il existe des outils en ligne pour la création d’un DMP comme par exemple : DMP OPIDoR (OPIDoR = Optimisation du Partage et de l’Interopérabilité des Données de la Recherche)

DMP OPIDoR vous permet, tout comme vos partenaires, de rédiger un plan de gestion de données, en proposant différents modèles préconisés par les institutions et financeurs (Commission européenne…), ainsi que des guides et des exemples personnalisés.

 

Doranum Pour aller plus loin, s’informer et se former sur Doranum : Le plan de gestion de données

 

 

LogoIST Où publier ? le choix d'un entrepôt de données

 

Un entrepôt permet de stocker des données de recherche, d’y accéder et de les réutiliser. Il existe des milliers d’entrepôts répartis en plusieurs types : disciplinaires, multidisciplinaires, propres à un éditeur, institutionnels, spécifiques d’un projet de recherche…

Il existe des annuaires (ou répertoires) qui peuvent vous aider à filtrer votre recherche d’entrepôt : re3data, OAD, OpenDOAR, etc.

 

Quelques exemples d'entrepôt de données :

 

Doranum Pour aller plus loin, s’informer et se former sur Doranum : Dépôt - Entrepôts