Introduction
Diaporamas des présentations faite par Colette & Cécile en séminaire interne (mars 2022)
- 10 mars 2022 : Diaporama & vidéo « Data Sharing and Management Snafu in 3 Short Acts » (youtube)
- 31 mars 2022 : Diaporama
Un plan de gestion de données (PGD) – quésako ?
-
-
- Document formalisé décrivant les données et jeux de données (datasets) produits et réutilisés au cours du projet de recherche.
Données concernées : toutes les données (brutes et analysées) ainsi que la méthode d’analyse utilisée, donc les gros jeux de données (données omiques, etc) et plus petits, ressources génétiques (mutants, lignées construites), phénotypage, expression (Q-PCR, …), données biochimiques, images ,…
Les données doivent être documentées (associées aux informations contextuelles nécessaires à leur interprétation (métadonnées) pour en connaître l’origine (auteur, projet), les caractéristiques et les conditions d’obtention (données expérimentales)). - Document évolutif (feuille de route), en ajustement constant ayant pour objectif de rassembler des informations auparavant dispersées entre différents acteurs
- Document dont le contenu peut varier en fonction des besoins des projets et des demandes des agences de financement.
- Livrable du projet :
En général 3 versions demandées : à 6 mois, milieu de projet et fin de projet.
objectif : Données FAIR / open data, science ouverte
Peut conditionner le versement du solde du projet (voir extrait du fichier « règlement relatif aux modalités d’attribution des aides de l’ANR » de la page règlement financier de l’ANR) :le dernier versement (ou « solde ») est conditionné à la fourniture par le bénéficiaire :
- du compte-rendu de fin de projet et à sa validation par l’ANR;
- du relevé final des dépenses et à sa validation par l’ANR;
- de l’accord de consortium (si le consortium associe au moins une entreprise) et à sa validation par l’ANR;
- du justificatif de service d’enseignement le cas échéant;
- du justificatif d’accès, d’utilisation et de conservation des ressources génétiques (récépissé de déclaration) le cas échéant;
- du plan de gestion des données mis à jour.
- Document formalisé décrivant les données et jeux de données (datasets) produits et réutilisés au cours du projet de recherche.
-
Repères chronologiques et guides pratiques pour la rédaction d’un PGD :
Le préalable à la rédaction d’un Plan de gestion de données est l’organisation des données.
-
- Début du projet (0 à 6 mois) : organiser la gestion des données
– Identifier les jeux de données prévus
– Définir la nomenclature à utiliser pour nommer les fichiers & répertoires (voir l’onglet Nomenclature)
– Définir l’arborescence type de votre projet (organisation des données), (voir l’onglet Arborescence) – Penser aux sauvegardes quotidiennes.
– Utiliser les outils collaboratifs pour partager les informations (voir l’onglet Sauvegarde des données et outils collaboratifs)
➢ PGD1 (6 mois) : description de l’organisation définie pour la gestion des jeux de données identifiés à l’échelle du projet, éventuellement au delà (voir l’onglet Créer son Plan de Gestion de données) - En cours de projet : actualiser les jeux de données et les données associées
➢ PGD2 (milieu de projet) - Fin de projet : stocker / archiver les données à l’issue du projet et les partager avec la communauté (voir l’onglet Entrepôts de données et archivage)
➢ PGD3 : description des données produites et utilisées, des modalités d’accès et de partage à l’issue du projet (publication, entrepôts de données, …).
- Début du projet (0 à 6 mois) : organiser la gestion des données
Arborescence - Règles d'organisation des données
- Un répertoire contenant les données brutes, non nécessairement sauvegardé mais copié en 3 endroits différents dont 1 hors site.
- Un répertoire de travail, partagé de préférence, et sauvegardé quotidiennement contenant :
- Les données analysées,
- Les métadonnées pour chaque jeu de données (données descriptives à stocker dans le même répertoire que les données) : conditions expérimentales
- Les règles de nommage définies.
Sauvegarder selon la règle des 3-2-1 (3 exemplaires – 2 supports de technologie différente dont 1 hors site)
Les données brutes (un sous-répertoire par jeu de données) peuvent être stockées
◦ sur votre disque dur,
◦ et sur S (//stocka2/bpmp-unites) localisé à l’UIC (Informatique du centre de Montpellier – bât 21 du campus de la Gaillarde),
◦ et sur votre espace MyCore ou NextCloud (voir l’onglet « Sauvegarde des données et outils collaboratifs »)
Le répertoire de travail est un espace partagé et sauvegardé quotidiennement comme
◦ U (//filao/bpmp)) localisé à l’UIC (Informatique du centre de Montpellier – bât 21 du campus de la Gaillarde),
◦ ou un espace au nom du projet sur EspaceCore ou NextCloud (voir l’onglet « Sauvegarde des données et outils collaboratifs »)
U n’est accessible qu’aux personnels BPMP, alors que EspaceCore ou NextCloud peuvent être partagés avec des collaborateurs extérieurs.
Les métadonnées décrivent le contexte du projet (pourquoi ces données ont été produites), la liste des échantillons utilisés (âge de la plante, accession, type de mutant, tissu …), la liste des protocoles suivis (procédures expérimentales & d’analyses des données), la nomenclature utilisée, la liste des personnes contact pour chaque étape du projet, les prestataires choisis, … (exemple)
Le répertoire de travail peut contenir une série de sous-répertoire comme
◦ Ressources : description des matériels biologiques et des jeux de données existant utilisés (provenance, type de matériel, personne contact, conditions d’utilisation, licences, date de dernière mise à jour ou n° de version pour les jeux de données)
◦ Methodes : protocoles utilisés et publications correspondantes
◦ Analyses : un sous-répertoire par étape de l’analyse et un fichier contenant les noms des différents programmes utilisés (avec le n° de version et les options utilisées ainsi que la(les) référence(s) associée(s)). Les scripts développés pour l’analyse seront aussi stockés dans ce répertoire
Il serait souhaitable que vous utilisiez SeedUSoon pour stocker les données des lignées utilisées (voir la page « Ressources biologiques et stockage« ).
Voici quelques phrases type dont vous pouvez vous inspirer pour la rédaction de la partie « organisation des données » de votre plan :
Un répertoire contenant les données brutes du projet sera créé (si plusieurs jeux de données, un sous répertoire par jeu de données). Ce répertoire sera copié sur 2 autres disques (préciser la localisation de ces disques).
Un répertoire du nom court du projet sera créé dans un espace sauvegardé quotidiennement. Il comprendra un fichier contenant les méta-données et une série de sous-répertoires (nommer ces sous répertoires et décrire le type de données qu’ils contiendront)
Nomenclature - Règles de nommage des fichiers
- choisir un nom court et explicite (contenant la date et la version si besoin)
- n’utiliser que les lettres (non accentuées) minuscules et majuscules, les chiffres et les caractères tiret (-), underscore (_) et point (.) et jamais de blanc
- pour les dates, mettre l’année en premier : AAAA-MM-JJ ou AAAAMMJJ mais utiliser toujours le même format
- écrire les nombres sur 2 caractères (mettre un 0 devant les nombres 1 à 9)
[ En savoir plus ]



Sauvegarde des données et outils collaboratifs
Les solutions proposées par nos tutelles
Vous voulez sauvegarder vos données et/ou les partager avec d’autres personnes :
- NextCloud (inrae) : 100 Go [documentation] [Formation]
Pour les agents INRAe : vous devez dans un premier temps faire une demande de « Espace Individuel – My Drive » dans https://ariane.inrae.fr/ (procédure très simple)
Les agents non INRAe ne peuvent pas demander un espace individual MyDrive, mais peuvent ouvrir une session NextCloud pour accéder aux données partagées par des agents INRAe en se connectant avec leurs login/mot de passe INRAE (LDAP national; le login est en règle général l’initiale du prénom suivie du nom) - sDrive (cnrs) : 100 Go [documentation]
sDrive remplace MyCoRe qui sera définitivement arrêté le 30 avril 2025 [Aide à la migration de My CoRe vers sDrive] [Différences entre My CoRe et sDrive]
Pour vous y connecter, vous devez sélectionner votre statut (« CNRS – personnel des unités » quelque soit votre employeur) puis utiliser comme login votre mail professionnel (inrae, cnrs, supagro ou umontpellier) et votre mot de passe Janus (gestion de votre compte Janus : https://sesame.cnrs.fr/). - NextCloud (SupAgro) : 5 Go (extensible sur demande) [documentation]
Pour vous y connecter, vous devez utiliser votre login / mot de passe dont vous vous servez pour accéder aux outils du campus (LDAP local)
Pour les projets collaboratifs : vous voulez un espace de travail où plusieurs personnes peuvent déposer/modifier des documents :
- NextCloud (inrae) : en cours d’activation par le laboratoire
- Sharepoint (inrae) : quota de 30 Go – Sauvegarde sur 35 jours [tutoriels & mémos]
- Espaces CoRe (cnrs) : quota de 20 Go – cet espace est dédié aux données à partager au sein de l’unité ou avec des partenaires externes privés ou publics, en France ou à l’étranger. Un répertoire par projet peut être créé. Contacts : Henrique Afonso ou Cécile Fizames [documentation]
Espace de sauvegarde pour de gros volumes de données (images, phénotypage, …) :
- ISDM (ex Meso@LR)
Possibilité de demander un espace pour une équipe ou une plateforme (contact : Cécile F.)
Coût : 30€/To/an pris en charge par le labo
La solution de stockage dépend de qui, quand, et à quelle fréquence on va devoir accéder à la donnée. Il n’y a donc pas de solution universelle et on peut se faire accompagner.
Les solutions en local
(Consulter la fiche résumant ce que propose l’IPSiM)
Sauvegardes de documents d’un collectif (équipe ou groupe de travail) :
La laboratoire met à votre disposition 2 serveurs de sauvegarde situés physiquement soit au SIM (Service Informatique Mutualisé du campus), soit au CINES (Centre informatique national de l’enseignement supérieur) :
- U (//filao.localsi/bpmp) – quota : 1.8 To (machine virtuelle sous Windows située au CINES)
Ce système est fait pour les fichiers sur lesquels on travaille. Une fois le projet finalisé, les documents doivent être effacés de cet espace.
Les données stockée sur U sont sauvegardées grâce à des snapshots tous les 4h (entre 8h et 20h du lundi au vendredi).
Les snapshots sont des photos d’un disque réalisées à un instant T permettant la restauration complète du disque ou de quelques fichiers à la demande. Le nombre de snapshot étant limité à 64, on peut restaurer sur une durée jusqu’à 23 jours en comptant les week-ends.
Avec un client windows, chaque utilisateur peut restaurer ce qu’il veut avec « Propriétés -> Versions précédentes »
En plus ce répertoire est sauvegardé par BackupPC avec une rétention de 1 mois dans un bâtiment extérieur : sauvegarde complète tous les mois + incrémental toutes les nuits
Si un fichier est effacé, le SIM peut le restaurer durant 1 mois - S (//stocka2/bpmp-unites) – quota : 15 To (serveur linux debian localisé au SIM)
Ce système est fait pour les données finalisées à stocker.
Les données ne sont pas sauvegardées. Ce qui veut dire que tout fichier effacé de S sera perdu si vous n’avez pas de copie ailleurs. Et si vous modifiez un fichier, vous ne pourrez pas récupérer la version précédente. Vous devez garder une copie sur un autre système.
Les serveurs U et S sont hébergés dans une salle informatique climatisée et protégée électriquement.
Sauvegardes individuelles
- Les données de vos postes de travail sont sauvegardées sur Q (//backup1/backup-bpmp – quota 17 To) grâce à la commande rsync que vous devez lancer manuellement et régulièrement.
Cette commande permet de sauvegarder vos données essentielles (les documents, le bureau et les marques pages et mot de passe de Mozilla Firefox).
A votre demande, Henrique peut ajouter d’autres dossiers à sauvegarder.
Des contraintes techniques sous Mac limite la sauvegarde au bureau et aux documents, vous devez donc coupler votre système avec un Time Machine.
Rsync permet de restaurer toutes les données indispensables à votre activité en cas de perte de votre machine ou de casse du disque dur.
Les documents copiés restent en place sur le serveur Q. Des documents copiés il y a longtemps, et jamais modifiés sont donc récupérable auprès du SIM.
Pour une sécurité supplémentaire, tous les soirs à partir de 20h, une machine située dans le bureau d’Henrique va lire l’ensemble des sauvegardes rsync et comparer chaque dossier et fichier de chaque agent avec ceux de leur dernière sauvegarde. Si un fichier a été modifié, il sera sauvegardé. Cette journalisation permet de stocker toutes les versions de vos fichiers et ainsi de retrouver un fichier effacé ou une version ancienne de ce fichier sur 4 semaines. - Z (//smbcines.localsi/homes) – quota : 3 Go extensible sur demande (serveur linux debian localisée au CINES)
Cet espace est sauvegardé par BackupPC du SIM
Le coût de la sauvegarde est de 40 € par an pour 1 To
Pour stocker une grande quantité de données (images, phénotypage), le laboratoire pourrait demander un compte que Meso@LR
Une clé USB ou un disque dur externe n’est pas un système de sauvegarde
Contact : Henrique Afonso
En savoir plus :
Consulter la fiche inrae “Le stockage numérique” (juillet 2020) : donner des points de repères, bonnes pratiques; lutter contre les idées reçues; renvoyer vers des experts
Voici quelques phrases type dont vous pouvez vous inspirer pour la rédaction de la partie « sauvegarde des données pendant le processus de recherche » de votre plan :
Si vous utilisez le volume de sauvegarde U (//filao/bpmp) proposé par le labo :
Les données pendant le processus de recherche seront sauvegardées quotidiennement sur un serveur hébergé dans la salle informatique du centre inrae de Montpellier, climatisée et protégée électriquement. La sauvegarde consiste en des snapshots permettant une restauration sur 23 jours et en une sauvegarde sur bande avec rétention de 6 mois. Ce serveur est administré par l’équipe informatique de centre.
Le volume estimé de ce répertoire est de xx Mo (coût estimé : xx €)
Guide : créer son plan de gestion de données
Le plan de gestion de données est un document évolutif qu’il faut rédiger dès le début du projet avec les éléments déjà connus ou prévus. Ensuite, il faut le compléter au fur et à mesure de l’avancée du projet. Il faut prévoir 3 versions minimum : au début, au milieu et à la fin du projet.
Vous devrez avoir au préalable défini une organisation / structuration des données.
Créer votre plan de gestion de données grâce à l’outil DMP OPIDoR :
DMP OPIDoR est l’acronyme de Data Management Plan pour l’Optimisation du Partage et de l’Interopérabilité des Données de Recherche.
C’est un outil simple et intuitif pour vous aider à élaborer vos plans de gestion de données en ligne.
- créer un compte
- se connecter
- cliquer sur le bouton rouge « Créer un plan »
- choisissez le modèle (dans l’onglet bleu Financeur, vous avez accès aux modèles ANR, ERC, commission européenne …)
- répondre aux questions
voir le type de questions posée pour les modèles- ANR (16/05/2022)
- ERC (16/05/2022)
- INRAE (10/08/2022)
- Science Europe (16/05/2022) – modèle classique
- Science Europe (19/05/2022) – modèle structuré
- UM (16/05/2022)
- Horizon Europe (01/09/2022)




(diapositives issues du support du webinaire « Présentation de l’outil DMP OPIDoR » d’octobre 2020)
Entrepôts de données et archivage
L’entrepôt de données permet le dépôt et la conservation des données à plus ou moins long terme, dans un but de partage et de diffusion.
Soumettre des données dans un entrepôt :
préférer l’EBI (européen) au NCBI (américain). Ces plateformes s’échangent leurs données.
– données d’expression (puces ou séquençage) à l’EBI ou au NCBI
– données de séquences (génomique, transcrits ou petits génomes ) à l’EBI ou au NCBI
– données de séquences (génomes) à l’EBI ou au NCBI
– données de spectrométrie de masse protéomique : PRIDE (The ProteomeXchange Consortium)
– images : BioImage Archive (EBI)
– images de microscopie : Image Data Resource (IDR)
– tout type de données : recherche data gouv – attribuer un DOI à un jeu de données; data papers
Voici quelques phrases type dont vous pouvez vous inspirer pour la rédaction de la partie « partage des données avec la communauté et conservation à long terme » de votre plan :
Si les données que vous produisez sont des données qui peuvent être hébergées à l’EBI – European Bioinformatics Institute – (données de séquence, données d’expression, génome, …etc) :
Les métadonnées ainsi que les données brutes et analysées issues du projet seront soumises avant publication à l’EBI dans l’entrepôt xxx et mises sous embargo jusqu’à la publication de l’article.
Les données brutes seront au format xxx (taille estimée : xx octets)
Les données analysées seront sous la forme de fichiers au format xxx
Voir la page Data submission pour connaître les modalités de soumission et les différents entrepôts proposés en fonction du type de données.
Les métadonnées correspondent à la description du contexte du projet (pourquoi ces données ont été produites), des échantillons utilisés (âge de la plante, accession, type de mutant, tissu …), des protocoles suivis (procédures expérimentales & d’analyses des données), des personnes contact
Pour les formats des fichiers de données brutes, ce peut être CEL pour les puces, fastq pour les NGS, …
Pour les formats de données analysées, préférez les formats ouverts (txt, csv. Pour la suite office, préférez ods ou fods à xls ou xlsx, odt ou fodt plutôt que doc ou docx). Ce peut être aussi d’autres formats comme les fichiers bam (format d’alignement)
Si vos données ne peuvent être soumises à l’EBI, vous pouvez les déposer sur le portail recherche.data.gouv.fr qui vous fournira un DOI.
Archivage
Une plateforme d’archivage comme celle du Cines permet la conservation à long terme des données avec un objectif d’en garantir la lisibilité (migration de formats, émulation, prévention de l’obsolescence).
Comment archiver au CINES ?
FAIR data
Produire des données FAIR (Findable, Accessible, Interoperable, Reusable)
L’objectif des principes FAIR est de favoriser la découverte, l’accès, l’interopérabilité et la réutilisation des données partagées. Chaque principe FAIR se décline en un ensemble de caractéristiques que doivent présenter les données et les métadonnées pour faciliter leur découverte et leur utilisation par les hommes mais aussi par les machines.
- Le principe Findable a pour objectif de faciliter la découverte des données par les humains et les systèmes informatiques et requiert une description et une indexation des données et des métadonnées.
[ En savoir plus ] - Le principe Accessible encourage à stocker durablement les données et les métadonnées et à faciliter leur accès et/ou leur téléchargement, en spécifiant les conditions d’accès (accès ouvert ou restreint) et d’utilisation (licence).
[ En savoir plus ] - Le principe Interoperable peut se décomposer en : téléchargeable, utilisable, intelligible, et combinable avec d’autres données, par des humains et des machines.
[ En savoir plus ] - Le principe Reusable met en avant les caractéristiques qui rendent les données réutilisables pour de futures recherches ou d’autres finalités (enseignement, innovation, reproduction/transparence de la science).
[ En savoir plus ]
Voir aussi la présentation de DoRANum
Data Fair : Visualisez, exploitez et partagez vos données en quelques clics !
Publications
1. Rendre disponible en libre accès, toute publication scientifique issue d’un projet, en utilisant la licence Creative Commons CC-BY ou équivalente, en utilisant l’une des voies de publications suivantes :
- publication dans une revue nativement en libre accès,
- publication dans une revue par abonnement faisant partie d’un accord dit transformant ou journal transformatif,
- publication dans une revue à abonnement. La version éditeur ou le manuscrit accepté pour publication sera déposé dans l’archive ouverte HAL par les auteur.e.s sous une licence CC- BY en mettant en œuvre la Stratégie de non-cession des droits (SNCD), selon les modalités indiquées dans les conditions particulières de la décision ou convention de financement.
2. Déposer, au plus tard au moment de la publication, le texte intégral (manuscrit accepté pour publication ou version éditeur) dans l’archive ouverte HAL avec mention de la référence ANR du projet de recherche (ex : ANR-22-CE64-0001) dont elle est issue.
(source : https://anr.fr/fr/lanr/engagements/la-science-ouverte/)
Présentation du webinaire Comment préserver les droits d’auteur sur mes travaux de recherche ? (Udice – septembre 2023)
Webinaire Parlons Science ouverte #7 : du bon usage des licences dans le cadre du dépôt dans HAL (mai 2023) – support de présentation
Des bonnes pratiques pour atteindre 100 % de publications librement accessibles en 2030 (INRAe – avril 2023)
Publier un Data paper (CoopIST, CIRAD)
Les problématiques liées au coût des publications en Open Access (blog Science Ouverte de l’institut Pasteur – octobre 2022)
B!SON : le recommandeur futé de revues en libre accès (blog Science Ouverte de l’institut Pasteur – octobre 2022)
Comment partager des données associées à une publication ? (blog Science Ouverte de l’institut Pasteur – septembre 2022)
Mettre en œuvre la stratégie de non-cession des droits sur les publications scientifiques (MESR, Comité pour la science ouverte – juillet 2022)
Fiche synthétique « Publier en accès libre à INRAE, à quel coût ? » (INRAe – juin 2022)
Contributeurs, demandez CRediT ! Contributions des auteurs d’une publication (blog Science Ouverte de l’institut Pasteur – juin 2022)
Les articles exécutables (blog Science Ouverte de l’institut Pasteur – mai 2022)
Partager les données liées aux publications scientifiques – Guide pour les chercheurs (MESR, Comité pour la science ouverte – mars 2022)
Les Registered Reports (blog Science Ouverte de l’institut Pasteur – mars 2022)
Comment obtenir son manuscrit auteur accepté pour publication auprès de l’éditeur ? (blog Science Ouverte de l’institut Pasteur – février 2022)
Comment rédiger un Data Availability Statement pour son article ? (blog Science Ouverte de l’institut Pasteur – novembre 2021)
La voie diamant de l’Open Access (blog Science Ouverte de l’institut Pasteur – avril 2021)
La voie verte et la voie dorée de l’Open Access (blog Science Ouverte de l’institut Pasteur – mars 2021)
Outils
Télécharger OpenRefine et consulter la documentation sur le site officiel
Cet outil vous a été présenté par Sandra lors de la réunion du groupe de discussion analyse de données et bioinformatique du 18 janvier 2023 : présentation
Consulter un cours avec exercices sur l’utilisation d’OpenRefine
Voir les courtes vidéos tutoriels pour appréhender le logiciel OpenRefine (réalisation : Chloé Martin et Stefan Gaget)
Aspects juridiques / licences
Les données doivent être Ouvertes autant que possible et fermées autant que nécessaire
Vidéo : La minute Aspects Juridiques (Une vue d’ensemble des aspects juridiques & éthiques vu dans le contexte d’un cycle de données)
La diffusion des données de la recherche doit se faire accompagnée d’une licence de diffusion fixant les conditions et les limites de leur utilisation.
Voir la fiche CoopIST « Connaître et utiliser les licences Creative Commons »
Voir aussi le document Mettre en œuvre la stratégie de non-cession des droits sur les publications scientifiques – Guide pour les chercheuses et les chercheurs (juillet 2022) pour mettre une licence CC-BY sur vos publications
Documents institutionnels
Guide de bonnes pratiques sur la gestion des données de la recherche – version 2.0 – Janvier 2023
La gestion rigoureuse et cohérente des données de la recherche constitue aujourd’hui un enjeu de taille pour la production de nouvelles connaissances scientifiques. Guidés par le « Plan National pour la Science Ouverte », les différents organismes de recherche et les Instituts du CNRS s’emparent de ces questions primordiales pour participer à la réflexion et à la mise à dispositions des outils, méthodes et infrastructures répondant aux besoins des communautés scientifiques en matière de gestion et de partage des données scientifiques.
[ Consulter le guide ] [ Vidéo et supports de présentation de la visioconférence ] [ Webinaire de présentation du guide ]
- Ouvrir la science ! – Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation
- Partager les données liées aux publications scientifiques – Guide pour les chercheurs (mars 2022)
- Passeport pour la Science Ouverte – Guide pratique à l’usage des doctorantes et des doctorants (février 2024)
- Former à la science ouverte tout au long de la thèse – Guide à l’usage des écoles doctorales (octobre 2021)
- Mettre en œuvre la stratégie de non-cession des droits sur les publications scientifiques – Guide pour les chercheuses et les chercheurs (juillet 2022)
- Science ouverte – Codes et logiciels (août 2022)
- La Science Ouverte au CNRS
- Gestion et partage des données scientifiques à INRAE
- Des bonnes pratiques pour atteindre 100 % de publications librement accessibles en 2030 (avril 2023)
- Le principe d’un accès « aussi ouvert que possible, aussi fermé que nécessaire » (août 2020) et logigramme associé (mai 2022)
- Tout savoir sur le RGPD – Règlement Général sur la Protection des Données (février 2021)
- Ouverture des données de recherche. Guide d’analyse du cadre juridique en France (décembre 2017)
- Charte pour le libre accès aux publications et aux données (septembre 2016)
- Faire entrer la science ouverte dans son projet ANR : un guide pratique (GTSO Données de Couperin – février 2023)
- Incorporating open science into ANR projects: a practical guide (GTSO Données de Couperin – septembre 2023)
- Les entrepôts de données – Ou comment rendre les données trouvables, accessibles et réutilisables ?
- ISDM – Institut de science des données Montpellier (UM)
- Formation : DoRANum – Données de la Recherche : Apprentissage NUMérique à la gestion et au partage
- FAQ DoRANum sur les données de recherche
- Cat OPIDoR – wiki des services dédiés aux données de la recherche
- Protection des données personnelles (INRAE)
Autres ressources
Les données de la recherche sont un élément central de la fiabilité de celle-ci. Les gérer correctement est un gage de tranquillité pour soi et son équipe et, dans un cadre de partage des données, un gage de transparence de notre activité vis-à-vis de notre communauté et de la société en général. En miroir à ce cadre raisonnable, les injonctions plus ou moins top-down se multiplient et sont susceptibles de démotiver certains d’entre nous.
En appui à la discussion promue ici autour de la gestion des données au CBGP, je vous propose de vous présenter brièvement les grands enjeux de la gestion des données, du partage quand il est possible, et de brosser le panorama des grandes étapes qui jalonnent la vie des données depuis la conception de nos projets de recherche jusqu’à leur possible archivage.
L’objectif de la session est que chacun dans notre unité, impliqué dans la production et l’analyse de données scientifiques en particulier, soit sensibilisé à cette thématique et soit susceptible de réfléchir à l’intégration de bonnes pratiques dans ce domaine.
[ Présentation ] [ Visionnez la présentation ]
Connecteur Nextcloud – Data INRAE – démonstration (juin 2021)
[ Voir la présentation ] [ Nextcloud ]
Vers une recherche reproductible – Faire évoluer ses pratiques (2019)
Loïc Desquilbet, Sabrina Granger, Boris Hejblum, Arnaud Legrand, Pascal Pernot, Nicolas Rougier
Ce livre s’adresse à tout acteur de la recherche scientifique qui se pose des questions sur la recherche reproductible ou souhaite améliorer ses pratiques.
[ Lire l’ouvrage ]
Documentation CoopIST Cirad
- Rédiger un Plan de Gestion des Données
- Déposer des données de recherche dans un entrepôt
- Attribuer un identifiant numérique DOI à une plateforme scientifique
- Rédiger et publier un data paper dans une revue scientifique
- Diffuser immédiatement votre article ou son postprint
- Comprendre les modèles d’évaluation par les pairs d’un article scientifique
- Etre relecteur d’un article scientifique
- Choisir la revue où publier un article
- Testez l’arbre « Aide à la décision sur la diffusion des données de recherche »
Présentations de la journée calcul données (décembre 2020)
Les GIS FRANCE GRILLES et GRID’5000, le Groupe Calcul, le GDR RSD, GENCI et les partenaires d’EQUIP@MESO ont organisé ensemble les JCAD 2020, Journées Calcul Données : Rencontres scientifiques et techniques du calcul et des données. Elles se sont déroulées du 2 au 4 décembre 2020, en partenariat avec l’Université de Bourgogne (uB), l’Université de Franche-Comté (uFC), la Direction du Numérique (DNum) et le Mésocentre Bourgogne-Franche-Comté (MesoBFC).
– Présentation du Ministère, démarche de transformation numérique. Marie-Christine Plançon, Cheffe de projet modernisation des infrastructures et des services numériques pour le ministère. [pdf] [vidéo]
– MiCaDo Plan Données de la Recherche – Direction des Données Ouvertes de la Recherche (DDOR) du CNRS. Denis Veynante, Président du comité directeur de la Mission Calcul – données (MiCaDo). [pdf] [vidéo]
– GENCI, une TGIR active au niveau régional, national et européen. Stéphane Requena, Directeur innovation et technologie, GENCI. [pdf] [vidéo]
– EOSC en France: défis et opportunités. Volker Beckmann, Chargé de mission EOSC France pour le ministère. [pdf] [vidéo]
[ Voir toutes les présentations ]
Groupe de travail « Atelier Données »
Mission pour les Initiatives Transverses et Interdisciplinaires du CNRS
Le groupe de travail « Atelier Données », actuellement composé de représentants de plusieurs réseaux s’attache à construire une réflexion sur la gestion des données porteuse d’une vision « métiers » et « réseaux ».
A partir d’une réflexion de type « cycle de vie de la donnée », il se propose de cartographier les usages dans chaque réseau autour de la gestion de la donnée.
[ En savoir plus ] [ FAQ données de recherche ]
MIAPPE – Minimum Information About a Plant Phenotyping Experiment
MIAPPE is an open, community driven project to harmonize data from plant phenotyping experiments. MIAPPE comprises both a conceptual checklist of metadata required to adequately describe a plant phenotyping experiment, and software to validate, store and disseminate MIAPPE-compliant data. We welcome contributions from anyone interested in plant phenotyping data.
[ En savoir plus ]
Traçabilité des activités de recherche & gestion des connaissances
Guide pratique de mise en place
Mission pour les initiatives transverses et interdisciplinaires
[ Consulter le guide ] [ Réseau Qualité en Recherche ]
Documents produits par le GTSO-Données et le gTIGRE
Guides et ressources en ligne sur les données produits par le GT science ouverte de Couperin (GTSO-Données) et le GT inter établissements Grand Est (gTIGRE)
– la partie données du site science ouverte de Couperin (en cours d’enrichissement)
– la communauté Zenodo de Couperin sur laquelle sont déposés les documents produits notamment par le GTSO-Données
– la communauté Zenodo du gTIGRE
A qui appartiennent les données ? (Les Tuto@Mate)
Dans un projet de recherche avec plusieurs collaborateurs qu’ils soient chercheurs, IT ou doctorants, membres d’un laboratoire ou d’un consortium qui est propriétaire des données ? Quand un prestataire met à la disposition d’une équipe de recherche un ensemble de données (entretiens, traitement d’archives, texte numérisé, …) qui est propriétaire ? Selon quelles modalités puis-je partager ou diffuser mes données ?
[ En savoir plus ] [ Les Tuto@Mate ]
Qu’est-ce que le travail scientifique des données ? traduction du livre de Christine L. Borgman « Big data, little data, no data » (2015)
Archivage numérique des données de recherche
20 novembre 2019, Grenoble
Présentations : Les enjeux de l’archivage ; C’est quoi l’archivage ? ; Cycle de vie des données ; Textes réglementaires et durée de conservation ; …etc
[ Voir les vidéos & présentations ]
Pratiques de gestion des données de la recherche : une nécessaire acculturation des chercheurs aux enjeux de la science ouverte ?
Résultats d’une enquête exploratoire dans le bassin montpelliérain (juin 2018)
[ Lire l’article ]
Pour une politique publique de la donnée
23 décembre 2020
La France a besoin de plus d’ouverture, sous toutes ses formes, ouverture des données publiques (open data), mais aussi partage et accès sécurisé aux données sensibles. La France s’est placée à l’avant-garde européenne de la politique de la donnée et des codes sources depuis 2013, mais l’avance acquise est fragile, alors que le potentiel de connaissance et d’innovation dans ce domaine est immense. Ce rapport propose des réformes ambitieuses pour participer aux transformations en cours au niveau européen, et aussi un grand nombre de mesures qui sont des actions réalisables sous un an, pouvant avoir des effets importants pour l’avenir.
[ En savoir plus ] [ Lire le rapport ]