Aide à la saisie d'un PGD INRAE
Cette aide est également disponible dans DMP OPIDoR (onglet Informations générales, sélection des recommandations du plan : choisir INRAE).
Informations concernant le plan de gestion
- Personne responsable du PGD et Affiliation
Suivre la note de service NS 2020-10 du 01/01/2020 ou la charte des publications de l'Alliance nationale pour les sciences de la vie et de la santé - Version du PGD
Le PGD évolue au cours du projet. Pour H2020 par exemple, la 1ère version est à remettre au cours des 6 premiers mois puis des versions plus élaborées sont apportées, au minimum à mi-parcours puis lorsque les données élaborées et leur utilisation potentielle sont bien identifiées par le consortium. - Identifiant du PGD
Si le PGD est déposé avec les données du projet dans Data INRAE, l'espace institutionnel INRAE de l'entrepôt Recherche Data Gouv, un DOI lui sera automatiquement attribué. Sinon, vous pouvez demander un DOI au service support doi@inrae.fr. - Licence du PGD
Voir Choisir une licence - Documents en lien avec le PGD
Exemple : le plan de gestion des données d'une infrastructure qui sera utilisée au cours du projet.
Informations sur le projet de recherche
Pour les projets européens on pourra se reporter aux informations telles qu'elles apparaissent dans Cordis
- Titre du projet de recherche
Si le projet correspond à un financement lié à un appel à projet, nom du projet tel qu'il apparait dans la réponse à l'appel à projet - Financeur(s) du projet
Le répertoire CrossRef des financeurs peut être utilisé pour indiquer le libellé et l'identifiant DOI attribués à un financeur par CrossRef (exemple European Commission http://dx.doi.org/10.13039/501100000780 pour la Commission Européenne). - Coordinateur du projet
Suivre la note de service NS 2020-10 du 01/01/2020 fixant les modalités de signature monoligne des affiliations ou la charte des publications de l'Alliance nationale pour les sciences de la vie et de la santé - Institution leader du projet
Nom de l'institution tel qu'il est connu par le financeur. On pourra se reporter à la base de données GRID Global Research Identifier Database ou pour la France au RNSR Répertoire National des Structures de Recherche
Présentation générale des données
Concerne les données (au sens large : jeux de données, logiciels, workflows, échantillons, protocoles…) générées par le projet et celles qui sont produites par un tiers et utilisées dans le projet.
L'ensemble peut être présenté sous forme d'un tableau (une ligne par jeu de données…) qui sera repris dans les chapitres suivants.
- Type, nature, format
Utiliser le référentiel schéma DataCite 4.4. pour le type (voir https://dmp.opidor.fr/static/research_output_types). La nature des données précise le type (exemple : Analyses génomiques, Images satellites, Relevés de températures…) - Identifiant pérenne
L'identifiant est souvent affecté aux données au moment de leur dépôt dans un entrepôt.
Organisation et documentation des données
- Quels méthodes et outils sont utilisés pour acquérir et traiter les données ? Précisez les différents formats dans lesquels les données seront disponibles aux différentes phases de la recherche.
Illustrer éventuellement avec un schéma des processus ou un lien vers un schéma existant (et accessible).
Privilégier (ou faire des conversions vers) des formats non propriétaires et pérennes. Voir :- Choix des formats de fichier
- FACILE - Service de validation de formats du CINES
- Documentation associée aux données
La documentation accompagnant les données apporte aux utilisateurs les informations nécessaires à un bon usage et une bonne interprétation des données. A minima, un fichier de type “lisez-moi” peut être rédigé pour rassembler les informations de base sur les données (nom de la source, format du fichier, identifiant, description du contenu…).
Indiquer également les publications associées aux jeux de données.
Voir le guide : Fuchs, S., & Kuusniemi, M. E. (2018). Making a research project understandable—Guide for data documentation. https://doi.org/10.5281/zenodo.1684941 - Quels types de métadonnées seront produits pour accompagner les données ? Quels standards ou taxonomies seront utilisés pour décrire les données ?
Les métadonnées décrivent les données brutes comme les données délivrables. Elles permettent de comprendre les données, d’en connaître l’origine. Des métadonnées de qualité sont essentielles pour faciliter l’utilisation des données. Elles sont souvent la seule forme de communication entre les étapes de production des données et d’analyse secondaire. Elles doivent donc être compréhensibles et fournir toutes les informations utiles à l’analyse et à la réutilisation des données.
Utiliser des standards de métadonnées. - Comment les métadonnées seront elles produites ?
Il existe des outils pour produire ces métadonnées. - Comment les fichiers de données sont-ils gérés et organisés au cours du projet : contrôle des versions, conventions de nommage des fichiers, organisation des fichiers… ?
Séparer les données brutes des données traitées, des délivrables et des programmes de traitement.
Définir des règles d’organisation et de nommage des fichiers de données. En fournir éventuellement une représentation graphique.
Ne pas modifier les données brutes : toute modification doit entraîner un changement de nom des fichiers.
Voir Nommage et organisation des fichiers de données. - Quelle est la procédure de contrôle qualité des données ?
Exemple : Des procédures qualité ISO-9001 existent pour définir le protocole d'intégration des données. L'outillage d'intégration (ETL, SGBDR) garantit l'intégrité des données.
Droits de propriété intellectuelle
- Qui détiendra les droits sur les données et les autres informations créées lors du projet ?
Faire attention quand un partenaire privé amène des données dans le projet. - Du matériel protégé par des droits spécifiques sera-t-il utilisé au cours du projet ? Dans ce cas, qui s'occupe des formalités à accomplir, obtient les autorisations d’utilisation et de diffusion éventuelle…
Les droits sur les données et le matériel sont précisés dans l'accord de consortium quand il existe, en relation avec les services juridiques des partenaires du projet. La négociation des termes de l'accord en amont du projet et du plan de gestion est essentielle car elle conditionne en partie les modalités de partage et de diffusion ultérieure des données et du matériel. S'il n'y a pas d'accord de consortium, préciser les droits dans ce document et prévoir une réunion sur le sujet avec tous les partenaires.
Se référer au guide juridique : Becard, N., Castets-Renard, C., Chassang, G., Dantant, M., Freyt-Caffin, L., Gandon, N., Martin, C., Martelletti, A., Mendoza-Caminade, A., Morcrette, N., Neirac, C. (2017). Ouverture des données de la recherche. Guide d'analyse du cadre juridique en France. 45 p., DOI : 10.15454/1.481273124091092E12.
Attention aux droits spécifiques attachés à certains matériels (exemple de l'accès au partage des avantages, etc.) et aux formalités spécifiques (exemple du CODECOH pour les échantillons humains). Un accord de transfert de matériel (Material Transfer Agreement) a t’il été prévu ?
Même dans le cas où les données ne sont pas protégées par un droit (droit d’auteur, droit sui generis du producteur de base de données), il est recommandé de les diffuser accompagnées d’un contrat de licence : Choisir une licence.
Sensibilité des données
Répertorier ici les jeux de données susceptibles d'échapper au principe de diffusion : données scientifiques protégées ou à risques (sécurité état, sécurité des population, etc.), données personnelles et données de santé, données liées à l'intelligence économique (secret industriel et commercial), données soumises au secret statistique, etc.
Evaluer le niveau de sensibilité des données : Sensibilité de l'information : Outil d'aide à l'évaluation du niveau de sensibilité de l'information (Intranet INRAE).
A partir du niveau "confidentiel", faire une analyse de risques pour identifier les mesures de sécurité à mettre en œuvre.
Service support, contacter : analyse-risque-ssi@inrae.fr
Lorsque des données à caractère personnel sont produites ou traitées, se mettre en conformité avec le RGPD. Utiliser l'Outil d'aide aux formalités (Intranet INRAE) pour déterminer, via un questionnaire, les formalités obligatoires à accomplir pour mettre votre projet/traitement en conformité avec la règlementation relative aux données personnelles.
Contact Référent intégrité scientifique INRAE : Referent-integritescientifique@inrae.fr
Voir aussi :
- Becard, N., Castets-Renard, C., Chassang, G., Courtois, M.-A., Dantant, M., Gandon, N., Martin, C., Martelletti, A., Mendoza-Caminade, A., Morcrette, N., Neirac, C. (2016). Ouverture des données de la recherche. Guide d'analyse du cadre juridique en France. DOI : 10.15454/1.481273124091092E12
- L'éthique dans Horizon 2020 et le tableau d’auto-évaluation : H2020 Programme Guidance: How to complete your ethics self-assessment
- Nguyen, B. (2015). Techniques d’anonymisation. Statistique et Société, 2(4)
- Identification du niveau de sensibilité des jeux de données
Choisir parmi : Public, Diffusion limitée, Confidentiel ou Diffusion restreinte - Quelles sont les mesures prises et les normes auxquelles il est nécessaire de se conformer pour garantir la sécurité des données sensibles ?
Les règles de confidentialité doivent être écrites et diffusées auprès des utilisateurs.
Une charte peut éventuellement être imposée engageant l’utilisateur à respecter ces règles. Voir la charte de déontologie INRA.
Exemple : Consentement éclairé des participants, sécurité des serveurs (ISO 27001), chiffrement des documents, etc.
S'il y a des données à caractère personnel, quelles sont les mesures envisagées pour les protéger au cours du projet ou dans le cadre d'une réutilisation ?
Exemple : Anonymisation, pseudonymisation, signature d'un accord de confidentialité, etc.
Stockage et sauvegarde des données au cours du projet
Voir Stocker les données et Cybersécurité : Les acteurs.
Pour vous accompagner : contacter votre Personne Ressource Informatique ou service informatique.
- Les systèmes d'information utilisés ont-ils fait l'objet d'une analyse de risques ou d'une homologation ?
Oui / Non - Quels types de supports physiques sont utilisés pour stocker les données pendant le projet ?
Exemple : Sur un PC, un serveur dans un bureau, dans une salle machine, dans un datacenter, dans une offre de service type cloud ; Terminal mobile de saisie (tablette, smartphone …) ; capteur (sonde, automate …) ; ordinateur (portable, fixe) ; clé USB ; papier ; espace de stockage sur serveur ; cloud… - Quelles sont les mesures de sécurité mises en place lors des étapes de transfert des données dans le projet ?
Exemple : Transferts physiques (clé USB, disque dur externe…) : chiffrement ; Transferts réseau (mail, sftp, https …) : chiffrement et utilisation de protocoles sécurisé. - Quelle est la volumétrie prévisionnelle des données ?
En mesure de stockage. Elle pourra être réévaluée au cours du projet. - Où sont localisées géographiquement les données ?
Exemple : En France, dans l'UE, hors UE, ne sait pas (cloud sans précision de stockage géographique)…
A partir du niveau de sensibilité "Confidentiel", il est recommandé d'héberger les données dans l'Union Européenne. - L'entité hébergeant physiquement les données a-t-elle une politique de sécurité de l'information et a-t-elle un plan d'assurance sécurité ?
La Politique Sécurité des Systèmes d’Information (PSSI) est un ensemble de règles de sécurité faisant référence pour l'entité considérée.
Quand l'hébergement est interne à INRAE : c'est la PSSI INRAE qui s'applique. Dans les autres cas, demander la politique de sécurité et le plan d'assurance sécurité du partenaire. - Sécurité - Confidentialité : les données feront-elles l’objet d’échange ou de partage avec de tiers acteurs ?
Confidentialité : propriété selon laquelle l’information n’est pas rendue disponible ni divulguée à des personnes, des entités ou des processus non autorisés (ISO 27000).
Voir aussi "Renseignements confidentiels" sur le glossaire Research Data Canada (RDC).
Exemple : Les données collectées seront partagées avec le Groupe de recherche […] de l’Université X… en charge de la thématique Y. - Comment sont déterminés les droits d'accès aux données pendant les recherches ?
Gestion des accès : Il convient que les propriétaires des actifs déterminent des règles de contrôle d’accès, des droits d’accès et des restrictions d’accès appropriés aux fonctions spécifiques de l’utilisateur des actifs. Les contrôles d’accès sont à la fois logiques et physiques (ISO 27002).
Exemple : Politique de contrôle d'accès ; convention entre partenaires établie ; processus formalisé ; demande d'autorisation d'accès ponctuelle… - Sécurité - Intégrité - Tracabilité : Quelles sont les mesures de protection mises en œuvre pour suivre la production et l'analyse des données au cours du projet ?
Intégrité : propriété d’exactitude et de complétude (ISO 27000). Les données doivent être celles que l'on attend, et ne doivent pas être altérées de façon fortuite, illicite ou malveillante. En clair, les éléments considérés doivent être exacts et complets. (Wikipédia juin 2016).
Exemple : Cahiers de laboratoire, protocoles de recherche, registres de consignation, horodatage des données et résultats, authentification personnelle sur les outils, etc.
Partage des données à l'issue du projet
Les données peuvent être déposées un entrepôt de confiance thématique ou institutionnel (pour INRAE : Data INRAE).
Si les données sont mises à disposition des utilisateurs via un site web dédié créé et maintenu par l’équipe de recherche il est recommandé de prévoir de stocker les données dans un entrepôt de confiance à l'issue du projet.
Si les données ne sont pas libres d’accès préciser pourquoi (raisons éthiques, données confidentielles ou personnelles, propriété intellectuelle, commerciale, raisons de sécurité…).
Si les données ne sont pas partagées ou préservées, indiquer comment les résultats pourraient être validés.
Si une période d'exclusivité d'accès aux données réservée au producteur est nécessaire (par exemple pour la valorisation scientifique des données) indiquer sa durée (notion d’embargo : conservation avec dissémination différée. Le producteur des données dépose ses données dans un entrepôt public mais celles-ci ne seront accessibles qu’après une période définie). Indiquer à partir de quand les données seront-elles accessibles publiquement.
Pour connaître les cas où la loi ne permet pas le partage des données ainsi que les exceptions à l’obligation d’ouverture des données, voir :
- le cadre juridique du partage des données.
- le logigramme Ouverture des données : Aussi ouvert que possible, aussi fermé que nécessaire ;
- la fiche technique « Rôles et responsabilités » : Ouverture des données, partage limité ou fermeture ?.
- Y a t’il une obligation de partage (ou à l’inverse une interdiction ou une restriction) ?
- Quelles données seront partagées à l’issue du projet ?
Si toutes les données ne sont pas disponibles de la même façon, ou en même temps, le préciser. - Quelles sont les réutilisations potentielles de ces données ?
- La lecture des données nécessite-t-elle le recours à un logiciel ou un outil spécifique ? Si oui, lequel ?
- Comment les données seront-elles partagées ?
Comment les données sont-elles rendues accessibles, par exemple : dépôt dans un entrepôt. Le portail Data INRAE peut accueillir les jeux de données INRAE. - Comment les données seront-elles partagées ?
- Avec qui ? sous quelle licence ?
Procédure d’accès : ouverture à tous ou à un groupe spécifique, type de contrôle.
Voir : Choisir une licence. - A partir de quand ?
A partir de quand les données seront-elles accessibles publiquement ? Si une période d'exclusivité d'accès aux données réservée au producteur est nécessaire (par exemple pour la valorisation scientifique des données) indiquer sa durée. - Pendant combien de temps ?
S'assurer que les métadonnées seront accessibles même si les données ne le sont plus (par exemple en déposant dans un entrepôt de confiance, en identifiant les données par un DOI...).
Notion d’embargo : conservation avec dissémination différée. Le producteur des données dépose ses données dans un entrepôt public mais celles-ci ne seront accessibles qu’après une période définie. - Les données seront-elles identifiées par un identifiant pérenne (DOI ou autre) ?
- Quel est l'organisme qui se chargera de la demande d'identifiant dans le cas de projets multi-partenaires ?
Si INRAE fait se charge de la demande de DOI, vous pouvez utiliser le service d'attribution de DOI d'INRAE. A noter qu'un DOI est automatiquement attribué aux données déposées dans l'entrepôt Data INRAE.
Archivage et conservation des données après la fin du projet
Toutes les données produites par un projet de recherche n’ont pas un intérêt à être conservées. Les données peuvent être conservées si elles ont une valeur juridique, scientifique ou patrimoniale et détruites dans le cas contraire.
Pendant la durée du projet puis entre 5 et 10 ans après la fin de celui-ci, les données à conserver sont notamment celles permettant la validation des résultats et celles ayant une valeur de preuve ou un potentiel de réutilisation.
Au-delà de cette période les questions suivantes peuvent être posées afin d’envisager une conservation plus longue : les données sont-elles reproductibles ? A quel coût ? Pourront-elles faire l’objet de traitements complémentaires ? Peuvent-elles être exploitées ultérieurement pour d’autres usages? Quelles seraient les conséquences d’une perte des données ?
La pérennisation numérique permet de faire face à la perte d’informations d’identification ainsi qu’à l’obsolescence des formats, des supports et des logiciels. Elle consiste à identifier et à conserver des documents et des données pour les rendre accessibles sur le moyen (10 ans et plus) et le long terme (50 ans et plus). Pour y parvenir, les documents et les données doivent être décrits grâce à des métadonnées, enregistrés dans des formats pérennes et sélectionnés pour leur intérêt juridique, scientifique ou historique.
Contact : archives@inrae.fr
- Quelles sont les données à conserver sur le moyen ou le long terme et quelles sont les données à détruire ?
Toutes les données élaborées et dérivées sont conservées à long terme ainsi que les données brutes utiles à la validation des résultats publiés ou à une exploitation ultérieure.
Exemple: pour les données de phénotypages, on conserve les données brutes et un sous ensemble de données élaborées répondant à une question scientifique - Sur quelle plateforme d'archivage pérenne seront archivées les données à conserver sur le long terme ? Sinon, quelles procédures seront mises en place pour la conservation à long terme ?
Il s'agit ici de plateformes d'archivage pérennes destinées à pérenniser les données, comme le C.I.N.E.S. Les entrepôts de données ne possèdent, à quelques exceptions près, pas cette possibilité. - Quelle est la durée de conservation des données ?
Cette durée est variable et peut aller de quelques années à l'éternité. Certaines données sont à conserver quelques années après la fin du projet puis peuvent être détruites d'autres sont à conserver pour des dizaines d'années. - Quel sera le volume de ces données ?
- Qui sera responsable de la conservation à long terme ?
Nommer un contact individuel, a minima la personne responsable de la rédaction du plan de gestion et le(s) gestionnaire(s) des données. - Quelles garanties de financements couvriront les coûts associés à la conservation à long terme ?
Pour estimer le coût de la gestion des données, voir :
Exemple de rôles pouvant être identifiés dans les différentes parties d'un PGD
- Coordinateur du projet
- Responsable du plan
- Personne contact pour les données
- Responsables de la production ou de la collecte des données
- Responsables de la documentation des données
- Responsables de la qualité des données
- Responsables de la protection des données
- Responsables juridiques
- Responsables des questions éthiques
- Responsables du traitement et de l’analyse des données
- Responsables du stockage des données
- Personne en charge de la gestion du stockage des données
- Responsables du dépôt et de la diffusion des données
- Responsables de la conservation à long terme des données