Conservation des données de la recherche (général)

La question de la conservation des données de la recherche est au cœur de la science ouverte. La mise en œuvre des principes FAIR qui repose sur l'accessibilité des données implique le stockage durable des données afin qu'elles soient faciles à trouver et accessibles. 

La conservation des données consiste à mettre en œuvre leur préservation, c’est donc l’action qui doit les maintenir hors de toute altération. – TLFi, V° Conservation. La notion ne doit pas être confondue avec celle d’archivage. L’archivage désigne l’action de service de documentation, c’est-à-dire le fait d’enregistrer les documents, les archives, et de les classer dans l’intérêt public. – Article L. 211-1 du Code du patrimoine et Article L. 211-2 du Code du patrimoine. C’est le contexte dans lequel le document ou la donnée est produit qui en fait une archive (voir Archivage des données).

La conservation des données de la recherche est ainsi devenue une norme, voire un principe juridique. Elle figure, en tout cas, en bonne place dans les textes relatif à l'intégrité scientifique. En effet, la vérification des résultats de la recherche à travers l'opération de vérification de leur reproductibilité suppose l'accès aux données collectées ou produites au cours d'une activité de recherche.

La conservation des données de la recherche remplit donc une double fonction : assurer l'intégrité matérielle des données mais aussi assurer l'intégrité intellectuelle et morale de la recherche.

I. Le principe de conservation dans la loi

A. Droit européen

1. La recommandation de la Commission européenne (2016)

La Recommandation de la Commission européenne de 2016 a pour objectif de proposer des solutions face au défi de l'exploitation du potentiel de données comme vecteur essentiel de la science ouverte et de la 4e révolution industrielle, défi souligné par la communauté scientifique et les gouvernements des pays de l'OCDE. La commission européenne fait le constat des cinq raisons pour lesquelles l'Europe n'exploite pas encore pleinement le potentiel des données : 

  • l'insuffisance d'accès libre des données de la recherche publique et l'insuffisance du partage des données générées et collectées par les entreprises ; 
  • le manque d'interopérabilité empêchant un partage efficient des données et une approche pluridisciplinaire et multi-acteurs ;
  • la fragmentation des infrastructures de données entre les domaines scientifiques et économique, les pays et modèles de gouvernance ;
  • la montée de la demande pour une infrastructure de calcul à haute performance (CHP) de rang mondial permettant de traiter les données dans les domaines de la science et de l'ingénierie ;
  • les producteurs et les utilisateurs de données scientifiques doivent être en mesure de réutiliser les données et d'utiliser les techniques d'analyse de pointe, telles que la fouille de textes et de données, supposant une révision de la législation de la protection des données personnelles et du droit d'auteur (exception de fouille de textes et de données).

La recommandation vise donc à développer un environnement fiable et ouvert permettant à la communauté scientifique de stocker, partager et réutiliser des données et résultats scientifiques, le European Open Science Cloud (nuage européen pour la science ouverte). Il s'agit de développer les capacités sous-jacentes de calcul intensif, la connectivité rapide et les solutions d’informatique en nuage à haute capacité dont elle a besoin grâce à une infrastructure de données européenne.

Pour atteindre ces objectifs, la commission recommande de faire en sorte que toutes les données scientifiques soient ouvertes par défaut, de sensibiliser à cette question et de changer les structures d'incitation des universités, de l'industrie et des services publiques à partager leurs données, d'élaborer des spécification concernant l'interopérabilité et le partage des données entre disciplines et infrastructures, de créer une structure de gouvernance paneuropéenne adaptée aux objectifs poursuivis de manière à fédérer les infrastructures de données scientifiques et à remédier au problème de leur fragmentation, de développer les services d’informatique en nuage pour la science ouverte, d'élargir la base d'utilisateurs scientifiques du nuage européen pour la science ouverte aux chercheurs et innovateurs de toutes les disciplines et de tous les États membres de l'Union.

- Commission européenne, Communication Initiative européenne sur l'informatique en nuage. Bâtir une économie compétitive des données et de la connaissance en Europe, 19 avril 2016, COM(2016) 178 final

2. La recommandation de la Commission européenne (2018)

La Recommandation de la Commission européenne de 2018 contient également des dispositions précises sur la question de la conservation, ou plus exactement du stockage, des données.

Elle rappelle, tout d'abord, qu'il est dans l'intérêt public de conserver les résultats de la recherche scientifique. La Commission européenne observe néanmoins que si les archives et bibliothèques ont en charge et la responsabilité de la conservation, le volume des résultats de recherche générés ne cesse d'augmenter. Elle encourage les États à établir ou renforcer les politiques de conservation et d'assurer un financement pérenne de la conservation des résultats, compte tenu de l'importance que revêt la conservation pour l'utilisation future des résultats de recherche (Considérant 7).

La recommandation consacre ensuite un article entier (art. 5) à la question de la conservation (qu'elle relie directement à celle de la réutilisation), et un autre (art. 6) à la question des infrastructures pour la science ouverte.

- Commission européenne, Communication sur l’accès et la préservation de l’information scientifique, 25 avril 2018, COM(2018) 2375 final

3. Le Règlement Horizon 2020

Le Règlement « Horizon 2020 » traitait de la question du stockage des données de la recherche afin d'atteindre les objectifs de science ouverte (ouverture des publications et des données).

Il convient donc de veiller à ce que les bénéficiaires de financements européens assurent un accès ouvert aux données de la recherche dans le respect du principe « aussi ouvert que possible, aussi fermé que nécessaire », tout en prévoyant la possibilité d’avoir des exceptions tenant compte des intérêts légitimes des bénéficiaires. Il convient notamment d’accorder une importance accrue à la gestion responsable des données de la recherche, qui devrait respecter les principes de données «faciles à trouver», «accessibles», «interopérables» et «réutilisables» (les principes «FAIR»), en particulier grâce à l’intégration des plans de gestion des données. Le cas échéant, les bénéficiaires devraient faire usage des possibilités offertes par le nuage européen pour la science ouverte (EOSC) et l’infrastructure pour les données européennes et adhérer à d’autres pratiques et principes relatifs à la science ouverte. 

Selon le règlement, la science ouverte, et notamment l’accès ouvert aux publications scientifiques et aux données de la recherche ainsi que la diffusion et l’exploitation optimales des connaissances, peuvent améliorer la qualité, l’impact et les bénéfices de la science. Elles peuvent également accélérer la progression des connaissances en les rendant plus fiables, plus efficaces et plus précises, en facilitant leur compréhension par la société et en les rendant plus réactives face aux défis sociétaux. 

Plus précisément, la question du stockage est abordée à l'article 39 qui prévoit que « le programme de travail peut prévoir, lorsque cela se justifie, des obligations supplémentaires concernant l’utilisation du nuage européen pour la science ouverte pour le stockage des données de la recherche et l’octroi de l’accès à ces données ». 

- Règlement 1290/2013 du Parlement européen et du Conseil du 11 décembre 2013 définissant les règles de participation au programme-cadre pour la recherche et l'innovation "Horizon 2020" (2014-2020) et les règles de diffusion des résultats et abrogeant le règlement (CE) n° 1906/2006

3. Le Règlement Horizon Europe

Le Règlement « Horizon Europe » de 2021 traite de la question de la durée de conservation des données pour les projets bénéficiant d'un financement de l'Union européenne. L'article 39 du règlement, dédié à l'exploitation et la diffusion des résultats de la recherche, affirme que le programme de travail peut prévoir des incitations ou des obligations supplémentaires aux fins de l'adoption de pratiques en matière de science ouverte. 

Il est dit également que les bénéficiaires du financement gèrent toutes les données de la recherche générées dans le cadre d'une action au titre du programme dans le respect des principes FAIR et conformément à la convention de subvention, et établissant un plan de gestion de données.

Enfin, le programme de travail peut prévoir, lorsque cela se justifie, des obligations supplémentaires concernant l'utilisation du nuage européen pour la science ouverte (EOSC) pour le stockage des données de la recherche et l'octroi de l'accès à ces données.

Si le champ d'application du règlement est restreint aux projets financées par l'Union européenne et si les dispositions ne contiennent qu'une faculté et non une obligation sur l'utilisation du nuage européen, la question du stockage est abordée et clairement reliée à la mise en œuvre des principes de science ouverte.

- Règlement 2021/695 du Parlement européen et du Conseil, 28 avril 2021, portant établissement du programme-cadre pour la recherche et l’innovation « Horizon Europe » et définissant ses règles de participation et de diffusion, et abrogeant les règlements (UE) n° 190/2013 et (UE) n° 1291/2013

B. Droit français

La loi de programmation pour la recherche (LPR) du 24 décembre 2020 a introduit, dans le livre II du code de la recherche dédié à l'exercice des activités de recherche, des dispositions relatives à l'intégrité scientifique et à la conservation des résultats de la recherche. Ces deux questions sont en effet intimement liées.

Activités de la recherche publique

L'obligation de conservation complète utilement les principe énoncés par l'article L. 112-1 du Code de la recherche qui fixe les objectifs de la recherche publique. Ces principes comprennent l'organisation de l'accès libre aux données scientifiques, accès qui permet de vérifier les résultats scientifiques en vertu du principe d'intégrité scientifique, mais qui ne peut être mis en œuvre qu'à condition que les données aient été conservées.

La recherche publique poursuit six objectifs :

  • Le développement et le progrès de la recherche dans tous les domaines de la connaissance ;
  • La valorisation des résultats de la recherche au service de la société, qui s'appuie sur l'innovation et le transfert de technologie ;
  • Le partage et la diffusion des connaissances scientifiques en donnant priorité aux formats libres d'accès ;
  • Le développement d'une capacité d'expertise et d'appui aux associations et fondations, reconnues d'utilité publique, et aux politiques publiques menées pour répondre aux défis sociétaux, aux besoins sociaux, économiques et du développement durable ;
  • La formation à la recherche et par la recherche ;
  • L'organisation de l'accès libre aux données scientifiques.

 - Article L. 112-1 du Code de la recherche

1. Le principe d'intégrité scientifique
  • Lexique : Intégrité scientifique

« Les travaux de recherche, notamment l'ensemble des activités de la recherche publique contribuant à ses objectifs mentionnés à l'article L. 112-1, respectent les exigences de l'intégrité scientifique visant à garantir leur caractère honnête et scientifiquement rigoureux et à consolider le lien de confiance avec la société.

L'intégrité scientifique contribue à garantir l'impartialité des recherches et l'objectivité de leurs résultats.

Les établissements publics contribuant au service public de la recherche et les fondations reconnues d'utilité publique ayant pour activité principale la recherche publique au sens du même article L. 112-1 offrent les conditions du respect des exigences de l'intégrité scientifique pour les activités et travaux menés en leur sein. Ils mettent en place les dispositifs nécessaires pour promouvoir les valeurs de l'intégrité scientifique et favoriser le respect de ses exigences ».

- Article L. 211-2, al. 1er et 2 du Code de la recherche

Fondée sur les seuls critères d'impartialité des recherches et d'objectivité des résultats, la définition de la notion d'intégrité scientifique a été complétée par la doctrine.

Voir, par exemple, la définition proposée par Etienne Vergès : « conduite scientifique conforme aux normes éthiques et déontologiques générales ou spéciales », in J. Larrieu (dir.), Qu’en est-il du droit de la recherche ?, Paris, LGDJ, 2009, p. 131.

Voir également celle proposée par Agnès Robin : « conduite d’une recherche scientifique conforme aux normes légales et déontologiques qui permettent de garantir la fiabilité des résultats scientifiques et ainsi d’instaurer un lien de confiance avec la société », in Droit des données de la recherche. Science ouverte, innovation, données publiques, Larcier, 2022, n° 430, p. 302.

L'article L. 211-2 du Code de la recherche a été complété par des dispositions règlementaires qui précisent la mise en œuvre du principe d'intégrité scientifique.

« Les établissements publics et fondations reconnues d'utilité publique mentionnés au troisième alinéa de l'article L. 211-2 : 
1° Veillent à ce que les travaux de recherche qu'ils conduisent ou auxquels ils participent respectent les exigences de l'intégrité scientifique ; 
2° Assurent la formation des personnels et des étudiants au respect de ces exigences ; 
3° Promeuvent la diffusion des publications en accès ouvert et la mise à disposition des méthodes, protocoles, données et codes sources associés aux résultats de la recherche ; 
(...)
5° Veillent à ce que tout signalement relatif à un éventuel manquement aux exigences de l'intégrité scientifique soit traité selon une procédure établie au regard des recommandations du Haut Conseil de l'évaluation de la recherche et de l'enseignement supérieur définies en application des dispositions de l'article L. 114-3-1 ».

- Article D. 211-2 du Code de la recherche

La mise en œuvre du principe d'intégrité scientifique est également précisée aux articles D. 211-3 et D. 211-4 du Code de la recherche. Pour davantage d'informations sur l'intégrité scientifique, voir le site de l'Office français de l'intégrité scientifique (OFIS).

2. Le principe de conservation

L'obligation de conservation est affirmée par l'article L. 211-2, al. 1er et 2 du Code de la recherche. Elle directement liée au principe d'intégrité scientifique dont elle constitue une condition de mise en œuvre.

« Sans préjudice des dispositions du code du patrimoine sur les archives publiques, [les établissements publics contribuant au service public de la recherche et les fondations reconnues d'utilité publique ayant pour activité principale la recherche publique] conservent les résultats bruts des travaux scientifiques réalisés en leur sein afin de permettre leur vérification ».

Plusieurs éléments composent cette obligation :

  • l'obligation de conservation incombe aux établissements contribuant au service public de la recherche et aux fondations reconnues d'utilité publique ayant pour activité principale la recherche publique ;
  • l'obligation de conservation concerne les résultats développés au sein des établissements ou fondations mentionnés ;
  • l'obligation consiste dans le fait de conserver les résultats bruts des travaux scientifiques ;
  • la conservation doit permettre de vérifier les résultats des travaux scientifiques ;
  • la conservation des archives publiques demeure effectuée conformément aux règles du Code du patrimoine.

L'article L. 211-2 du Code de la recherche a été complété par des dispositions règlementaires qui précisent la mise en œuvre du principe de conservation des résultats scientifiques.

Ainsi, les établissements et les fondations reconnues d'utilité publique

« 4° Définissent les conditions de conservation, de communication et de réutilisation des résultats bruts des travaux scientifiques menés en leur sein ».

Les textes ne contiennent en revanche aucune disposition relative à la durée de conservation des données de la recherche, sauf pour les données à caractère personnel. Ceci est lié au fait que la durée de conservation des données de la recherche dépend considérablement du type de recherche et de sa finalité et du type de données (toutes les données ne méritent pas nécessairement d'être conservées selon les mêmes durées).

Exemple des dispositions relatives au CNRS

Sur l'accès (et donc la conservation des résultats), le Code de la recherche précise les missions de certains organismes de recherche comme le CNRS qui peut 

« 13° De développer l'information scientifique et l'accès aux travaux et données de la recherche, en favorisant l'usage de la langue française ».

- Article R. 322-2 du Code de la recherche

II. Le principe de conservation dans les textes déontologiques

  • La Déclaration de Singapour de 2010 sur l’intégrité en recherche prévoit un principe de conservation des données : « les chercheurs doivent conserver les données brutes de manière transparente et précise de façon à permettre la vérification et la réplication de leurs travaux ». - 4ème principe de la Déclaration de Singapour (version en français).
  • Le Code de conduite européen pour l’intégrité en recherche (V. 2023) prévoit, dans la partie consacrée aux bonnes pratiques en matière de recherche, que « Les chercheurs, les institutions scientifiques et les établissements assurant une mission de recherche assurent de façon adéquate la gestion, la conservation et la préservation sécurisée de toutes les données, métadonnées, protocoles, codes, logiciels et de tous autres matériels de recherche pendant une période raisonnable et clairement définie ». – Article 2.5, alinéa 1er

Le Code de conduite européen inscrit l'obligation de conservation dans les principes d'intégrité scientifique déclinées sous la forme de « bonnes pratiques » qui concernent également la sécurisation et la gestion qui doivent, au même titre que la conservation, être assurées de manière adéquate, c'est-à-dire proportionnée et adaptée.

Le Code de conduite précise également, contrairement à la loi française qui ne vise que les « résultats bruts des travaux de recherche », les objets qui doivent être conservés. Il s'agit de tous les matériels de recherche, la liste de certains éléments comme les données, métadonnées, protocoles, codes, logiciels, n'étant qu'indicative.

Enfin, contrairement aux textes légaux français, les textes déontologiques traitent de la question de la durée de conservation des données de la recherche. 

La durée doit être :

  • raisonnable : l'emploi de l'adjectif signifie que la durée de ne peut être indéterminée, ni perpétuelle, ceci obligeant les chercheurs à déterminer, ou au moins à estimer, la durée nécessaire pour l'accomplissement des activités de recherche, compte tenu de la finalité de chaque projet. 
  • clairement définie : la définition de la durée permet ainsi de la rendre opposable à tous les partenaires d'une recherche. Si la recherche est partenariale (Public-Public ou Privé-Public), elle doit par principe faire l'objet d'une discussion (et donc d'une réflexion) et être mentionnée dans les accords qui lient les partenaires entre eux.

Initiatives pour la conservation des données de la recherche

Afin de répondre à l'exigence de conservation des données de la recherche, de nombreuses initiatives ont été développées par des infrastructures de recherche ou de données issues de :

Ces consortiums, souvent financés par des fonds publics, fournissent des solutions pour l’inventaire, la collecte, la numérisation, le traitement de la documentation, la mise à disposition, la conservation pérenne et la réanalyse des données.