Points saillants de l’US Data Citation Workshop « Developing Policy and Practices »

blog arrowPosté le: Sep 1, 2016

Billet de Chantel Ridsdale, DRC

L’atelier américain sur la citation des données ayant pour thème l’élaboration de politiques et de pratiques s’est déroulé le mardi 12 juillet 2016. Il était organisé par le U.S National Committee (USNC), le Committee on Data for Science and Technology (CODATA) et le groupe de travail du CODATA et de l’ICSTI sur la citation des données.

L’activité était destinée aux professionnels du domaine des données qui aspirent à une plus grande sensibilisation et préconisent l’élaboration de politiques et de pratiques pour la citation des données. Parmi les conférenciers qui se sont succédé durant la journée figuraient des éditeurs, des directeurs de collection, des gestionnaires de données, des organismes fédéraux et des auteurs. Des débats très intéressants, exprimant différents points de vue, en ont découlé. Il est possible de suivre le déroulement de l’atelier en continu ici.

Ce billet récapitule les principaux points examinés à l’atelier.

Quelle importance?

L’impact. Pour que le chercheur et la collectivité, en général, sachent si un jeu de données est utile ou pas à la société, les données en question doivent être citées, car cela permet d’établir comment on les réutilise. Auparavant cependant, il convient de répondre à quelques questions.

  • Quelles données réutilise-t-on?
  • Où utilise-t-on les données?
  • À quoi servent-elles?

S’il est impossible de répondre à ces questions, les pratiques et les politiques existantes ne sont pas quantifiables, ce qui atténue l’impact des données. Un représentant du Dryad Repository a déclaré que l’enjeu est de taille et, selon lui, les pratiques en la matière ne pourront devenir chose courante avant 2030 au plus tôt.

Les données sont un sujet d’actualité, car elles changent notre façon de voir les choses. Chaque institution, chaque organisation, chaque pays a un mandat, des objectifs et des politiques bien à eux pour ce qui est de la gestion des données. Il s’ensuit que la conformité, l’uniformisation et la mise en œuvre des meilleures pratiques deviennent une tâche colossale.

La collectivité de la citation des données

Les parties prenantes dans la citation des données sont aussi très variées, ce qui complique la tâche nettement plus qu’on l’avait cru au départ. Le CODATA est un comité scientifique interdisciplinaire du Conseil international pour la science. Son rôle consiste à améliorer les données dans tous les domaines de la science et de la technologie sur les plans que voici :

  • la qualité;
  • la fiabilité;
  • la gestion;
  • l’accessibilité.

Le CODATA favorise l’élaboration de politiques sur les données, la science des données et l’expansion des capacités dans ce domaine.

Planifier la gestion des données

La gestion des données (GD) est un sujet qui est revenu en permanence dans les discussions durant la journée. Les plans de GD exigés par les organismes subventionnaires préoccupent. On s’inquiète particulièrement du peu d’imputabilité et du manque de surveillance au niveau de la GD. D’aucuns ont suggéré que les organismes subventionnaires qui réclament de tels plans les publient eux-mêmes. De cette façon, les chercheurs sauraient clairement ce qu’on attend des résultats de leurs travaux, et les organismes subventionnaires pourraient intervenir si jamais leurs attentes ne sont pas respectées.

Le périodique renommé Nature actualise présentement un « énoncé sur la disponibilité des données » obligatoire qui exigera de l’auteur qu’il mette rapidement sa documentation, ses données, le code et les protocoles connexes à la disposition du lecteur sans contraintes excessives. L’approche adoptée par Nature fait exception à la règle, car la majorité des revues se contentent d’« encourager » les chercheurs à mettre leurs données à la disposition d’autrui.

Qui est qui?

Il y a tant d’identifiants « uniques » de nos jours (le chercheur, le document, l’institution, le jeu de données, et j’en passe) qu’ils constituent eux-mêmes un problème pour l’accessibilité et la citation. Quelle serait la meilleure façon d’ajouter un identifiant vraiment unique? Plusieurs conférenciers et membres de l’auditoire ont mentionné ORCID, approche qui semble rallier le plus de voix : identifier l’auteur des données ou le chercheur, puis l’associer aux données et aux résultats des travaux qu’il publie.

On a toutefois beaucoup parlé d’identifier les données plutôt que leur auteur ou le chercheur. Pour la plupart des participants, la seule approche réaliste consiste à utiliser les identifiants d’objet numérique (DOI). Dans ce cas, le versionnage pourrait poser un problème. Un point intéressant a été soulevé quand on a dit que les données devraient être perçues comme un flux et non comme des objets distincts.

Pratiques exemplaires pour le partage, la réutilisation et la citation des données

Depuis la diffusion de la note de service de l’U.S. Office of Science and Technology Policy (OSTP) en février 2013 et celle de l’énoncé de principes sur la gestion des données numériques par les trois organismes subventionnaires canadiens en juin 2016 devant faire office de lignes directrices pour les agences fédérales, il y a eu progression dans l’ouverture et l’accessibilité des données, ce qui a alimenté le débat sur la GD dans le milieu. Néanmoins, les principaux obstacles au niveau des données et des chercheurs demeurent le changement d’attitude et de culture qui s’impose, en raison de pratiques et de comportements ancrés depuis plus d’un millénaire.

Les pratiques exemplaires relatives à la gestion générale des données dont il a été question à l’atelier comprennent les suivantes :

  • fournir à l’utilisateur un outil ou une méthode pour créer les citations;
  • obtenir l’adhésion des organismes subventionnaires pour engendrer un élan plus cohérent;
  • dater les données afin d’en faciliter le versionnage;
  • inclure un répertoire électronique des chercheurs pour faciliter le lien entre l’auteur et l’utilisateur;
  • fournir un exemple de citation modèle avec le jeu de données;
  • établir les pratiques exemplaires et les faire accepter par les principales parties prenantes;
  • procurer à l’utilisateur un index des citations de données.

Récompenses et incitatifs

On estime que la manière la plus sûre d’amener les chercheurs à emboîter le pas et à changer d’attitude consiste à les inciter à le faire et à les récompenser. Pareille entreprise tient néanmoins plus du marathon que du sprint. On a commencé à parler de la sous-représentation des chercheurs n’appartenant pas à une université avant de se concentrer sur les difficultés qui entourent les politiques connexes, par exemple :

  • la définition variable de succès et de productivité selon la discipline;
  • les inégalités liées au sexe;
  • les compétences disponibles par rapport aux ressources;
  • les différents supports du mentorat et de la collaboration;
  • le rôle de ceux qui apportent une contribution aux données et la reproductibilité de ce rôle.

La question d’un changement de culture dans les institutions a été débattue en long et en large, ce qui a débouché sur la demande d’une autre expression pour désigner les postes de professeur menant à la permanence, dont le nombre ne cesse d’augmenter. La nécessité de modifier les exigences associées à la permanence pour refléter l’ouverture, le partage et la collaboration horizontale a aussi été abordée.

Examiner le problème des citations sous l’angle du cloisonnement ne donnera lieu à aucune solution. Pour que la situation évolue et qu’au bout du compte on réussisse à améliorer la citation des données, il faut collaborer et agir comme une véritable communauté.

Impliquez-vous

Les animateurs ont convié les participants qui souhaitent s’impliquer à être des leurs lors de la Semaine internationale des données qui aura lieu à Denver (Colorado), du 11 au 17 septembre  2016. Pour vous impliquer de manière informelle, vous trouverez quelques conversations dignes d’intérêt sur Twitter autour de la question. N’importe qui peut entrer dans la conversation en cherchant @dataparasite ou #Iamaresearchparasite.

 


abc