iReceptor Gateway : les données ouvertes FAIR, l’interopérabilité et la curation des données favorisent une réaction rapide à la COVID-19

blog arrowPosté le: Août 17, 2020

Par Robyn Nicholson, Stagiare, and Mark Leggott, Directeur exéctuif

Tandis que les chercheurs du monde entier multiplient inlassablement leurs efforts pour juguler la pandémie, pouvoir accéder rapidement et librement aux données dignes de foi gardées dans des dépôts fiables devient plus important que jamais. Ainsi en va-t-il des recherches qui visent à élucider la réaction immunitaire à la maladie, car elles ont gonflé la demande de données ultra spécialisées. Il suffit de songer aux travaux sur les origines moléculaires de cette réaction immune dans le contexte du génome de l’individu (c’est-à-dire, de l’ensemble de ses gènes), science baptisée « immunogénomique ». Pour concevoir les moyens qui serviront à diagnostiquer ou à soigner le cancer, les infections ou les maladies auto-immunes, il est impérieux de comprendre l’auto-immunité. L’immunogénomique fera progresser la médecine pour aboutir à de meilleurs soins.

Les séquences issues du répertoire de récepteurs immuns adaptatifs (AIRR-seq, en anglais) ne cessent de gagner en importance dans la course au développement de nouvelles immunothérapies. Ces données génomiques apparaissent dans le répertoire AIRR-seq, qui regroupe les données sur les récepteurs des anticorps (lymphocytes B et T) de l’hôte, une masse incroyablement variée de molécules capables de détecter les agents pathogènes, y compris ceux d’évolution récente comme le nouveau coronavirus, puis de les marquer en vue de leur destruction. Le répertoire AIRR-seq s’avère extrêmement prometteur en tant qu’outil pour nous aider à comprendre la dynamique des réactions immunes en vaccinologie ainsi que la biologie des maladies infectieuses, de l’auto-immunité et du cancer (Antibody Society). Il contribuera aussi à faire progresser rapidement les techniques de séquençage et enrichira notre savoir en la matière. En dépit de leur importance, les données AIRR-seq sont aussi d’une très grande complexité. Pour que les chercheurs y aient accès plus facilement, on a donc besoin d’outils et de services spécialisés.

Parmi les ressources sans lesquelles ces données cruciales en immunogénétique ne pourraient être consultées figure iReceptor Gateway, plateforme logicielle qui en facilite la curation, l’analyse et le partage entre les innombrables laboratoires et institutions de la planète. Le projet iReceptor, qui a vu le jour à l’Université Simon Fraser (SFU), a d’abord bénéficié d’un financement dans le cadre du programme Logiciels de recherche de CANARIE. Plus récemment, le projet a profité d’une aide supplémentaire aux termes du programme Gestion des données de recherche (GDR) du même organisme, qui subventionne le développement de logiciels qui amèneront les chercheurs canadiens à épouser les pratiques exemplaires en GDR. Le soutien financier dispensé par CANARIE a permis à l’équipe du projet iReceptor d’obtenir une subvention de la FCI dans le cadre de son Initiative sur la cyberinfrastructure en 2016, ainsi qu’une seconde, des IRSC et du programme-cadre Horizon 2020 de l’UE, pour la collaboration en recherche avec 19 institutions participantes dans neuf pays.

iReceptor Gateway et le dépôt de données sur la COVID-19

iReceptor Gateway intègre d’importants dépôts de données AIRR-seq répartis ici et là en les connectant pour en faire un AIRR Data Commons, c’est-à-dire un collectif de dépôts qui autorisera la recherche d’informations sur les activités entreprises dans une multitude de projets, de laboratoires et d’institutions (What is iReceptor?). La plateforme adhère aux normes de partage et d’interopérabilité des données élaborées par l’Adaptive Immune Receptor Repertoire (AIRR) Community, et a pour objectif d’aider les chercheurs à bonifier les résultats de leurs travaux en partageant leurs données avec leurs homologues. La communauté AIRR, qui fait partie de The Antibody Society, est un regroupement d’immunologistes, d’immunogénéticiens et d’informaticiens qui s’est donné pour tâche de faciliter le partage des données par le biais de l’AIRR Data Commons. iReceptor est aussi l’un des principaux membres de l’iReceptor Plus Consortium, association internationale qui souhaite promouvoir le stockage, l’intégration et un partage raisonné des données sur l’immunologie humaine à des fins cliniques et scientifiques (iReceptor Plus, Overview).

Dernièrement, le projet iReceptor a obtenu une aide financière lors du deuxième appel à projets du programme GDR de CANARIE, qui avait pour thème l’évolution des plateformes, des dépôts de données et des services de GDR existants en vue d’en rehausser l’interopérabilité aux échelons national et international. Il y a peu, l’équipe du projet iReceptor inaugurait un dépôt de données sur la COVID-19 qui, dit-on, héberge maintenant au-delà de 180 millions de données AIRR-seq issues de huit études sur des personnes atteintes par le nouveau coronavirus (Query for “COVID-19”, 5 août 2020). Grâce à cette plateforme, les chercheurs peuvent comparer les données sur la COVID-19 du dépôt aux quelque 2,7 milliards de séquences sur les récepteurs immuns associés à d’autres maladies infectieuses, au cancer, aux maladies auto-immunes et aux témoins en bonne santé.

Le dépôt de données sur la COVID-19 a accru de manière magistrale la visibilité et l’usage de la plateforme iReceptor, si bien qu’au début de juillet 2020, on enregistrait plus de nouveaux utilisateurs qu’on le fait normalement en six mois. La popularité du projet souligne le succès remarquable de la plateforme, mais aussi l’impact des logiciels conçus intelligemment, du libre partage des données et de ce qu’il est possible de réaliser quand il y a interopérabilité entre les résultats scientifiques et l’infrastructure qui s’y rattache, donc qu’il est possible d’y faire référence ainsi que d’établir des liens entre eux.

Une étude récente sur le séquençage de la prochaine génération des récepteurs des lymphocytes B et T chez les personnes atteintes de la COVID-19 citait en toutes lettres iReceptor Gateway, qualifiant la passerelle de dépôt de données mis à jour de façon dynamique et accessible publiquement pour un usage scientifique. Selon cette étude, la plateforme permet aux chercheurs, quel que soit leur champ de spécialisation, de vérifier leurs hypothèses grâce à un jeu de données grandissant (Schultheiß et al., 2020). Cette citation n’a pas fait que concourir à la popularité soudaine d’iReceptor : elle illustre l’impact des capacités de la plateforme.

Importance des principes FAIR et de la curation des données

Un aspect important des fonctionnalités d’iReceptor et, à dire vrai, de la plateforme de n’importe quel dépôt de données spécifique à un domaine, est l’adhésion aux principes FAIR, à laquelle doit s’ajouter une curation des données efficace. Comme on peut le lire sur le site d’iReceptor, sans curation, les données scientifiques ne pourront être découvertes, elles ne seront ni accessibles, ni interopérables, ni réutilisables (Findable, Accessible, Interoperable, Reusable – FAIR) (iReceptor, Data Curation). Les études sur les données AIRR-seq sont souvent variées et complexes, ce qui exige une connaissance approfondie du domaine lors de la curation.

Le tableau ci-dessous résume l’évolution de la plateforme iReceptor et les perfectionnements qu’on continue d’y apporter grâce aux fonds de CANARIE, afin de mieux appuyer les buts fondamentaux des principes FAIR. Cette plateforme illustre à merveille la manière dont ces principes s’entrecoupent lors du développement d’un logiciel (Toward FAIR principles for research software). La communauté AIRR internationale a elle aussi mis de l’avant un processus ouvert pour définir et de maintenir des normes connexes, en harmonie avec celles d’autres groupes et efforts de normalisation analogues (par ex., GA4GH, RDA, et IUIS).

Élément FAIRApplication dans iReceptor
F1 : Les (méta)données sont assorties d’un identifiant persistant et unique à l’échelle internationale.Les normes AIRR renvoient à des identifiants externes pour des champs de métadonnées précis. Ces identifiants sont habituellement attribués à des fournisseurs bien connus (par ex., identifiant unique attribué à l’étude par l’International Nucleotide Sequence Database Collaboration ou au DOI de la publication. Les métadonnées internes sont elles aussi assorties d’un identifiant unique qui figure dans le AIRR Data Commons. La communauté AIRR s’efforce présentement de développer un système international d’identifiants uniques qui s’appliquera aux entités conservées dans les dépôts de l’AIRR Data Commons.
F2 : Les données sont décrites au moyen de métadonnées riches. La norme MiAIRR décrit le jeu de données minimal associé à une étude; le schéma AIRR en énumère les métadonnées. On trouvera une description de ces deux éléments dans la documentation pertinente.
F3 : Les métadonnées précisent l’identifiant des données.Les métadonnées AIRR comprennent une série d’identifiants uniques (étude, publication, espèce, maladie, nature de la recherche, tissu, liens ontologiques CURIE et autres identifiants externes).
F4 : Les (méta)données sont enregistrées et indexées dans une ressource consultable. iReceptor Gateway propose des fonctions de recherche simples et avancées pour plusieurs des dépôts externes qui y sont greffés au moyen d’une API standard.
A1 : Les (méta)données sont repérables par leur identifiant au moyen d’un protocole de communication normalisé.iReceptor Gateway associe un identifiant réutilisable à la recherche (qu’on peut marquer d’un signet afin de la retrouver plus tard) et conserve les métadonnées individuelles.
A1.1 : Le protocole est ouvert, gratuit et utilisable de manière universelle.Toutes les normes de la communauté AIRR sont ouvertes et accessibles.
A1.2 : Le protocole permet une procédure d’authentification et d’autorisation lorsque le besoin s’en fait sentir. iReceptor Gateway exige l’ouverture d’une séance et utilise Tapis comme fournisseur d’identité ainsi que OAuth2.
A2 : Les métadonnées sont accessibles, même quand les données ne le sont plus.Les métadonnées des dépôts d’iReceptor sont enregistrés par FAIRsharing.org à partir du DOI https://fairsharing.org/biodbcore-000974/. Les métadonnées de chaque dépôt sont ouvertes et accessibles grâce à l’AIRR Data Commons API.
I1 : Les (méta)données utilisent un langage formel, accessible, partagé et applicable globalement aux fins de représentation de la connaissance. La norme MiAIRR décrit le jeu de données minimal associé à une étude; le schéma AIRR en énumère les métadonnées. On trouvera une description de ces deux éléments dans la documentation pertinente.
I2 : Les (méta)données utilisent des vocabulaires qui adhèrent aux principes FAIR. Les normes de la communauté AIRR s’appuient sur les principes FAIR (The ADC API).
I3 : Les (méta)données comprennent des références qualifiées aux autres (méta)données.Le schéma AIRR et le registre d’objets AIRR canonique attribuent un identifiant unique à chaque résultat associé à une étude.
R1 : Les méta(données) ont une pluralité d’attributs précis et pertinents.Les normes AIRR et MiAIRR constituent un riche ensemble de métadonnées et de champs décrivant les différents aspects de l’étude.
R2 : Les (méta)données sont diffusées selon une licence d’utilisation claire et accessible. L’API de recherche de l’AIRR Data Commons comporte un attribut « licence » dans la réponse obtenue par Internet. Elle inclut donc un mécanisme permettant aux dépôts de signaler la licence d’exploitation des données.
R3 : Les (méta)données sont associées à leur provenance. Les dépôts d’iReceptor donnent des renseignements détaillés sur la provenance des données qu’ils renferment.
R4 : Les (méta)données se conforment aux normes de leurs communautés respectives. Le schéma AIRR et les schémas qui s’y associent, ainsi que la documentation pertinente, recourent à la licence Attribution 4.0 International du Creative Commons.

La plateforme iReceptor et la nature complexe des données immunogénomiques montrent aussi que la curation des données exige souvent une connaissance approfondie du domaine. Certaines compétences sont requises pour que les pratiques exemplaires en GDR soient respectées et qu’on optimise la qualité, l’accessibilité et la réutilisation des données. L’avenir de la recherche en génomique exige qu’on comble de la meilleure façon qui soit le fossé entre l’expertise associée aux données scientifiques et celle liée à la gestion de ces données. Pour y arriver, on aura besoin d’un système élaboré par la communauté doublé d’une approche générale et solide en formation (Huang, Jörgensen & Stvilia, 2015).

En octobre 2019, le réseau Portage et la bibliothèque de l’Université McMaster tenaient le Forum canadien sur la curation des données (financé par le CRSH), qui s’était donné pour objectif de créer une communauté de pratique nationale capable de catalyser l’élaboration/l’adoption de normes, de méthodes, d’outils et de compétences en curation des données dans l’ensemble des disciplines et des institutions. Le rapport final formulait des recommandations sur une approche nationale à des services canadiens de curation des données. L’une d’elles concerne la mobilisation des chercheur, des créateurs de données et d’autres intervenants, de manière à ce que les services développés répondent aux besoins actuels et aux investissements dans l’infrastructure (Clary et coll., 2020). iReceptor Gateway illustre toute la valeur que l’investissement dans une curation soigneuse et cohérente des données ajoute aux données scientifiques, ce qui en rehaussera l’usage de même que le respect des principes

Et ensuite?

Les chercheurs qui aimeraient partager des données ou explorer l’AIRR Data Commons avec iReceptor Gateway peuvent visiter le site gateway.ireceptor.org et ouvrir un compte en en faisant la demande à support@ireceptor.org. Les récentes recommandations et lignes directrices de la RDA (Research Data Alliance) pour le partage des données durant la pandémie intéresseront aussi les chercheurs qui souhaiteraient savoir comment organiser les résultats de leurs travaux sur la COVID-19 afin de les partager (pour en savoir plus, lire The Value of RDA for COVID-19). Le document de la RDA donne des conseils spécifiques pour les sciences en « omique » (génomique, protéomique, métabolomique, lipidomique, etc. – voir la quatrième partie). Faites-en part à vos collègues qui se penchent sur la COVID-19 afin que nos efforts mutuels aboutissent vraiment à quelque chose d’utile.


abc