Le glossaire original de DRC

Une des grandes difficultés qu’éprouve toute nouvelle discipline est l’absence d’une terminologie précise et bien arrêtée. Différents groupes utilisent des termes identiques en leur donnant des sens différents, ce qui complique parfois une communication efficace. DRC s’intéresse principalement, mais pas exclusivement, aux données de nature numérique.

Il arrive que des données de forme analogue aient aussi leur importance pour la recherche. Les définitions de travail que voici correspondent à celles utilisées par DRC et n’ont d’autre but que de servir d’outil. Elles ne feront pas nécessairement l’objet d’un consensus parmi les collectivités très diversifiées qui produisent et exploitent les données de recherche. Nous les proposons non pas en tant que terminologie définitive, mais plutôt pour éviter d’éventuelles ambiguïtés dans la documentation de DRC. Ce glossaire devrait être considéré comme un document en évolution que l’on actualisera et modifiera si le besoin s’en fait sentir. [ Adapté de Digital Preservation Coalition ]

Termes et définititions

Objet modifiable interactif et accessible au moyen d’autres objets que celui qui en commande le comportement. Les objets numériques sont répartis dans les infrastructures de l’information.A Theory of Digital Objects

EXPRESSION DÉFINITION SOURCE
Accès Par « accès », on entend la possibilité d’utiliser de manière continue une ressource numérique, celle-ci conservant toutes ses qualités d’authenticité, d’exactitude et de fonctionnalité qu’on estime être essentielles aux fins pour lesquelles le matériel numérique a été créé ou acquis. Digital Preservation Coalition
Activités scientifiques Extension de la R-D par la genèse, la diffusion et l’application de connaissances scientifiques et techniques. (Voir aussi « Recherche et développement ») Publication annuelle « Données en sciences et technologie » disponible sur www.science.gc.ca
Administration de base de données Gestion des aspects physiques d’une base de données, notamment conception de la base et préservation de son intégrité, sauvegarde et récupération, performance et perfectionnement. DAMA Dictionary of Data Management
Algorithme Série de calculs permettant d’arriver au résultat souhaité. NIST Dictionary of Algorithms and Data Structures
Analyse des données Examen, épuration, transformation et modélisation des données en vue d’en extraire l’information utile suggérant certaines conclusions, et ainsi appuyer la prise de décisions. L’analyse des données prend de nombreux aspects et suit de multiples approches. Elle englobe des techniques variées portant divers noms, dans différents domaines des affaires et des sciences pures et humaines. Wikipedia/Educause
Archivage Activité de conservation qui consiste à faire en sorte que les données soient correctement choisies et stockées, et puissent être consultées, leur intégrité logique et physique étant préservée dans le temps, notamment sur les plans de la sécurité et de l’authenticité. JISC/TC3+
Archivage numérique Le sens de cette expression varie considérablement d’un secteur à l’autre. En bibliothéconomie et en archivage, on la confond souvent avec «  préservation numérique ». Les informaticiens ont tendance à parler d’« archivage numérique » pour désigner les enregistrements de sauvegarde et le maintien permanent des données, comparativement aux stratégies de préservation à long terme. C’est la deuxième définition, plus complète, de préservation numérique qui a été retenue dans ce document. (Voir aussi « Archivage ») Digital Preservation Coalition http://www.dpconline.org/advice/preservationhandbook/introduction/definitions-and-concepts
Archives Lieu où l’on garde des dossiers statiques, des documents ou d’autres matériels en vue de leur préservation à long terme, ou regroupement d’une telle documentation. ACTI-DM Working Group/Educause
Assurance de la qualité Processus ou ensemble de processus servant à mesurer et à garantir la qualité d’un produit.
Authentification Processus permettant de confirmer l’identité du responsable. L’identification d’un ordinateur ne pouvant être absolue (on peut dérober un mot de passe), l’authentification repose sur un degré de confiance, l’institution se fiant à des bonnes pratiques de gestion des identités (elle estime avoir correctement identifié un individu) et mettant en place des mécanismes qui autorisent le partage des identités. En anglais, on utilise parfois AuthN (pour authentication, authentification) au lieu d’AuthZ (pour authorization, autorisation). Internet 2/Educause
Authentification Mécanisme visant à établir l’authenticité du matériel numérique à un moment donné dans le temps. Exemple : signature numérique. Digital Preservation Coalition
Autorisation Processus permettant d’établir si un objet (personne, logiciel, dispositif, groupe, fonction, etc.) a le droit d’accéder à une ressource ou d’intervenir sur celle-ci. L’autorisation repose sur la détermination de l’identité (authentification) et sur la capacité de vérifier les privilèges de l’objet en regard des politiques ou des règles qui régissent la ressource, de manière à établir si une action de l’objet en question est permise ou pas. Internet 2/Educause
Base de données Ensemble de données structuré dont on peut aisément consulter, gérer et actualiser le contenu. Sa nature dépend des besoins de l’étude. La base de données relationnelle, dans laquelle les données sont liées les unes aux autres d’une manière méthodique qui permet de restructurer et de consulter celles-ci de diverses façons, est un type courant de base de données. La base de données peut abriter un ou plusieurs jeux de données.
Centre de données Installation procurant des services TI comme des serveurs, le stockage massif des données et la connectivité aux réseaux. Voir « Infrastructure numérique » pour les concepts apparentés. DRC
Champ En-tête d’une colonne dans un tableau de données
Chercheur principal (CP) Il joue un rôle directeur dans la recherche et sert de point de contact dans le cadre d’un projet ou d’un partenariat faisant appel à la méthode scientifique, à la méthode historique ou à une autre méthode de recherche visant à enrichir le savoir et à produire des résultats indépendants, objectifs, de haute qualité, traçables et reproductibles. Le CP assume la responsabilité de l’orientation intellectuelle et de l’intégrité de la recherche ou des activités qui y sont associées, notamment la production de données, les observations et les résultats. Il veille à ce que la déontologie soit respectée dans tous les aspects de la recherche, notamment le traitement des sujets humains et animaux, les conflits d’intérêts, l’acquisition, le partage et l’appartenance des données, les pratiques en matière de publication, la création responsable ainsi que la recherche coopérative et la production de rapports. Bien que les membres de l’équipe puissent se voir attribuer diverses tâches et que certains possèdent plus d’expertise dans un domaine particulier, le CP connaîtra tous les aspects techniques et scientifiques du projet et la manière dont ils s’imbriquent; il pourra identifier les lacunes et les combler, et veillera à maintenir la communication au sein de l’équipe et avec ceux qui exploiteront les données de recherche et leurs résultats. Le projet pourrait être très modeste et ne comprendre que quelques personnes (parfois même une seule, le CP), ou être très ambitieux et réunir de nombreux groupes et plusieurs CP ou co-CP. Le rôle du CP, la place qu’occupe ce dernier dans l’organisation et ses liens avec d’autres fonctions dans l’organisation ou à l’extérieur de celle-ci varieront selon la nature de l’organisation (à savoir, université, industrie, institut, laboratoire, administration publique, programme, etc.). Cette expression doit être définie parce que certaines normes relatives aux données se rapportent spécifiquement au CP (par ex., NARSTO)
Citation des données La citation des données rend justice aux auteurs tout en autorisant une identification permanente de l’information par l’emploi d’identifiants universels et persistants au lieu d’une adresse URL, susceptible de changer fréquemment. L’usage d’empreintes digitales numériques universelles (UNF) garantit à la collectivité universitaire que les chercheurs de demain pourront s’assurer que les informations extraites sont identiques à celles qui apparaissaient dans la publication originale, vieille de dizaines d’années, même si le support de stockage, les systèmes d’exploitation, le matériel et le format du logiciel statistique ont changé. thedata.org/Educause
Complétude des données Mesure dans laquelle les valeurs requises sont connues. On peut identifier une valeur comme « manquante » pour éviter de laisser des cellules vides, ou les valeurs absentes peuvent être remplacées par des valeurs par défaut ou des interpolations. Dans un tel cas, la valeur sera marquée afin qu’on la distingue des mesures ou observations réelles. L’introduction de valeurs manquantes, de valeurs par défaut ou d’interpolations ne signifie pas que le jeu de données devient complet pour autant.
Conformité des données Processus permanent visant à faire en sorte que les données respectent les règles de l’entité (ministère, université, industrie, agence) et les exigences de la loi, des règlements et de l’accréditation. La conformité des données touche cinq aspects : contrôles, vérification, conformité aux lois, conformité aux règlements, conformité aux normes d’accréditation.
Conservation Activité qui consiste à gérer et à promouvoir l’usage des données à compter de leur création, afin de s’assurer qu’elles peuvent être exploitées et sont disponibles en vue d’une réutilisation et de découvertes ultérieures. En ce qui concerne les jeux de données dynamiques, peut signifier un enrichissement ou une actualisation continuels de manière à en préserver l’utilité. À un degré supérieur, la conservation peut aussi inclure le renvoi à des annotations ou à des publications variées. Voir également « préservation ». JISC e-Science Curation Report/TC3+
Contrôle de la qualité Processus qui consiste à faire en sorte que les produits et les services répondent aux attentes des consommateurs.
Contrôle de la qualité analytique Processus et méthodes ayant pour but de veiller à ce que les analyses de laboratoire donnent des résultats cohérents, comparables, exacts et en deçà des seuils de précision établis.
Contrôle de la qualité d’un projet Inspection des travaux réalisés par le chercheur principal et son équipe visant à garantir l’alignement du projet avec sa portée, l’utilité des données et les besoins de l’utilisateur en matière de données.
Contrôle de la source Voir « Contrôle des révisions »
Contrôle des révisions Contrôle des révisions apportées aux données, au code machine, aux logiciels et aux documents dans le temps de manière à permettre le retour à une version antérieure. Cet aspect est crucial pour la traçabilité, la vérification des modifications et la correction des erreurs.
Contrôle des versions Voir « Contrôle des révisions »
Cyber-infrastructure Couches situées entre la technologie de base (informatique) et une discipline scientifique quelconque. Insiste sur les systèmes et les services à valeur ajoutée pouvant être largement partagés entre les diverses branches de la science, et qui appuient et facilitent considérablement l’intensification des activités scientifiques multi et interdisciplinaires tout en réduisant le dédoublement inutile des efforts et des ressources, notamment au niveau de l’équipement, des logiciels, du personnel, des services et des organisations. The Atkins Report/TC3+
Cyber-infrastructure de recherche Ensemble des biens, installations et services TIC qui facilite la recherche dans les institutions et les réseaux d’innovation nationaux. Elle permet aux chercheurs de maintenir l’excellence de leurs travaux et de réaliser des innovations. Rhys Francis/TC3+
Cyber-recherche Forme de recherche et d’études faisant appel à une exploitation massive de l’informatique, aux réseaux et à la collaboration dans toutes les disciplines des sciences naturelles et physiques, les disciplines connexes des sciences appliquées et de la technologie, la biomédecine, les sciences humaines et les lettres et sciences humaines numériques. Association des bibliothèques de recherche du Canada
Cyber-science Science reposant dans une large mesure sur le traitement de l’information numérique ou les technologies informatiques, ou qui en dépend totalement. On notera qu’il s’agit d’une définition fonctionnelle, pas d’une propriété intrinsèque de la science. Cette définition englobe la science fondée sur les données, c’est-à-dire la science qui repose entièrement ou en partie sur l’exploitation des informations existantes. Le terme « cyber-science » désigne de très nombreuses activités, puisque la collecte d’informations fait presque toujours appel à l’informatique ou recourt aux technologies de l’information pour mesurer, enregistrer, diffuser et analyser. La cyber-science fait souvent un usage intensif de ces technologies : elle est techniquement évoluée, mise sur la collaboration ou suppose une échelle de grande envergure (mesurée de diverses façons : volume de l’information, intensité des calculs, étendue de la distribution, diversité de l’information traitée). La cyber-science peut être entreprise par un chercheur seul ou une petite équipe – bref, elle s’applique à la miniscience et, de fait, met la mégascience à la portée de ceux qui sont moins bien équipés (un ordinateur suffit). Towards a European e-Infrastructure for e-Science Digital Repositories
Dépôt Lieu où est préservé et géré, et où l’on peut consulter, du contenu numérique sous de nombreuses formes. Le matériel disponible dans les dépôts en ligne est conservé de manière à en permettre la consultation pour la découverte et sa réutilisation. On doit posséder une maîtrise suffisante sur le matériel numérique pour que celui-ci garde son authenticité, sa fiabilité et son utilité. ACTI-DM Working Group/Educause; Norme pour les systèmes de gestion électroniques des dossiers et des documents du SCT
Dépôt de données Service d’archivage veillant à la conservation prolongée des objets numériques utiles pour la recherche. La norme en la matière est le modèle de référence Système ouvert d’archivage d’information de l’ISO (ISO 14721:2003). Dépôt et Dépôt numérique de confiance sont des concepts apparentés. Portrait de la situation des données : Rapport sur le Sommet 2011
Dépôt numérique validé Dépôt de données dont la mission consiste à garantir à la collectivité concernée un accès fiable et prolongé aux ressources numériques dont il assure la gestion. Research Libraries Group/Educause
Documents électroniques Voir « Documents numériques » Digital Preservation Coalition
Documents numériques Documents à caractère officiel créés numériquement dans le cadre des activités quotidiennes d’une organisation. Ils peuvent inclure, par exemple, des documents réalisés par traitement de texte, des courriels, des bases de données ou les pages d’un site Web interne. Digital Preservation Coalition
Domaine d’imputabilité des données Spécification d’un groupe ou d’une catégorie de données d’EC permettant d’en établir l’imputabilité. Ces domaines sont spécifiés au moyen de variables qui en établissent la portée (à savoir, nature de l’information, portée géographique, programme) et la taxonomie (à savoir, qualité de l’eau, qualité de l’air, climat, météorologie). Manuel sur la gérance des données d’Environnement Canada (projet).
Données Faits, mesures, enregistrements ou observations sur l’Univers recueillis par des scientifiques et d’autres personnes, assortis d’une interprétation minimale de leur contexte. Les données peuvent être présentées dans n’importe quelle forme et sur des supports variés (écrits, notes, chiffres, symboles, texte, illustrations, films, vidéos, enregistrements sonores, reproductions picturales, dessins, croquis ou autres représentations graphiques, manuels de procédures, formulaires, schémas, diagramme de marche du travail, descriptions d’équipement, fichiers de données, algorithmes de traitement, statistiques). Landry et coll. (1970); Carol Tenopir (2007); Michael Buckland (2007)
Lire Zin et coll. (2007) pour une analyse de 130 définitions des termes « données », « information » et « savoir » rassemblées par un groupe de 45 experts universitaires des sciences de l’information, et le développement de cinq modèles définissant les données, l’information et le savoir.
Données administratives Information essentiellement recueillie à des fins administratives (et non pour la recherche). Les ministères et autres organisations publiques recueillent les données de cette nature durant la prestation d’un service pour les inscriptions, les opérations et la tenue de registres. On estime que de telles données peuvent aussi avoir leur utilité en recherche. Administrative Data Research Network du
R.-U.
Données analogiques Données présentées sous forme de matériel analogique. (Voir aussi « Matériel analogique »)
Données de haute qualité Les données de haute qualité sont complètes, opportunes, exactes, cohérentes, pertinentes, fiables, traçables, propres, validées et bien étayées.
Données de recherche Données essentiellement employées pour alimenter les enquêtes techniques ou scientifiques, la recherche, les études ou des activités artistiques. On s’en sert pour étayer la méthode expérimentale ou les chercheurs estiment communément qu’elles sont nécessaires pour valider leurs observations et les résultats de leurs travaux. Tout contenu numérique ou pas est susceptible de devenir des données de recherche. Les données de recherche peuvent être de nature expérimentale ou opérationnelle, émaner d’observations ou d’une tierce partie, être issues du secteur public, venir de la surveillance et comprendre des données traitées ou recyclées. Australian National Data Service; NIH Grants Policy Statement des É.-U. (p. 171); Preserving Research Data in Canada: The Long Tale of Data (blogue)
Données de recherche administratives Information produite à la suite de l’administration d’un projet de recherche. Elles comprennent le profil et le curriculum vitae des chercheurs, la portée et l’impact du projet, les sources de financement, les citations et les retombées des travaux.
Données de recherche numériques Données de recherche sous une forme numérique. Elles peuvent avoir été produites au départ sous cette forme ou résulter de la conversion de données présentées sous forme imprimée ou sur un autre support.
Données numériques Données sous forme de matériel numérique. (Voir aussi « Matériel numérique »)
Données ouvertes Données accessibles, utilisables, évaluables et intelligibles. N’importe qui peut utiliser, réutiliser et rediffuser librement ces données, sous la seule réserve, au plus, qu’elles puissent être affectées et partagées de la même manière. Science as an Open Enterprise (SOE) cité par TC3+; Open Data 101 (GC); Principes directeurs pour le développement et la promotion du libre accès de l’UNESCO
Données recyclées Nouvelles données créées en combinant de la manière adéquate des données issues de fichiers variés en vue d’obtenir des produits de données qui n’existaient pas auparavant. Au nombre des activités de recyclage figurent l’élaboration et le soutien d’outils de recherche recourant à des métadonnées normalisées, l’uniformisation des codes pour des variables précises, la création de nouvelles techniques de regroupement des données ainsi que la production et la récolte de nouveaux jeux de données. Gérance des données de recherche au Canada : une analyse des écarts   http://rds-sdr.cisti-icist.nrc-cnrc.gc.ca/fra/rapports/2008_analyse_ecarts.html
Données sales Voir « Jeux de données sales »
Données scientifiques et technologiques Attributs qualitatifs ou quantitatifs d’une variable ou d’un jeu de variables. Ces données correspondent à la représentation de réalités physiques, biologiques ou chimiques et résultent habituellement de mesures ou d’observations. Elles comprennent aussi les représentations socioéconomiques et culturelles connexes. Normalement, ces données sont structurées et sont présentées sous forme de tableaux, de chiffres, de caractères ou de références géospatiales, dans un format déchiffrable par ordinateur. Manuel sur la gérance des données d’Environnement Canada (projet).
Données sémantiques Données assorties de métadonnées précises permettant de déduire les liens qui les unissent. SOE/ TC3+
Entrepôt de données Base de données centrale intégrée facilitant la prise de décisions et logiciels apparentés employés pour recueillir, épurer, transformer et stocker les données venant de diverses sources opérationnelles en vue de soutenir l’informatique décisionnelle. Un entrepôt de données peut inclure des mini-entrepôts reliés entre eux. DAMA Dictionary of Data Management
Épuration des données L’épuration des données est un processus constant qui nécessite des interventions correctrices durant toute la vie utile des données. Ce processus suppose la détection et la correction des informations corrompues ou erronées dans un jeu de données. Il comprend l’identification, le remplacement, la modification ou la suppression des données incomplètes, erronées, inexactes, incohérentes et non pertinentes.
Études numériques Englobe : • la création d’une collection numérique d’informations en vue d’une étude et d’une analyse plus poussées, • la création d’outils employés pour monter des collections, • la création d’outils servant à l’analyse et à l’étude des collections, • l’usage de collections numériques et d’outils d’analyse pour engendrer de nouveaux produits intellectuels et • la création d’outils servant à engendrer de nouveaux produits intellectuels sous leur forme classique ou une forme numérique. Our Cultural Commonwealth
Exploration en profondeur des données Processus consistant à analyser des jeux de données à variables multiples au moyen d’une technique de recherche de motifs ou une technique quelconque de genèse du savoir en vue d’identifier du contenu, des rapports, des regroupements ou des tendances inconnus et potentiellement utiles. Principes directeurs pour le développement et la promotion du libre accès de l’UNESCO; Glossaire sur la gestion de l’information du SCT (Information Resource Management du gouvernement de la C.-B.); DAMA Dictionary of Data Management.
Fiche de métadonnées Ensemble de données définies par un thème ou une catégorie reflétant ce qu’on mesure, observe ou surveille à divers endroits. La fiche de métadonnées est une source d’information utile sur le plan opérationnel. Manuel sur la gérance des données d’Environnement Canada (projet).
Format de fichier de données Cette expression désigne la manière dont les données de recherche sont structurées en vue de leur stockage sous format numérique. Le format privilégié dépend du dépôt de données dans lequel le contenu numérique sera préservé. Si le fichier de données n’existe pas dans le format souhaité, le responsable du dépôt procédera souvent à sa conversion, pour faire en sorte que le contenu puisse être consulté et exploité. En règle générale, le format privilégié correspond à la norme de facto en usage dans la collectivité concernée. DRC, adapté de Policy-making for Research Data in Repositories: A Guide 2009/TC3+
Fusion des données Voir « Intégration des données »
Gardien des données Personne ou organisation responsable de l’infrastructure TI qui procure et préserve les données conformément aux politiques et aux pratiques établies par l’organisme régissant les données. On parle parfois d’intendance technique des données. DAMA Dictionary of Data Management
Gérance des données Plan structurant le rôle et les responsabilités de ceux qui supervisent la gestion des données à toutes les étapes de leur vie, y compris leur préservation. Un vaste projet de recherche pourrait inclure plusieurs responsables de la gérance des données au fil des étapes franchies par ces dernières durant leur cycle de vie.
Gestion des données Ensemble d’activités ayant pour but d’acquérir, de réguler et de préserver les données et l’information ainsi que d’en rehausser l’utilité (élaboration de politiques, planification, normalisation, gestion de l’information, synchronisation, partage, développement de bases de données, pratiques et projets). Portrait de la situation des données : Rapport sur le Sommet 2011; Glossaire sur la gestion de l’information du SCT (Information Resource Management du gouvernement de la
C.-B.); DAMA Dictionary of Data Management
Gestion des données de recherche Stockage, consultation et préservation des données issues d’un travail de recherche quelconque. La gestion des données touche le cycle de vie complet des données, de la planification des recherches à leur exécution et de l’enregistrement des données au moment de leur création et de leur exploitation jusqu’à la préservation à long terme des résultats, une fois les recherches achevées. Au nombre des activités et des difficultés associées à la gestion des données figurent les suivantes : désignation des fichiers (manière adéquate de nommer les fichiers de données); contrôle et assurance de la qualité des données; accès aux données; documentation (y compris degré d’incertitude); création de métadonnées et de vocabulaires contrôlés; stockage des données; archivage et préservation des données; partage et réutilisation des données; intégrité des données; protection des données; protection des renseignements personnels; droits associés aux données; protocoles expérimentaux (en laboratoire ou sur le terrain).
Gestion totale de la qualité Approche générale et structurée à la gestion organisationnelle ayant pour but de rehausser la qualité des produits et des services en les perfectionnant continuellement sur la foi des commentaires recueillis en permanence.
Granularité Taille des sous-ensembles de données. [Une définition plus développée décrirait la granularité grossière, la granularité fine et la granularité extra fine.] DAMA Dictionary of Data Management; Wikipedia
Identificateur chimique international de l’UICPA L’InChI, ou identificateur chimique international de l’UICPA, est un identificateur non exclusif applicable aux substances chimiques. On peut s’en servir dans les documents imprimés et électroniques, ce qui facilite le rapprochement des différents jeux de données. MIT Data Management and Publishing
Identificateur d’objet numérique DOI – Nom (et pas emplacement) d’une entité dans un réseau numérique. Il permet à un système d’identifier de manière constante l’information gérée sur les réseaux numériques, d’intervenir sur celle-ci et d’en permettre un échange interexploitable. MIT Data Management and Publishing
Identificateur persistant Référence durable à un objet numérique fournissant des renseignements sur celui-ci, peu importe ce qu’il en advient. Créé pour lutter contre la « pourriture des liens », l’identificateur persistant permet d’obtenir la représentation adéquate d’un objet, même si son emplacement change ou s’il disparaît de la toile. Australian National Data Service
Infonuagique Paradigme de l’informatique répartie à grande échelle. L’infonuagique dérive des économies d’échelle. Elle permet l’exploitation à la carte d’un bassin de plateformes et de services de calcul et de stockage virtuels, adaptables de façon dynamique, par une clientèle externe ayant accès à l’Internet. Principaux attributs :• paradigme de calcul spécialisé réparti; • possibilité d’une mise à l’échelle massive; • encapsulation sous forme d’entité abstraite dispensant des services de degré variable à une clientèle extérieure au nuage; • commandé par des économies d’échelle; • configuration dynamique de services (par la virtualisation ou d’autres approches) disponibles à la carte. GRDI 2020/TC3+
Information Données regroupées pour en extraire des observations cohérentes sur l’Univers, données utiles ou données structurées et interprétées pour qu’on en tire un sens. Carol Tenopir (2007); William Hersh 2007).
Voir Zins (2007)
Infrastructure de gestion des données de recherche Configuration du personnel, des services et des instruments rassemblés pour faciliter la gestion des données durant le cycle de vie des recherches et, plus précisément, pour couvrir l’ensemble des étapes constituant le cycle de vie des données. Cette infrastructure peut être organisée localement ou globalement pour appuyer les activités d’acquisition des données pendant la durée complète des recherches. Blogue de Chuck Humphrey/TC3+
Infrastructure des données scientifiques Ce qui permet aux chercheurs de créer, stocker et partager les données issues de leurs travaux ainsi que de trouver, de consulter et de traiter les données dont ils ont besoin. Commission européenne, Advancing Technologies and Federating Communities/TC3+
Infrastructure numérique IN – Expression privilégiée au Canada pour désigner la cyber-infrastructure ou la cyber-infrastructure de recherche. DRC
Intégration des données Le fait de réunir plusieurs jeux de données issus de sources disparates en un jeu ou une base de données uniques. Pour cela, on doit accéder aux données, les extraire, les déplacer, les valider et les épurer puis les normaliser, les transformer et les installer. Noter que pour les applications scientifiques et géospatiales, « fusion » et « intégration » sont des synonymes, alors que dans les applications commerciales, le terme « fusion » désigne plutôt une technique de réduction des données. DAMA Dictionary of Data Management; autre
Intergiciel Logiciel procurant des services à des applications, en dehors de ceux assurés par le système d’exploitation. On pourrait parler de la « colle des logiciels ». Les intergiciels établissent la communication et saisissent les entrées/sorties afin que le développeur puisse se concentrer sur le but précis de l’application. Comité de l’infrastructure de DRC; Wikipedia
Interopérabilité Façon dont les données sont structurées pour autoriser l’intégration de divers jeux de données. The Open Group TOGAF Documentation
Interopérabilité Possibilité de communication, d’exécution de programmes ou de transfert de données entre unités fonctionnelles différentes, de telle manière que l’utilisateur n’ait que peu ou pas besoin de connaître les caractéristiques propres à chaque unité. L’interopérabilité doit être à la fois structurelle, syntaxique et sémantique. Normes sur les métadonnées du SCT (d’après la Dublin Core Metadata Initiative); DAMA Dictionary of Data Management; ISO/IEC 2382-01, Technologies de l’information – Vocabulaire – Termes fondamentaux
Interopérabilité sémantique Capacité, pour des ordinateurs, de transmettre des données ayant un sens commun, sans ambiguïté. L’interopérabilité sémantique est essentielle à la logique machine, aux inférences, à l’enrichissement du savoir et à la fédération des données entre systèmes d’information. On parvient à une telle opérabilité quand l’information transmise possède le sens requis pour que le système la recevant l’interprète correctement telle qu’elle lui a été communiquée, même si le système d’origine ignore quels algorithmes utilise le système de destination. Il ne peut y avoir d’interopérabilité sémantique sans interopérabilité syntaxique. Wikipedia
Interopérabilité structurelle Cette forme d’interopérabilité autorise l’échange de données d’un système de technologies d’information à l’autre sans que le système recevant les données ait besoin d’interpréter ces dernières. HIMSS (Healthcare Information Management and Systems Society)
Interopérabilité syntaxique Cette forme d’interopérabilité définit la structure ou le format des données échangées. Elle est réalisable grâce à des outils comme les langages normalisés XML ou SQL. Wikipedia; HIMSS (Healthcare Information Management and Systems Society)
Jeu de données Ensemble de données quelconque, structuré dans un format computationnel que définit un thème ou une catégorie reflétant ce qu’on souhaite mesurer, observer ou surveiller. Des métadonnées commandent la manière dont les données sont restituées par l’application. Portrait de la situation des données : rapport sur le Sommet 2011; Norme sur les données géospatiales du SCT (ISO 19115:2003); Manuel sur la gérance des données d’Environnement Canada (projet).
Jeu de données sale Un jeu de données sale renferme des données inexactes, incomplètes ou erronées, par exemple des erreurs d’orthographe ou de ponctuation, des données incorrectes ou du mauvais type par rapport au champ auquel elles sont associées, des données incomplètes ou désuètes, incohérentes, mal structurées, etc. L’usage de données incorrectes ou incohérentes peut aboutir à associations fallacieuses, à des conclusions erronées et à de mauvais investissements. >
Langage de balisage extensible (XML) Le langage de balisage extensible ou langage XML (pour eXtensible Markup Language) est une méthode de formatage très souple du texte dérivée du SGML (ISO 8879). Conçu au départ pour surmonter les difficultés de l’éditique de masse, le langage XML joue aussi un rôle de plus en plus important dans l’échange de données d’une nature très variée sur l’Internet et ailleurs. www.w3.org/XML
Lisible par machine Données et code pouvant être facilement extraits par un logiciel afin que l’ordinateur les déchiffre et les exploite. Les documents PDF, par exemple, ne sont pas lisibles par machine. Même si l’ordinateur affichera correctement le texte, il éprouvera beaucoup de difficulté à en saisir le contexte. Open Data 101 (GC); autre
Lisible sans aide Données et code commentés afin qu’un être humain puisse en comprendre le sens, la syntaxe et le but. Wilson G, Aruliah DA, Brown CT, Hong NPC, Davis M, Guy RT, Haddock SHD, Huff K, Mitchell IM, Plumbley MD, Waugh B, White EP, Wilson P (2012). Best practices for scientific computing , arXiv, 29 novembre, 1-6.
Localisateur de ressources uniforme (URL) Chaîne de caractères servant à identifier ou à désigner une ressource sur Internet. Une telle identification autorise les interactions avec les représentations de cette ressource sur un réseau (habituellement la toile mondiale) au moyen de protocoles établis. MIT Data Management and Publishing
Localisateur de ressources uniforme persistant (PURL) URL qui, au lieu d’indiquer directement l’emplacement d’une ressource Internet, pointe vers un service de résolution intermédiaire, lequel associe le PURL à l’URL réel afin de le restituer au client. MIT Data Management and Publishing
Matériel analogique Matériel non numérique ayant une existence physique (par ex., manuscrits ou documents imprimés).
Matériel numérique Expression générale qui englobe a) les substituts numériques obtenus par la numérisation du matériel analogique, b) le matériel numérique « naturel », c’est-à-dire qui n’a jamais eu d’équivalent analogique et n’est pas destiné à en produire et c) les documents numériques. (Voir aussi « Numérique naturel », « Objets numériques », « Documents numériques » et « Documents électroniques ») Digital Preservation Coalition
Méga données Cette expression désigne les jeux de données trop volumineux pour être saisis, stockés, gérés et analysés par les logiciels des bases de données usuelles. On présume qu’avec les progrès de la technologie, les dimensions des jeux de données qui seront qualifiés de « méga » iront augmentant. Cette définition peut aussi varier d’un secteur à l’autre, en fonction des outils couramment disponibles et de la taille normale des jeux de données dans une industrie particulière. Avec ces réserves, ce qu’on qualifie aujourd’hui de « méga données » dans maints domaines peut varier de quelques dizaines de téraoctets à plusieurs pétaoctets (milliers de téraoctets). McKinsey Global Institute – Big data: the next frontier for innovation, competition and productivity, cité par le TC3+ dans son document de travail d’octobre 2013 intitulé « Capitalizing on Big Data: Towards a Policy Framework for Advancing Digital Scholarship in Canada ».
Métadonnées Au sens propre, « données sur les données ». Données qui définissent et décrivent les particularités d’autres données. On s’en sert pour faciliter la compréhension des données techniques et opérationnelles ainsi que des processus se rapportant aux données. Les métadonnées opérationnelles comprennent le nom et la description des domaines, les entités et les attributs, la nature des données d’attribut et d’autres propriétés des attributs, la description des intervalles, les valeurs acceptables pour les domaines et leur définition. Les métadonnées techniques comprennent le titre des tableaux et des colonnes des bases de données physiques, les propriétés des colonnes et les propriétés des autres objets de la base de données, notamment la façon dont les données sont stockées. Les métadonnées sur les processus définissent et décrivent les caractéristiques d’autres éléments du système (processus, règles opérationnelles, programmes, tâches, outils, etc.). Les métadonnées sur la gérance des données portent sur les responsables des données, les méthodes de gestion des données et les responsabilités attribuées à chacun. DAMA Dictionary of Data Management. Pour d’autres définitions, voir aussi : Data Curation Centre (DCC)/TC3+; Norme sur les données géospatiales du SCT (Norme sur les métadonnées du Gouvernement en direct); Norme pour les systèmes de gestion électroniques des dossiers et des documents du SCT; IOC Oceanographic Data Exchange Policy; Principes directeurs pour le développement et la promotion du libre accès de l’UNESCO; Manuel sur la gérance des données d’Environnement Canada (projet).
Métadonnées administratives Métadonnées employées pour gérer les aspects administratifs des objets numériques, par exemple les droits sur la propriété intellectuelle et leur acquisition. Les métadonnées administratives fournissent aussi de l’information sur la création des métadonnées proprement dites, sur leur modification et sur la vérification des versions. On parle parfois de méta-métadonnées. DCC/TC3+
Métadonnées d’utilisation Elles gèrent l’accès des utilisateurs, suivent ces derniers et fournissent des renseignements sur les différentes versions. DCC/TC3+
Métadonnées de préservation Elles fournissent des renseignements sur les mesures prises pour préserver les ressources numériques, par exemple les migrations et le calcul des sommes de contrôle. DCC/TC3+
Métadonnées descriptives Ces données permettent à l’utilisateur d’identifier, de situer et de récupérer l’information en recourant souvent à des glossaires normalisés pour la classification et l’indexation ainsi qu’à des hyperliens conduisant aux ressources. DCC/TC3+
Métadonnées techniques Processus techniques servant à produire ou à exploiter les objets numériques. DCC/TC3+
Méta-métadonnées Voir « Métadonnées administratives »
Méthode scientifique Énoncer un problème, dépouiller la documentation scientifique, recueillir les données, les analyser, les interpréter et diffuser les résultats.
Migration Moyen de surmonter l’obsolescence technologique par le transfert des ressources numériques d’une génération de matériel/logiciels à la suivante. La migration préserve le contenu intellectuel des objets numériques et permet aux clients de continuer à récupérer celui-ci, à l’afficher et à l’exploiter d’autres façons, malgré l’évolution constante de la technologie. La migration diffère du rajeunissement des supports de stockage en ce sens qu’il n’est pas toujours possible de réaliser une copie numérique exacte ni de reproduire les propriétés ou l’aspect originaux d’une ressource tout en maintenant sa compatibilité avec la technologie de la nouvelle génération. Digital Preservation Coalition
Migration des données Processus consistant à transférer des données d’un type de stockage à un autre (nature des installations, format, technologie de l’information ou système informatique). DRC, adapté de Wikipedia/Educause
Mode opératoire normalisé (MON) Instructions écrites détaillées garantissant l’exécution uniforme d’une fonction International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use
Numérique naturel Se dit du matériel non conçu pour avoir un équivalent analogique, que ce soit à l’origine ou après conversion. On utilise cette expression pour faire la distinction avec 1) le matériel numérique résultant de la conversion de matériel analogique et 2) le matériel numérique provenant d’une source numérique que l’on a imprimé (à savoir, quelques documents électroniques). Digital Preservation Coalition
Numérisation Processus qui consiste à créer un document numérique par la conversion d’un document analogique avec un numériseur ou par un autre moyen. L’exemplaire numérique, ou substitut numérique, qui en résulte serait rangé avec le matériel numérique et connaîtrait les mêmes difficultés générales que le matériel « numérique naturel » sur les plans de la préservation et de la consultation. Digital Preservation Coalition
Numéro d’entrée Numéro d’enregistrement unique pouvant être cité et qui est employé par le National Center for Biotechnology Information (NCBI). MIT Data Management and Publishing
Objet numérique
Plan de gestion des données Énoncé officiel exposant comment les données de recherche seront gérées et étayées lors d’un projet. Il précise aussi dans quelles conditions l’information sera subséquemment versée dans un dépôt de données en vue d’une gestion et d’une préservation à long terme. DRC
Politiques en matière de données Jeu de principes généraux constituant un cadre de référence pour la gestion des données. Une politique en matière de données peut servir à résoudre des questions d’ordre stratégique comme l’accès aux données, des questions juridiques pertinentes, des questions liées à l’intendance et à la préservation des données, ainsi que des questions relatives à l’acquisition des données et à d’autres aspects. Portrait de la situation des données : Rapport sur le Sommet 2011
Préservation Activité d’archivage en vertu de laquelle on maintient des éléments de données dans le temps de manière à ce qu’on puisse y accéder et en saisisse le sens, malgré l’évolution de la technologie. JISC/TC3+; Glossaire de la gestion de l’information du SCT (Politique de préservation de Bibliothèque et Archives Canada)
Préservation à court terme Accès au matériel numérique pendant la période durant laquelle on en prévoit l’exploitation, mais pas au-delà de l’avenir prévisible, ou jusqu’à ce que le matériel en question devienne inaccessible à cause de l’évolution de la technologie. Digital Preservation Coalition
Préservation à long terme Accès permanent au matériel numérique ou, du moins, à l’information qu’il renferme. Digital Preservation Coalition
Préservation à moyen terme Accès constant au matériel numérique pendant une période définie, mais non de manière permanente, malgré l’évolution de la technologie. Digital Preservation Coalition
Préservation de l’anonymat Le fait de retrancher totalement et de façon définitive les identificateurs personnels des données, par exemple en regroupant les données avec lesquelles on pourrait identifier quelqu’un. Rendues anonymes, les données ne peuvent plus être associées à un individu quelconque, de quelque manière que ce soit. Une fois que les données ont été privées des éléments d’identification personnels, il devient impossible de relier à nouveau ces derniers aux données originales ou à la personne à laquelle ils se rapportent. Pareilles données sont adéquates quand il n’est pas nécessaire de prendre contact avec le participant ou de lier les données à une autre source. Internet 2/Educause; Open Data 101 (GC)
Préservation numérique Série d’activités requises pour autoriser la consultation de la documentation numérique aussi longtemps que la chose est nécessaire. L’expression a un sens très large et se rapporte à l’ensemble des mesures adoptées pour maintenir l’accès au matériel numérique, en dépit d’une défaillance du support ou de l’évolution des technologies. Le matériel préservé peut correspondre aux activités courantes d’une organisation, aux documents « numériques naturels » créés dans un but précis (par ex., ressources pédagogiques) ou aux produits de la numérisation. Cette définition exclut l’application éventuelle de la technologie numérique pour préserver des artefacts par leur numérisation. (Voir aussi « Numérisation » et « Préservation ») Digital Preservation Coalition
Production de données Ensemble des activités se rapportant à la planification, à la collecte, au traitement, à l’analyse et au maintien des données dans le cadre du projet de recherche d’origine. En font partie le choix d’un protocole expérimental, la fabrication des instruments employés pour recueillir les données, la collecte/création des données, leur correction/vérification/validation, l’analyse des données, la sauvegarde de diverses versions ainsi que la préparation et le marquage des métadonnées. La gérance des données de recherche au Canada : une analyse des écarts
Profil des métadonnées ISO 19115 Profil de métadonnées précisant les éléments et la syntaxe à employer pour l’application de la norme internationale sur les données géospatiales (ISO 19115: 2003) en Amérique du Nord. >Manuel sur la gérance des données d’Environnement Canada (projet).
Protocole d’accès aux données Système permettant aux intéressés de l’extérieur d’accéder aux bases de données sans qu’il y ait surcharge de l’un ou l’autre système. Open Data 101 (GC)
Rafraîchissement Copie de l’information d’un support de stockage à un support identique. Digital Preservation Coalition
Recherche Données d’entrée, code et plateforme logicielle qui ont servi à produire les résultats de la recherche. Buckheit and Donohue 1995; Donohue 2010; Gandrud 2013.
Recherche et développement
(R-D)
Travail créatif réalisé de façon méthodique et dont l’objet consiste à enrichir le savoir, notamment à rehausser le bagage de connaissances de l’humanité, la culture et le fonctionnement de la société. Usage de ces connaissances pour créer de nouvelles applications. (Voir aussi « Activités scientifiques ») Publication annuelle « Données en sciences et technologie » disponible sur www.science.gc.ca
Régie des données Exercice du pouvoir, du contrôle et de la prise de décisions communes (en matière de planification, de surveillance et d’application) sur la gestion des données. DAMA Dictionary of Data Management
Remise en forme Copie des informations d’un support de stockage à un autre (remise en forme du support) ou conversion d’un fichier d’un format à un autre (remise en forme de fichier). Digital Preservation Coalition
Renseignements confidentiels Toute information obtenue par quelqu’un à la condition expresse qu’elle ne soit divulguée à quiconque ou toute information obtenue dans des circonstances faisant en sorte qu’on ne s’attend pas à ce qu’elle soit divulguée. La loi présume, par exemple, que les renseignements personnels confiés à un médecin traitant demeureront confidentiels tant et aussi longtemps qu’ils permettent d’identifier celui ou celle à qui ils se rapportent. Voir aussi « données personnelles »
Renseignements personnels Données se rapportant à un individu en vie lorsqu’elles permettent d’identifier celui-ci a) directement ou b) indirectement, une fois combinées à d’autres informations que possède ou pourrait posséder la personne qui contrôle les données. Ils incluent toute expression d’opinion sur l’individu en question et toute indication des intentions que la personne qui contrôle les données ou toute autre personne caresse à l’endroit de cet individu.
Réseau Toute infrastructure répartie, regroupée en fédération en vue de combiner les ressources de nombreuses organisations gérées par des administrations distinctes. Le réseau a pour but de coordonner le partage des ressources d’une manière dynamique entre de multiples institutions afin que l’utilité du tout surpasse celle des parties qui le composent : courtage, coordination du flux des opérations, intégration des calculs et stockage. Pour que cela se produise, il faut définir l’interopérabilité et établir des normes à divers niveaux : pour l’accès aux ressources, pour la coordination et la logique des activités, pour le stockage et la gestion des données, pour l’accès au réseau et ainsi de suite. Commission européenne, Advancing Technologies and Federating Communities
Résultats de recherche Articles de périodiques, rapports, ouvrages, diaporamas ou sites Web présentant les résultats d’un projet et s’efforçant de convaincre qu’ils sont exacts. Mesirov 2010
Réutilisation Usage du contenu en dehors de ses fins premières. Open Data 101 (GC)
Savoir Règles et principes qui structurent les données agrégées. Information permettant de prendre des décisions, une fois comprise, après son internalisation. William Hersh (2007); Carol Tenopir (2007). Voir Zins (2007)
Schéma d’encodage Spécifications exploitables par machine qui définissent la structure et la syntaxe des spécifications des métadonnées dans un langage de schéma officiel. Norme sur les métadonnées du SCT (d’après la Dublin Core Metadata Initiative)
Série de jeux de données Regroupement de jeux de données partageant la même spécification de produit Norme sur les données géospatiales du SCT (ISO 19115:2003)
Signal analogique Signal électronique continu
Signal numérique Signal électronique discontinu
Structure des données Organisation de l’information. Elle se fait souvent en mémoire et autorise une plus grande efficacité des algorithmes (mise en file ou en piles, listes avec liens, tas, dictionnaires et arborescence ou unités conceptuelles comme le nom et l’adresse d’une personne). La structure des données peut inclure des informations redondantes comme la longueur d’une liste ou le nombre de nœuds d’une arborescence secondaire. NIST Dictionary of Algorithms and Data Structures
Système de contrôle des révisions Logiciel qui automatise le stockage, la récupération, l’enregistrement, l’identification et l’amalgame des révisions (par ex., GIT, SVN)
The Open Archives Initiative Protocol for Metadata Harvesting (OAI PMH) Mécanisme simple visant à assurer l’interopérabilité des dépôts de données. Les fournisseurs de données correspondent aux dépôts de données qui exposent la structure de leurs métadonnées par le biais de l’OAI-PMH. Ensuite, les fournisseurs de services soumettent une demande de service à l’OAI-PMH en vue de recueillir ces métadonnées. L’OAI-PMH est un jeu de six verbes ou services accessibles par le protocole HTTP. oai.org
Total de contrôle Il permet de vérifier si un fichier a changé dans le temps.
Traçabilité des données La traçabilité consiste à suivre les données durant leur cycle de vie pour en recenser les accès et les modifications. Elle concourt à en illustrer la transparence ainsi que le respect des règles et l’adhésion à ces dernières. Avec la conformité des données, la traçabilité peut être considérée comme faisant partie du processus de vérification. Les données doivent être traçables pour que les recherches soient reproductibles.
Versionnage Voir « Contrôle des révisions »
Vocabulaire contrôlé Liste de termes, de mots ou de syntagmes normalisés employés pour l’indexation, l’analyse du contenu ou l’extraction de renseignements, habituellement dans un domaine d’information défini. DAMA Dictionary of Data Management; Norme sur les métadonnées du SCT
abc