Décrire
Décrire les données de la recherche est un élément clé de leur gestion à toutes les étapes de la vie d’un projet de recherche, de la collecte jusqu’à la diffusion ou conservation des données. Elle permet d’organiser la collecte puis le classement des données au sein de l’équipe-projet, entre les différents partenaires, facilite le tri, la conservation ou le partage des jeux de données. L’ajout de métadonnées facilite l’interopérabilité et permet aux jeux de données d’être accessibles et visibles à travers différents moteurs de recherche.

La description des données comporte deux volets distincts :
- L’identification du type et de la nature des données
- La description du jeu de données par l’ajout de métadonnées standardisées
La description des données, ainsi que l’organisation et le nommage des fichiers, peuvent être documentées dans un fichier « Lisez-moi » (« ReadMe ») qui pourra être déposé avec le jeu de données dans un entrepôt par exemple.
Pour toute question : donnees.recherche.dbm[a]listes.u-paris.fr
Identifier la nature de ses données
Les données peuvent être décrites à partir de plusieurs points de vue :
- L’origine des données et leur méthodologie de collecte (données d’observation, expérimentales, computationnelles ou de simulation, dérivées ou compilées, données de référence).
- Leur forme (textuelle, numérique, audiovisuelle, modèles ou codes informatiques, données spécifiques produites par certains instruments, etc.)
- Leur niveau d’élaboration ou de traitement (données sources ou résultats, primaires ou secondaires, brutes, formatées, compilées, etc.).
La description des données, dans un plan de gestion de données par exemple, peut également inclure des informations sur la volumétrie et le format des données (ouverts ou fermés). Les formats ouverts, standards ouverts, sont à privilégier pour la préservation et le partage des données dans le temps. Pour savoir si un format est éligible à l’archivage, il est possible de le tester avec l’outil FACILE du CINES.
Pour aller plus loin :
Choisir un standard de métadonnées
Les métadonnées sont les « données décrivant les données », des informations descriptives qui permettent de renseigner le contenu d’un jeu de données. La standardisation de ses métadonnées est un des enjeux majeurs de l’ouverture des données car elle permet leur interopérabilité, entre humains et machines.
Les métadonnées permettent de comprendre la composition d’un jeu de données (nature des données, contexte et méthodologie de collecte, auteur·es, date de création, lieu, pour quels objectifs, etc.), facilitent la recherche d’un jeu données et rendent possible sa réutilisation.
Les métadonnées sont de plusieurs types :
- Métadonnées descriptives de contenu : titre, sujet, description, mots clés, qualité des données, etc.
- Métadonnées techniques et de structure : format, date, etc.
- Métadonnées administratives : droits de propriété et d’usage, responsabilité (contact), préservation de la ressource, etc.
En fonction des disciplines, il existe différents standards de métadonnées. Il est recommandé d’utiliser les standards de sa communauté de recherche. L’un des plus utilisé et généraliste est le Dublin Core ; il peut être adapté à ses besoins.
Le recours à des vocabulaires contrôlés ou ontologies est également recommandé pour favoriser l’interopérabilité et la découvrabilité des données (principes FAIR). Loterre est un répertoire très utile pour les consulter.
Principaux standards de métadonnées par champs disciplinaires : Général : CERIF, Data Package, DataCite Metadata Schema, DCAT, Dublin Core, OAI-ORE, Observations and Measurements, PREMIS, PROV, RDF Data Cube Vocabulary, Repository-Developed Metadata Schemas. Sciences Sociales & Humanités : DDI, EAD, MIDAS-Heritage, OAI-ORE, QuDEx, SDMX Sciences physiques : AVM, CIF, CSMD-CCLRC, FITS, International Virtual Observatory Alliance Technical Specifications, NeXus, Observations and Measurements, PDBx/mmCIF, SDAC, SPASE Data Model. Sciences de la terre : AgMES, AVM, CF, CIM, DIF, FGDC/CSDGM, ISO 19115, Observations and Measurements, Repository-developed Metadata Schemas. Biologie : Darwin Core, EML, Genome Metadata, ISA-Tab, MIBBI, Observ-OM, OME-XML, PDBx/mmCIF, Protocol Data Element definitions, Repository-Developed Metadata Schemas. |
Pour aller plus loin :
- Rôle et structure des métadonnées (DoRANum)
- Catalogue de standards de la Research Data Alliance
- Digital Curation Standards
- FAIRsharing pour les sciences de la vie
- Un générateur de métadonnées pour les données de recherche
Nommer et organiser ses fichiers
Déterminer les règles de gestion, de classement, de conservation, d’accès et de partage des données au cours du projet, entre les différents partenaires, permet d’aborder plus sereinement la gestion de la documentation qu’il implique. Afin de déterminer vos arborescences et conventions de nommage, vous pouvez consulter ces deux fiches pratiques :
Le dépôt d’un jeu de données s’accompagne du dépôt d’un document « Lisez-moi » (« ReadMe ») explicitant les règles de nommage, de versions et d’organisation du fichier.
L’essentiel :
- Donner un nom bref et explicite
- Ne pas mettre d’espaces ni de caractères spéciaux
- Indiquer les dates au bon format
- Placer l’élément important en premier
- Indiquer les versions des documents
Source : Comment bien nommer ses fichiers ? (DoRANum)
Pour aller plus loin :
- Template pour un fichier ReadMe
- Cornell University’s Research Data Management Service Group README template
Conseils pour l'organisation des données
À lire aussi

L’équipe HAL UPCité valide désormais vos dépôts de fichiers dans HAL
Depuis le début de l’année 2025, l’équipe en charge de l’administration du portail HAL Université Paris Cité, au sein de la Direction des bibliothèques et musées, assume la validation technique et juridique de vos dépôts de fichiers avant leur mise en...

Publication sur le portail OPUS : proposez vos ouvrages avant le 5 mai
Vous êtes autrice ou auteur, directrice ou directeur d’un ouvrage scientifique et souhaitez le publier ? OPUS, portail d’édition en accès ouvert diamant de l’université Paris Cité, lance un nouvel appel à manifestation d’intérêt du 17 mars au 5 mai 2025....

La plateforme d’édition en accès ouvert OPUS référencée dans le DOAB
OPUS, plateforme d’édition en accès ouvert de l’Université Paris Cité, est désormais référencée dans le DOAB - Directory of Open Access Books. Ce référencement permet aux ouvrages publiés de bénéficier d'une meilleure visibilité, et d'une accessibilité facilitée pour...

À lire dans la collection Nouveaux classiques en science ouverte : Le Prince philosophe d’Olympe de Gouges
Publiée sur OPUS, plateforme d’édition de l’université Paris Cité, cette édition rend le texte d’Olympe de Gouges disponible en libre accès, et l'accompagne d'explications, de pistes de réflexion et d’une bibliographie récente qui en facilitent la lecture...