Om data gedurende langere tijd en door meerdere mensen goed te kunnen gebruiken, is het belangrijk om goede documentatie en metadata aan je dataset toe te voegen. Dit is niet alleen voor het kunnen hergebruiken van data van belang, maar ook al gedurende het onderzoek als er bijvoorbeeld nieuwe collega's bij de projectgroep aansluiten.
Om data te kunnen analyseren, is het belangrijk dat het doel en de context van dataverzameling inzichtelijk zijn gemaakt, zodat de data niet verkeerd geïnterpreteerd worden. Hiervoor is het ook belangrijk om de onderzoeksconcepten, metingen of variabelen goed te annoteren. Voor eventueel hergebruik is het belangrijk om vast te leggen wie de data hebben verzameld en onder welke voorwaarden deze gebruikt kunnen worden.
De volgende elementen zijn hierbij van belang:
Metadata op datasetniveau:
Metadata kan toegekend worden op datasetniveau (zoals met Dublin Core) maar ook op variabelniveau. Het goed annoteren van variabelen in een dataset is cruciaal om data FAIR te maken omdat op variabelniveau inzichtelijk wordt gemaakt hoe de verschillende waarden in een dataset worden geïnterpreteerd. Als voor de metadata op variabelniveau gebruik wordt gemaakt van een metadatastandaard, is het vervolgens mogelijk om verschillende datasets met dezelfde metadatastandaard met elkaar te laten 'praten'. Oftewel, deze kunnen gecombineerd worden tot een grotere dataset, bijvoorbeeld in het onderzoeksgebied data science of in ander onderzoek waarbij gebruik wordt gemaakt van big data.
Vaak zijn aanvullende documenten nodig om de data te kunnen interpreteren en analyseren. Denk bijvoorbeeld aan de gebruikte vragenlijst of beschrijving van de omstandigheden waarin de data zijn verzameld. Vaak is dit niet duidelijk uit de ruwe databestanden maar moet dit apart gedocumenteerd worden.
Voorbeelden van aanvullende documentatie:
Om de dataset te laten voldoen aan de FAIR-principes, is het van belang dat de metadata zowel door mensen als door computers leesbaar (machine-readable) is. Je verhoogt de vindbaarheid en herbruikbaarheid van de dataset nog verder door gebruik te maken van metadatastandaarden. Metadatastandaarden zijn afspraken over hoe je een set van metadata structureert, hoe informatie gecodeerd is en hoe deze geïnterpreteerd moeten worden. Een bekende metadata-standaard is de Dublin Core Metadata Element Set.