Documentatie voor het (her)bruikbaar maken van data

Om data gedurende langere tijd en door meerdere mensen goed te kunnen gebruiken, is het belangrijk om goede documentatie en metadata aan je dataset toe te voegen. Dit is niet alleen voor het kunnen hergebruiken van data van belang, maar ook al gedurende het onderzoek als er bijvoorbeeld nieuwe collega's bij de projectgroep aansluiten.

 

Om data te kunnen analyseren, is het belangrijk dat het doel en de context van dataverzameling inzichtelijk zijn gemaakt, zodat de data niet verkeerd geïnterpreteerd worden. Hiervoor is het ook belangrijk om de onderzoeksconcepten, metingen of variabelen goed te annoteren. Voor eventueel hergebruik is het belangrijk om vast te leggen wie de data hebben verzameld en onder welke voorwaarden deze gebruikt kunnen worden. 

 

De volgende elementen zijn hierbij van belang:

  1. Doel van de dataverzameling
  2. Bijzonderheden of beperkingen over de data
  3. Datum van de dataverzameling
  4. Context van de dataverzameling (experimentele settings, laboratoriumcondities, of interviewcontext)
  5. Beschrijving van de variabelen
  6. Naam en versie van de software, die gebruikt is voor verwerking
  7. Bestandsnamen zijn uitgelegd of zijn duidelijk herkenbaar
  8. Duidelijk gespecificeerde en gedocumenteerde versie van de gearchiveerde en/of hergebruikte data

Verschillende soorten metadata

Metadata op datasetniveau:

  • Beschrijvende metadata zoals maker, titel, samenvatting, datum
  • Contextuele metadata zoals locatie, tijd, methoden van dataverzameling
  • Beschrijving van de verschillende typen data en hoe deze geopend of geanalyseerd kunnen worden
  • Wie wel of geen toegang tot de data mogen hebben
  • Contactgegevens van de persoon die de data gecreëerd heeft

Metadata kan toegekend worden op datasetniveau (zoals met Dublin Core) maar ook op variabelniveau. Het goed annoteren van variabelen in een dataset is cruciaal om data FAIR te maken omdat op variabelniveau inzichtelijk wordt gemaakt hoe de verschillende waarden in een dataset worden geïnterpreteerd. Als voor de metadata op variabelniveau gebruik wordt gemaakt van een metadatastandaard, is het vervolgens mogelijk om verschillende datasets met dezelfde metadatastandaard met elkaar te laten 'praten'. Oftewel, deze kunnen gecombineerd worden tot een grotere dataset, bijvoorbeeld in het onderzoeksgebied data science of in ander onderzoek waarbij gebruik wordt gemaakt van big data. 

Vaak zijn aanvullende documenten nodig om de data te kunnen interpreteren en analyseren. Denk bijvoorbeeld aan de gebruikte vragenlijst of beschrijving van de omstandigheden waarin de data zijn verzameld. Vaak is dit niet duidelijk uit de ruwe databestanden maar moet dit apart gedocumenteerd worden. 

 

Voorbeelden van aanvullende documentatie:

  • Onderzoeksopzet, methodebeschrijving
  • Codebook
  • Vragenlijsten
  • Uitdraai van Electronic Lab Notebook (ELN)
  • Een README-file waarin beschreven staat hoe de folders en bestanden gerelateerd zijn en waar je welke informatie kan vinden
  • Eventuele ontbrekende data en wijzigingen in de data
  • Code of software die voor het onderzoek is ontwikkeld of een verwijzing naar waar deze gevonden kan worden (bijvoorbeeld op GitHub)

Om de dataset te laten voldoen aan de FAIR-principes, is het van belang dat de metadata zowel door mensen als door computers leesbaar (machine-readable) is. Je verhoogt de vindbaarheid en herbruikbaarheid van de dataset nog verder door gebruik te maken van metadatastandaarden. Metadatastandaarden zijn afspraken over hoe je een set van metadata structureert, hoe informatie gecodeerd is en hoe deze geïnterpreteerd moeten worden. Een bekende metadata-standaard is de Dublin Core Metadata Element Set.

[anchornavigation]