Data publiceren: een introductie

Het publiceren van onderzoeksdata is het vindbaar, citeerbaar en (her)bruikbaar maken van de (meta)data onder een licentie die duidelijk maakt wat er mag en kan met de data. Het publiceren van data wordt door onderzoekers en in de wetenschappelijke literatuur trouwens vaak data sharing genoemd (RDNL, 2022).

 

Het publiceren van data heeft meerdere voordelen:

  • Het vergroot de impact van je werk doordat de data voor verder onderzoek gebruikt kan worden, bijvoorbeeld voor meta-analyses
  • Het vergroot de zichtbaarheid van onderzoekers en hun werk en kan leiden tot nieuwe (interdisciplinaire) samenwerking
  • het vermindert het dupliceren van dataverzameling
  • Het vergroot de transparantie van je onderzoek door deze controleerbaar, verifieerbaar en reproduceerbaar te maken.

Self-check: Kan mijn data gepubliceerd worden?

Waar kun je aan denken bij het publiceren van een dataset?

De data kunnen beperkt toegankelijk zijn als gevolg van voorwaarden of specifieke omstandigheden, zoals privacy van deelnemers of als er sprake is van bedrijfsgevoelige informatie. Ook kunnen er andere redenen zijn om data niet open beschikbaar te stellen, Voor meer informatie kan contact worden opgenomen met de Informatiespecialist Onderzoek van jouw kenniscentrum.

 

Vaak is het wel mogelijk om de metadata van de dataset te publiceren of om de data 'op aanvraag' ter beschikking te stellen. Op die manier bescherm je gevoelige data en houd je als onderzoeker de controle over door wie en voor welk doel de data gebruikt kunnen worden.

Een licentie is een manier om te communiceren onder welke voorwaarden een dataset gebruikt kan worden. Bijvoorbeeld het wel of niet kunnen lezen, hergebruiken, delen en bewerken van de data. Vaak wordt als basisvoorwaarde gesteld dat bij gebruik van de data, de oorspronkelijke maker geciteerd moet worden.

 

Om het hergebruik van data te optimaliseren, wordt geadviseerd een licentie te kiezen die:

  • data beschikbaar maakt voor een zo breed mogelijk publiek;
  • zoveel mogelijk soorten gebruik toestaat (waar mogelijk).

Het Open Science-beleid van de Hanzehogeschool raadt hiervoor het gebruik van Creative Commons licenties aan. Bij gesubsidieerd onderzoek moet de licentie daarnaast ook in overeenstemming zijn met het databeleid van de subsidiegever. 

Eén van de voordelen van het publiceren van een dataset is dat je werk geciteerd kan worden door jezelf en andere onderzoekers. Het toekennen van een Persistent Identifier (PID) helpt hierbij. Een PID is een duurzame referentie naar een document, file, webpagina of ander object (fysiek of virtueel). Veel data repositories gebruiken hiervoor de Digital Object Identifier (DOI), die ook door veel uitgevers van wetenschappelijke tijdschriften voor artikelen wordt gehanteerd. 

 

Daarnaast kun je een dataset vaak ook koppelen aan een persoonlijke identifier, zoals ORCID. Dit komt de online vindbaarheid en zichtbaarheid van je werk ten goede.

Als je data volgens de FAIR-principes beschikbaar wilt maken, is het van belang een goede repository te zoeken. Criteria waar je  daarbij aan kunt denken zijn:

  • Hoe bekend of vindbaar is de repository bij/door onderzoekers in jouw vakgebied?
  • Geeft de repository een unieke identifier, zoals een DOI, aan de dataset?
  • Werkt de repository met metadatastandaarden (zoals Dublin Core)?
  • Garandeert de repository de data ook in de toekomst te blijven archiveren en beschikbaar te stellen?

Het is aangeraden om onderzoeksdata te deponeren in een data-archief dat als Trusted Digital Repository (TDR) staat aangemerkt. Dit houdt in dat deze door een derde, onafhankelijke, organisatie is beoordeeld als betrouwbaar. Een bekend certificaat hiervoor is de CoreTrustSeal, geinitieerd door KNAW-DANS.

Waar kun je data publiceren?

 

De Hanzehogeschool maakt voor het publiceren en hergebruik van data(sets) gebruik van de nationale data repository DataverseNL. Bij DataverseNL is het mogelijk onderzoeksdata online op te slaan, te delen en te publiceren, gedurende de onderzoeksperiode tot aan de voorgeschreven termijn van tien jaar na de voltooiing ervan. DataverseNL is een Nederlands netwerk van data repositories dat gebruikmaakt van de Dataverse software ontwikkeld door de Universiteit van Harvard (VS). De software wordt wereldwijd gebruikt. DataverseNL wordt beheerd door de Data Archiving and Networked Services (DANS).

 

Ondersteuning vanuit de Hanze

De Hanzehogeschool heeft een eigen Dataverse-account waar onderzoekers datasets beschikbaar kunnen stellen. Dit is bijvoorbeeld een goede manier om te voldoen aan FAIR data voorwaarden van subsidiegevers. Bij publicatie ontvangt jouw dataset een DOI (unieke identifier) waarmee jijzelf en anderen eenvoudig jouw dataset kunnen citeren.

Wij ondersteunen bij dit proces door samen met de onderzoeker de data en metadata gereed te maken voor publicatie. Na het aanleveren van de dataset en de bijbehorende metadata, draagt één van de Informatiespecialisten Onderzoek zorg voor het proces van publiceren, uiteraard in overeenstemming met de onderzoeker. Lees meer over dit proces op Mijnhanze.nl bij Onderzoeksdata publiceren.

 

Dataverse logo

 

DANS EASY is een online archiveringssysteem voor het deponeren en hergebruiken van onderzoeksdata. EASY bevat datasets uit onder andere de geesteswetenschappen, gezondheidswetenschappen, maatschappij- en gedragswetenschappen, oral history en ruimtelijke wetenschappen. Daarnaast biedt EASY toegang tot de beveiligde microdata van het Centraal Bureau voor de Statistiek (CBS) en is het E-depot voor de Nederlandse Archeologie een vaste dienst van DANS.

 

 

4TU.ResearchData is een online data repository met een focus op technische onderzoeksdomeinen. 4TU.ResearchData biedt lange termijn-opslag, archivering, toegang tot en curatie van onderzoeksdata. De repository is opgericht in 2010 en wordt  beheerd met als doel dat onderzoekers (van universiteiten en andere instellingen over de hele wereld) hun datasets kunnen uploaden en delen, en voor andere onderzoekers om gegevens te downloaden en te gebruiken in hun onderzoek.

Nadat je onderzoeksdata in DataverseNL of een andere repository is geplaatst, kun je deze linken in Pure. Je voert dan, net als bij het plaatsen van artikelen, beschrijvende metadata in Pure in. Je kunt een dataset koppelen aan een project of publicatie. Hiermee vergroot je de transparantie in je onderzoek en vergroot je de zichtbaarheid en vindbaarheid van je werk.

 De Informatiespecialist Onderzoek van jouw kenniscentrum kan de metadata over jouw gepubliceerde dataset voor je in Pure zetten. 

 

In sommige onderzoeksdomeinen heeft het de voorkeur om datasets te publiceren in een vakspecifieke repository. Bijvoorbeeld omdat deze repositories bekend en veel gebruikt worden binnen jouw vakgebied. De keuze voor een vakspecifieke repository geeft daarom meer zichtbaarheid aan de dataset dan wanneer voor een generieke repository als Dataverse wordt gekozen.

 

In de Registry or Research Data Repositories, Re3data.org, kun je zoeken of er geschikte repositories zijn in jouw vakgebied. Je kunt bijvoorbeeld zeer specifiek op subject zoeken. Ook kun je repositories filteren op andere eigenschappen, bijvoorbeeld of ze een DOI of andere unieke identifier aan datasets toekennen, of ze gecertificeerd zijn, of bepaalde metadatastandaarden gebruiken.

 

Een data article of data paper beschrijft een dataset met details over hoe de data is verzameld of gegenereerd en andere kenmerken die de data bevat. Voor het publiceren van een data article hoeven geen vernieuwende analysemethoden te worden toegepast en er hoeven geen baanbrekende conclusies te worden vermeldt. In plaats daarvan maakt het voor de lezer inzichtelijk wanneer, hoe en waarom de data zijn verzameld, wat het data-product is en waar de data mogelijk voor gebruikt kunnen worden.

 

Een bekend tijdschrift om een data article te publiceren is Data in Brief van Elsevier.

Data citeren

Voor het citeren van een dataset wordt aangeraden een erkende datacitatie-stijl te gebruiken, met elementen uit bijv. de internationaal erkende DataCite-standaard. Zowel Dataverse/DansEasy als 4TU.ResearchData hanteren deze standaard.

 

Elementen van datacitatie:

  • De naam of namen en/of organisatie van degene(n) die de dataset geproduceerd hebben
  • Het jaar waarin de dataset geproduceerd is (tussen haakjes)
  • De titel van de dataset
  • De naam van de organisatie die het archief beheert waarin de dataset gearchiveerd is
  • De persistent identifier van de dataset als volledige URL.

 

Voorbeeld van datacitatie:

Polstra, Louis; Klumpenaar, Desiree; Veldboer, Lex; De Lange, Meta; Keinemans, Sabrina; Potting, Marianne, 2021, "Bridging Differences", https://doi.org/10.34894/7WGFVP, DataverseNL, V2

Data delen bij publicatie in een tijdschrift

Bij het indienen van een wetenschappelijk artikel voor publicatie, kan de uitgever vragen om het beschikbaar stellen van de data. Hiervoor zijn verschillende opties:

  • Plaatsen in een online data repository.
  • Beschikbaar stellen van de data in de 'supplementary materials' of als onderdeel van het artikel. Dit is echter alleen aan te raden in het geval van Open Access tijdschriften. Bij 'gesloten' tijdschriften is er het risico dat je de gebruiksrechten van de data overdraagt aan de uitgever. Je hebt dan toestemming van de uitgever nodig om de data voor andere doeleinden te mogen gebruiken.

 

Data availability statement

Een 'data availability statement' (ook wel 'data access statement' genoemd) is een korte paragraaf in een artikel waarin vermeld staat waar de data waarop de onderzoeksresultaten gebaseerd zijn, te vinden zijn. Het laat de lezer weten waar de data beschikbaar worden gesteld en onder welke voorwaarden deze toegankelijk zijn. Als je de data in een online repository hebt geplaatst kun je in het 'data availability statement' verwijzen naar deze repository en zelfs de bijbehorende DOI of URL opnemen.

Ook als een uitgever hier niet expliciet om vraagt, is het een goed idee om een dergelijke paragraaf in iedere publicatie op te nemen. Dit draagt namelijk bij aan het kunnen valideren, citeren en hergebruiken van de data uit je onderzoek.

 

Zie voor voorbeeldteksten voor verschillende scenario's deze pagina van Taylor & Francis.

[anchornavigation]