Digitale hulpmiddelen bieden steeds meer mogelijkheden voor collaboratieve wetenschap om wereldwijde uitdagingen aan te pakken. Maar al te vaak blijven waardevolle gegevens die nodig zijn om dat werk te onderbouwen, buiten bereik van onderzoekers.
Gegevens kunnen verstopt zitten in een ondoorzoekbare verzameling, gecodeerd zijn met idiosyncratische terminologie of op een manier die niet eenvoudig te combineren is met andere gegevens. Het kan ook zijn dat ze niet direct bruikbaar zijn omdat wetenschappers de details van de gegevens zelf, zoals de oorsprong of de gebruiksvoorwaarden, niet kunnen verifiëren.
“Dit is een probleem dat eigenlijk net zo oud is als de wetenschap zelf”, legt Simon Hodson, de uitvoerend directeur van de Gegevenscommissie (CODATA) van de International Science Council (ISC), die zich inzet voor het verbeteren van de beschikbaarheid en bruikbaarheid van data.
Deze dataproblemen kunnen onderzoeksmogelijkheden beperken en tijd en geld verspillen. Volgens onderzoek Volgens een rapport van de Europese Commissie uit 2018 is het opschonen van data van slechte kwaliteit om deze bruikbaar te maken verreweg de meest tijdrovende taak voor een gemiddeld data-analyseproject. Deze taak kan oplopen tot 80% van de totale inspanning.
De Wereldtentoonstelling project, een samenwerking tussen CODATA en de International Science Council (ISC), pakte dit probleem aan. Het project had als doel om “data te laten werken” door de acceptatie van de FAIR (Vindbare, Toegankelijke, Interoperabele, Herbruikbare) dataprincipes, die beter databeheer en onderzoek met behulp van machineondersteunde analyse bevorderen.
Nu het project is afgerond, wil CODATA het initiatief voortzetten en uitbreiden met WereldFAIR+, waarbij nieuwe partners en internationale casestudies worden betrokken, zodat de lessen die zijn geleerd tijdens het tweejarige WorldFAIR-project in de praktijk worden gebracht.
De nieuwe fase zal worden gestructureerd als een "federatie" van projecten, die een kader voor samenwerking biedt waar wetenschappers technische expertise kunnen delen en op elkaars werk kunnen voortbouwen. CODATA nodigt potentiële partners uit om casestudies voor te stellen en zich aan te sluiten.
Het eerste werk van CODATA, dat de basis vormde voor WorldFAIR, begon in 2017, met steun van de ISC en financiering van de China Vereniging voor Wetenschap en Technologie. Dat vormende werk omvatte workshops die leidden tot de ontwikkeling van drie casestudies, die elk gericht waren op datagebruik in een specifiek veld: infectieziekten, stadsplanning en rampenrisicovermindering. In de beginfase van het project ontwikkelde CODATA ook een belangrijk partnerschap met het Data Documentation Initiative (DDI).
Voortbouwend op deze inspanningen heeft CODATA financiering van de Europese Commissie voor WorldFAIR. Het project ondersteunde 11 casestudies die het gebruik van data in een breed scala aan velden onderzochten, waaronder cultureel erfgoed, nanomaterialen en oceanologie. De casestudies besloegen 13 landen, waaronder Brazilië, Kenia, Nieuw-Zeeland en de VS
De lessen die uit het project zijn geleerd, vormden de basis voor 11 beleidsaanbevelingen om het gebruik en de beschikbaarheid van gegevens voor de wetenschap te verbeteren, en leidde tot de ontwikkeling van de Interoperabiliteitskader voor meerdere domeinen (CDIF), dat tot doel heeft gegevens uit verschillende wetenschappelijke vakgebieden beter interoperabel te maken.
Tegelijkertijd heeft CODATA nieuwe Terminologie voor onderzoeksgegevensbeheer, die duidelijke definities geeft van termen die in het veld worden gebruikt; die termen zijn nu gepubliceerd als een machineleesbaar “EERLIJKE woordenschat”, en zal binnenkort online beschikbaar zijn in een voor mensen gemakkelijker leesbaar formaat.
Elk van de 11 casestudies genereerde ook zijn eigen rapporten en richtlijnen voor datagebruik, met als doel aanbevelingen te doen die relevant zijn voor verschillende wetenschappelijke domeinen.
Een van de casestudies bekeek agrarische biodiversiteit, met de focus op bestuiving – een veld waar het model voor het beschrijven en categoriseren van data nog steeds wordt gedefinieerd. Voortbouwend op data en input van collega's over de hele wereld, ontwikkelden onderzoekers uit een half dozijn landen – Brazilië, Kenia, Argentinië, de VS, het VK en Nederland – een uitgebreide gids en set tools voor gegevens over de interactie tussen planten en bestuivers.
Het is een heel specifiek onderwerp, maar wel een dat bijna overal relevant is voor wetenschappers in allerlei verschillende vakgebieden. Zij kunnen nu profiteren van een uniforme, gestandaardiseerde manier om met de gegevens om te gaan. Zo kunnen ze makkelijker voortbouwen op het werk van collega's en hun eigen onderzoek versnellen.
“Door over te stappen van diverse benaderingen en geïsoleerde initiatieven naar breed beschikbare FAIR-data over plant-bestuivingsinteracties voor wetenschappers en beleidsmakers, kunnen we integratieve studies ontwikkelen die ons begrip van de biologie, het gedrag, de ecologie, de fenologie en de evolutie van soorten vergroten”, schrijf onderzoekers die aan de casestudy hebben gewerkt.
In een andere casestudy keken onderzoekers naar ramp risicoreductie"Aangezien klimaatverandering en toenemende bevolkingsaantallen waarschijnlijk zowel de ernst als de frequentie van rampen zullen doen toenemen, wordt de behoefte aan betrouwbare gegevens om onze reacties te informeren steeds belangrijker", schrijven ze.
Wetenschappers en nationale en internationale instanties die werken aan rampenrisico's kijken naar het verleden om de impact van mogelijke toekomstige gebeurtenissen in te schatten en te begrijpen hoe ze deze kunnen verzachten en herstellen. Ze maken ook gebruik van gegevens die voortdurend worden geproduceerd door sensoren op aarde en op satellieten, beheerd door openbare en particuliere bronnen.
Maar in de case study vonden onderzoekers het lastig om de informatie te krijgen die nodig was om nauwkeurige beoordelingen te maken, omdat veel van de relevante data niet past bij de FAIR dataprincipes. Essentiële informatie ontbreekt vaak, zoals het aantal gewonden bij een ramp of hoe snel de gebeurtenis zich ontvouwde. In andere gevallen gebruiken nationale autoriteiten hun eigen methoden om belangrijke datapunten te berekenen zonder hun werk te laten zien, waardoor het voor anderen moeilijk is om te vergelijken.
Op basis van hun uitgebreide onderzoek deed het case study-team een reeks aanbevelingen voor praktijken die het gemakkelijker zouden moeten maken om op bewijs gebaseerde beleidsbeslissingen te nemen op dit steeds urgenter wordende gebied – “een fundamentele stap in de richting van het bouwen van veiligere, veerkrachtigere gemeenschappen en naties”, schrijven ze.
Onderzoekers van de International Union of Pure and Applied Chemistry (IUPAC) ging aan de slag met een casestudy waarin werd gekeken naar hoe gegevens en terminologie met betrekking tot chemicaliën gemakkelijker bruikbaar gemaakt kunnen worden voor zowel mensen als machines.
IUPAC heeft meer dan een eeuw ervaring chemici bijeen te roepen om de manier te definiëren en standaardiseren waarop wetenschappers in het veld met chemicaliën werken en erover praten. Maar aangezien digitale tools – en steeds vaker AI en gerelateerde technologie – nieuwe manieren van werken bieden, onderzocht de IUPAC-casestudy hoe die standaarden efficiënter gemaakt kunnen worden en het voor andere wetenschappers makkelijker kunnen maken om chemische data te hergebruiken.
Een van de producten uit de casestudy was een “kookboek”, een open bron van richtlijnen om wetenschappers – waaronder studenten, docenten en werkende professionals – te helpen begrijpen hoe ze met chemische gegevens kunnen werken en hoe ze hun eigen gegevens toegankelijker kunnen maken voor anderen.
Het project beschreef ook een ambitieus nieuw open digitaal protocol dat veel verschillende mondiale chemische databases met elkaar zou kunnen verbinden, waardoor wetenschappers met één enkele query gegevens kunnen vinden en openen – en eveneens kunnen controleren of hun eigen gegevens machinaal leesbaar zijn.
Hodson legt uit dat het een eyeopener is om wetenschappers bij elkaar te brengen om te praten over de data die ze produceren en om te proberen te begrijpen hoe anderen met hun eigen data omgaan.
En door duidelijke normen en definities op te stellen, helpen wetenschappers niet alleen het huidige onderzoek, maar maken ze het ook makkelijker voor volgende generaties om voort te bouwen op hun werk – misschien op manieren die de oorspronkelijke auteurs nooit hebben overwogen, voegt hij toe.
"Iets wat we ontdekten tijdens WorldFAIR was hoe fascinerend en nuttig het was om deze gesprekken te voeren, om alle casestudies in een kamer te krijgen en ze te laten praten over hun gegevens en wat ze doen en hoe het werkt en hoe ze het beschrijven - en in sommige gevallen verbanden te identificeren die we niet per se van tevoren hadden bedacht", zegt hij.
Afbeelding door Taylor Vic on Unsplash.
Disclaimer
De informatie, meningen en aanbevelingen die in onze gastblogs worden gepresenteerd, zijn die van de individuele auteurs en weerspiegelen niet noodzakelijkerwijs de waarden en overtuigingen van de International Science Council.