De gegevens die ten grondslag liggen aan wetenschappelijk onderzoek zijn de drijvende krachten achter de vooruitgang in het wetenschappelijk begrip. Deze datasets bevatten cruciale aanwijzingen voor veel van de meest prangende vragen waarmee wetenschappers vandaag de dag worden geconfronteerd, en kunnen nieuw licht werpen op bevindingen uit het verleden – het bestaande wetenschappelijk record valideren of ontkrachten, en mogelijkheden openen voor nieuw onderzoek en nieuwe inzichten. Dit soort informatie verdwijnt echter vaak tijdens het publiceren van wetenschappelijke bevindingen, omdat gegevens niet worden gedeeld of niet beschikbaar worden gesteld in een formaat dat gemakkelijk toegankelijk en te ondervragen is.
'In de wetenschap worden veel prachtige werkstukken uiteindelijk gepubliceerd als pdf-documenten. Het kunnen afdrukken en lezen van een artikel is geweldig voor mensen, maar veel informatie die is gebruikt bij het construeren van wat er in de pdf wordt gerapporteerd, blijft uiteindelijk verborgen. Als we een totaaloverzicht willen krijgen en willen kijken naar alle experimenten die zijn gedaan en gerapporteerd in de literatuur met betrekking tot een bepaald proces of een bepaalde reactie, is het erg moeilijk voor ons om al die informatie uit al die pdf's te halen. ”, legt Simon Hodson, uitvoerend directeur van ISC-CODATA.
In de woorden van een chemicus Peter Murray-Rust, bruikbare informatie uit PDF's halen is vergelijkbaar met 'een koe reconstrueren uit een hamburger'.
Er is een schat aan wetenschappelijke gegevens die in de loop van vele jaren van onderzoek zijn geproduceerd, maar in veel gevallen is het niet mogelijk - en zeker niet gemakkelijk - om die gegevens te vinden en te bevragen om ze te vergelijken met andere bevindingen of lopend werk. Geconfronteerd met dit raadsel, en in lijn met de noodzaak van open wetenschap, werken onderzoekers momenteel aan het verder mogelijk maken van datagestuurde wetenschap via raamwerken die de toegankelijkheid en interoperabiliteit van data ondersteunen.
Een van de nieuwste en meest prominente benaderingen om dit te doen is FAIR, waarin wordt samengevat wat gegevens moeten zijn om zo bruikbaar en waardevol mogelijk te zijn: FAIR-gegevens zijn gegevens die Fonoplosbaar; Atoegankelijk; Iniet-opereerbaar en Re-bruikbaar.
'Vindbaar' betekent dat de wetenschappelijke gegevens die worden gepubliceerd als onderdeel van het onderbouwende bewijsmateriaal voor wetenschappelijke bevindingen, of die worden geproduceerd als resultaat van door de overheid gefinancierd onderzoek, voor anderen beschikbaar moeten zijn om te vinden en te gebruiken. Gegevens moeten een persistente en ondubbelzinnige identificatie hebben, evenals voldoende rijke metadata om ontdekking mogelijk te maken.
“Er zijn goede redenen om sommige gegevens te beschermen”, zegt Simon Hodson, “maar waar die overwegingen niet van toepassing zijn, betekenen de FAIR-principes dat je via internet toegang moet hebben tot de gegevens, eventueel met autorisatie als er beveiligingsproblemen zijn. . Cruciaal is dat de FAIR-principes ervan uitgaan dat wetenschappers programmatisch toegang moeten hebben tot onderzoeksgegevens, dat wil zeggen ook via hun machines. Het is niet alleen zo dat je de gegevens kunt opvragen en downloaden: je zou ze idealiter met computercode moeten kunnen opvragen.”
De i in FAIR verwijst naar 'interoperabel' – wat betekent dat je gegevens uit verschillende bronnen kunt combineren: dit hangt grotendeels af van het beschikken over standaarden voor metadata en overeengekomen terminologieën of vocabulaires. De metadata voor een sociaal onderzoek uit een bepaald land zouden bijvoorbeeld duidelijk uitleggen welke leeftijdscategorieën of sociaal-economische categorieën zijn gebruikt, en waar de categoriegrenzen liggen, zodat de gegevens gemakkelijk kunnen worden vergeleken met gegevens uit een sociaal onderzoek. in een ander land.
R staat voor herbruikbaarheid: dit houdt onder meer in dat je een licentie hebt waarmee mensen de gegevens mogen hergebruiken en waarin duidelijk de voorwaarden voor eventueel hergebruik staan vermeld. Het betekent ook dat er informatie moet zijn over de herkomst van de gegevens (bijvoorbeeld hoe deze zijn verzameld, welke aanpassingen of kalibraties zijn gebruikt, welke verdere verwerking en opschoning de gegevens hebben ondergaan, enz.), zodat onderzoekers de potentiële sterke punten en beperkingen van de gegevens kunnen begrijpen. de gegevens en gebruik deze met vertrouwen.
FAIR-data zijn bovendien ‘Fully AI Ready’. Om machine learning te kunnen gebruiken om patronen te identificeren en resultaten in verschillende datasets te kunnen voorspellen, is het essentieel om definities te hebben voor verschillende variabelen in de dataset, en moeten de definities gemakkelijk toegankelijk zijn.
“Als data en aanverwante diensten FAIR zijn, dan wordt alles zo beschreven dat de computer – en iedereen die de code gebruikt – weet welke definitie is gebruikt voor het concept en de bijbehorende variabele, de manier waarop de metingen zijn verkregen, en de waardeert zichzelf. Vervolgens kunnen we interactief omgaan met de datacode, deze misschien ontleden, een subset nemen en deze combineren met andere gegevens. Als de data FAIR zijn, kan dit veel efficiënter en levert analyse en onderzoek op zichzelf voordelen op”, zegt Simon Hodson.
Het idee van gestandaardiseerde vocabulaires waarmee de kernconcepten in verschillende domeinen van de wetenschap tot uitdrukking kunnen worden gebracht, is geenszins nieuw. De Internationale unie van zuivere en toegepaste chemie (IUPAC), lid van de ISC, heeft sinds de oprichting in 1919 gereageerd op de behoefte aan internationale standaardisatie in de chemie. Tegenwoordig is het absoluut noodzakelijk dat standaardvocabulaires worden aangepast aan het digitale tijdperk en zelf EERLIJK worden gemaakt. Als resultaat van een workshop georganiseerd met het Data Documentation-initiatief, publiceerde een groep onder leiding van Simon Cox (een voormalig lid van het CODATA Executive Committee en een expert op het gebied van het gebruik van terminologieën) 'Tien eenvoudige regels om een woordenschat FAIR te maken.
Op basis van deze richtlijnen werkt CODATA momenteel aan een FAIR-vocabulaire voor de Gevareninformatieprofielen gepubliceerd door de ISC in oktober 2021. Hierdoor ontstaat een webgebaseerde terminologie voor alle beschreven gevaren, die beschikbaar zal worden gesteld op GitHub en via de Research Vocabularies Australia-service, zodat iedereen deze kan gebruiken. Dit betekent dat regeringen die hun strategieën en acties op het gebied van risicovermindering en -beheer ontwikkelen, de gegevens snel kunnen vergelijken met bijvoorbeeld hun eigen statistieken over rampenverlies of rapportagekaders.
CODATA werkt ook aan FAIR-vocabulaires met verschillende ISC-leden, zoals met de International Union for the Scientific Study of Population (IUSSP). Demografie is een veld dat rijk is aan gegevens en zeer relevant is voor het begrijpen van duurzame menselijke ontwikkeling. Door de belangrijkste terminologieën in de bevolkingswetenschappen FAIR te maken, zal IUSSP bijdragen aan het bruikbaarder maken van demografische gegevens voor statistische bureaus en sociale wetenschappers, evenals voor degenen die dergelijke gegevens gebruiken in de vele vakgebieden die gebruik maken van bevolkingsgegevens, waaronder de meeste gebieden die verband houden met de duurzame ontwikkeling van de samenleving. Ontwikkelingsdoelen (SDG’s).
CODATA zal ook soortgelijk werk ondernemen met IUPAC als onderdeel van het nieuwe tweejarige project 'Wereldtentoonstelling: Mondiale samenwerking op het gebied van FAIR-databeleid en -praktijk', gefinancierd door de Europese Commissie via haar Kaderprogramma Horizon Europa. Gecoördineerd door CODATAMet Alliantie van onderzoeksgegevens Association als belangrijke partner zal het WorldFAIR-project werken met een reeks van elf domein- en domeinoverschrijdende casestudies om de implementatie van de FAIR-dataprincipes te bevorderen, in het bijzonder die voor interoperabiliteit, en om een reeks aanbevelingen en een raamwerk voor FAIR te ontwikkelen. beoordeling in een reeks disciplines of interdisciplinaire onderzoeksgebieden. WorldFAIR zal de kern vormen van CODATA's bijdrage aan het ISC-project Gegevens laten werken voor grote domeinoverschrijdende uitdagingen.
IUPAC leidt de chemie-casestudy en onderzoekt hoe de informatiemiddelen en terminologieën die IUPAC beheert geschikt kunnen worden gemaakt voor het tijdperk van digitalisering en FAIR-gegevens. IUPAC zal ook samenwerken met andere WorldFAIR-casestudies over nanomaterialen en geochemie.
Een andere WorldFAIR-partner is Drexel University, VS, die leiding gaf aan het project Salud Urbana en América Latina (“Urban Health in Latin America”) (SALURBAL). SALURBAL ontwikkelde een dataset voor meerdere landen over domeinen zoals demografische kenmerken, sterftecijfers, gezondheidsgedrag en -risico's, de sociale omgeving en de gebouwde omgeving, waardoor vergelijkingen mogelijk zijn van steden en buurten binnen steden in heel Latijns-Amerika. Deze geweldige hulpbron zal beleidsrelevant onderzoek mogelijk maken naar de oorzaken van gezondheid en ongelijkheid op gezondheidsgebied in de steden in de regio. SALURBAL heeft al uitgebreid werk verricht op het gebied van gegevensharmonisatie. WorldFAIR zal helpen meer licht te werpen op dit werk en zal aanbevelingen doen voor FAIR-terminologieën in de stedelijke gezondheidszorg.
CAG-CEPT-, CODATA- en UHWB-podcastserie over 'Data-Knowledge-Action for Urban Systems
De podcastserie Data-Knowledge-Action for Urban Systems onderzoekt systemen die worden gebruikt om intelligente stedelijke systemen te bouwen. De serie reflecteert op de systematische veranderingen die nodig zijn om steden adaptief en intelligent te maken voor het omgaan met stedelijk welzijn. Het wordt gehost door het Center for Applied Geomatics, CODATA en het Urban Health and Wellbeing Program (UHWB).
Op 15 en 16 februari gaf Simon Hodson een briefing over het werk van CODATA als onderdeel van een kennisuitwisselingssessie voor ISC-leden over Convergentie van wetenschap en technologie in een digitaal tijdperk.
Meer informatie over het WorldFAIR-project, over het werk van CODATA op het gebied van FAIR-vocabulaires en over initiatieven in verschillende onderzoeksdisciplines om data en informatiemiddelen FAIR te maken, vindt u op Internationale dataweek 2022, 20-23 juni.
Afbeelding door École polytechnique – J.Barande via Flickr.