NSD / Arkiver data / Seleksjon og kuratering av data

Seleksjon og kuratering av data

NSD har etablert retningslinjer for seleksjon og kuratering av data. Formålet er å etablere forutsigbare og transparente kriterier for seleksjon av data som skal inngå i NSDs datasamlinger.

Retningslinjene er bygget på grunnprinsippene for offentlig finansierte forskningsdata i Norge slik de er definert i Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata:

  1. Forskningsdata skal være så åpne som mulig så lukkede som nødvendig.
  2. Forskningsdata bør håndteres og tilrettelegges slik at verdiene i dataene kan utnyttes best mulig.
  3. Beslutninger om arkivering og tilrettelegging må tas i forskerfellesskapene.

Retningslinjene er videre basert på NSDs strategi 2021–2024, og skal bidra til å implementere målet om at NSD skal være et nasjonalt knutepunkt for gjenbrukbare forskningsdata om mennesker og samfunn.

Data som inngår i NSDs samlinger

NSDs samlinger inneholder godt dokumenterte og analyseklare data. Data i våre arkiver beskriver mennesker og samfunn på ulike nivåer. Vi har data om individer, geografiske enheter, institusjoner, organisasjoner, forvaltning og det politiske system.

Forskningen og databehovene er mer og mer tverrfaglig, og data i NSDs arkiver skal kunne brukes av studenter og forskere fra alle fagfelt som trenger dataene til å belyse sine problemstillinger.

NSD jobber aktivt for å berike datasamlingene våre. Vi skal være nysgjerrige og åpne for nye trender og forskningstema, og for å ta i bruk digitale muligheter, metoder og prosesser innenfor innsamling, forvaltning, analyse og gjenbruk av data.

Vi bruker seleksjonskriteriene (se under) til å velge ut hvilke data vi skal inkludere i datasamlingene våre.

NSD har hovedfokus på kvantitative digitale data om individer, organisasjoner og administrative, politiske og geografiske enheter. Vi inkluderer også andre datatyper i samlingen som faller inenfor seleksjonskriteriene. Ulike datatyper vil bli gjenstand for ulik type kuratering og garanteres preservert i ulike tidsperioder.

Data som skal inngå i samlingen, må møte følgende sentrale formål:

  • Sekundærbruk i forskning
  • Undervisningsformål
  • Replikasjon og validering

Metoder for å drive datafangst og utvikle datasamlingene

NSD arkiverer og tilgjengeliggjør data på oppdrag fra Norges forskningsråd, Statistisk sentralbyrå, Arkivverket, European Social Survey, samt andre institusjoner vi inngår partnerskapsavtaler med.

Nasjonal strategi for tilgjengeliggjøring av forskningsdata slår fast at:
«fordi det er ressurskrevende å tilrettelegge forskningsdata for gjenbruk, er det viktig med gode kost-nytte-vurderinger av hvilke data det gir merverdi for samfunnet å bruke ressurser på å tilrettelegge. Myndighetene kan ikke gi retningslinjer for hvilke data som skal arkiveres, og i hvilken grad de skal tilrettelegges for gjenbruk. Slike vurderinger og beslutninger må tas av dem som har det nærmeste ansvaret for dataene.»

Beslutninger om arkivering og tilrettelegging skal ifølge regjeringen tas i forskerfellesskapene, og NSD vil derfor ha en tett dialog med forskningsmiljøene og -institusjonene om kriteriene i våre retningslinjer for seleksjon og utvikling av datasamlingen.

NSD identifiserer høyprioriterte data gjennom å analysere brukernes etterspørsel og følge med på utviklingen av forskningslandskapet. Listen over prioriterte data justeres årlig. Hensikten er å sørge for fangst av data av høy verdi som anses som viktige for brukerne og samtidig finnes i begrenset grad i NSDs nåværende databeholdning.

Seleksjonskriterier

Data må oppfylle følgende kriterier:

  1. Gjenbruksverdi: Data og dokumentasjon må ha høy kvalitet. Med dette mener vi at data må ha utfyllende teknisk dokumentasjon, for eksempel om utvalgsmetoder, vekting, dokumentasjon av indikatorer, filterbruk, konstruerte variabler, prosedyrer for datainnsamling. Dette gjør at sekundær-brukere kan vurdere kvaliteten og reliabiliteten av data. Data må foreligge i et format som gjør gjenbruk mulig og relevant, og ha tilstrekkelig bredde til å belyse nye forskningsspørsmål.
  2. Grad av åpenhet: Data må gjøres tilgjengelig så åpent som mulig, så lukket som nødvendig. Det vil si at data ikke kan ha mer begrensede tilgangsbetingelser enn det som er nødvendig utfra sikkerhets- og personvernhensyn, andre juridiske-, kommersielle-, økonomiske- eller andre praktiske forhold i henhold til Norges forskningsråds retningslinjer for åpen tilgang til forskningsdata.
  3. Juridiske og etiske rammer: Data må kunne arkiveres og tilgjengeliggjøres innenfor juridiske og etiske rammer, for eksempel med tanke på personvern, informasjonssikkerhet eller copyright.
  4. Relevans for oppdraget: Data må være i tråd med Norges forskningsråds gjeldende retningslinjer for åpen tilgang til forskningsdata og NSDs samfunnsoppdrag og strategi. Data må være digitale og omhandle mennesker og samfunn.
  5. Embargo: Data kan ikke ha en embargoperiode som er lenger enn nødvendig (opptil tre år etter datainnsamling/ett år etter deponering).
  6. Språk: Data er på norsk eller engelsk.
  7. Data bør i tillegg oppfylle følgende kriterier: Data bør ha god tidsmessig og geografisk dekning, med lange og konsistente tidsserier (der det er relevant) og gode muligheter for komparativ forskning.

Kurateringsnivåer

NSDs arkiv for forskningsdata opererer med fem kurateringsnivåer, hvor nivå 1–4 tilfredsstiller FAIR-prinsippene.

Kurateringsnivå 1

Data utvalgt for verdiøkende kuratering i et langtidsperspektiv med fokus på å skape relasjoner innad og på tvers av tidsserier/datasamlinger på variabelnivå. Disse dataene er tilrettelagt for sekundærbruk i forskning. Dette vil være kvantitative matrisedata, med relevant geografisk dekning, som inngår i lange og konsistente tidsserier. Data bør være åpent tilgjengelige. Data i denne kategorien inngår i NSDs hoveddatasamling og gjennomgår omfattende kuratering på variabelnivå.

Kurateringsnivå 2

Data utvalgt for deskriptiv kuratering i et langtidsperspektiv med fokus på å skape relasjoner innad og på tvers av tidsserier/datasamlinger og mellom datasett med samme tematikk på studienivå.
Disse dataene er tilrettelagt for sekundærbruk i forskning. Dette vil primært være aktuelt for kvantitative matrisedata, med relevant geografisk dekning. Som regel vil dette være tverrsnittundersøkelser eller korte tidsserier. Data bør være åpent tilgjengelige. Data i denne kategorien gjennomgår grunnleggende kuratering på variabelnivå.

Kurateringsnivå 3

Data utvalgt for kortsiktig kuratering. Disse dataene vil ikke (i utgangspunket) bli kuratert og arkivert med tanke på langsiktig bevaring. NSD garanterer at disse dataene er tilgjengelige i minimum 10 år. De vil bli sikkerhetskopiert (kun på bitnivå og ikke med tanke på langtidspreservering) og gjort tilgjengelige og synlige i NSDs katalog. Data undergår en del kvalitetssjekker og kurateres på overordnet nivå. Data skal gjøres tilgjengelig så åpent som mulig, så lukket som nødvendig. Data i denne kategorien kan for eksempel være kvalitative data i form av video, bilder og lyd.

Kurateringsnivå 4

Data utvalgt utelukkende for distribusjon («delivery only»), for eksempel der data fra tredjeparter hentes via APIer/web-tjenester og leveres til sluttbrukere via et NSD-grensesnitt.

Kurateringsnivå 5

Data som gjøres søkbare i NSDs katalog («discovery only»). Slike data vil ikke formelt være arkivert hos NSD, de vil utelukkende arkiveres andre steder (som institusjonelle arkiv), men NSD vil høste (eller opprette) metadataposter for å gjøre disse dataene mer gjenfinnbare.