3: Teknologiutvikling

Dette kapittelet tar for seg teknologiutviklingen og dens rolle i arbeidet med dataformidling - fra å frakte kasser med hullkort til å utvikle en digital plattform for analyse av registerdata, med innebygget personvern.

Skrevet av: Atle Alvheim, NSD.
Denne teksten er skrevet i forbindelse med NSDs 50-årsjubileum,​ og er "kapittel 3" i Historien om NSD.

Fra Kommunedatabasen til microdata.no

NSD ble etablert på et tidspunkt hvor hvert universitet stort sett hadde en stor datamaskin, en “mainframe”, med noe begrenset programvaretilfang og der de naturvitenskapelige fagene dominerte bruken av utstyret.

Da NSD flyttet hovedkontoret til Bergen hadde UiB skaffet seg en Univac, samme type maskin som UiT/NTH hadde, mens UiO og UiTø hadde andre typer mainframe, og ingen hadde lenger IBM.

I utgangspunktet burde en NSD-ansatt forstå både fag, metode og programmering, eller minst to av tre punkter.

Programmering betydde stort sett Fortran, det var nyttig i arbeidet med data. Ellers var dataarbeidet i stor grad å bruke statistiske analysepakker og der var ikke alle miljøer samstemt.

Fra University of Michigan, Institute for Social Research hadde Bergensmiljøet tidligere tilgang til OSIRIS, men det forutsatte at man hadde en IBM stormaskin. Fra omtrent 1971 var det ingen universiteter i Norge som hadde det, derfor ble SPSS ganske dominerende, selv om Oslo-miljøet lenge forsvarte den egenutviklede programpakken DDPP.

SPSS hadde den fordelen at pakken fungerte på alle maskiner og hadde en meget god manual som også fungerte godt som metodebok. SPSS var utviklet av samfunnsvitere og derfor var manualen ganske forståelig og relevant, de kom også tidlig med et transportformat som gjorde det enkelt å overføre data mellom ulike typer computere. Og store computere var det mange ulike av, Statens driftssentral, som SSB brukte en ganske lang periode hadde eksempelvis en Honeywell-maskin.

Mytene ville ha det til at SPSS-manualen versjon 9 solgte like mye som Bibelen.

Etter 1980 kom SAS på markedet, men ganske lenge var den pakken bare tilgjengelig for IBM-maskiner, for den var programmert i IBM Assembler, og IBM hadde man bare noe senere i SSB og på Ås. Distriktshøgskolene representerte stort sett mindre forskningsmiljøer, der var det vanskeligere å finne løsninger for dataanalyse.

DH-skolene hadde stort sett bare den norske NORD-maskinen, og den hadde lite tilgjengelig software for analyse, selv om den var god på tekstbehandling.

Programmeringsoppgavene

Kommunedatabanken og kartsystemene var de store programmeringsjobbene på NSD, det ble hele tiden arbeidet med implementering, videreutvikling eller tilpasning. Disc som masselager fantes knapt, det ble brukt mye magnetisk tape og all fysisk flytting av data skjedde på tape. En magnetisk tape må hentes i hyllen og monteres på tapestasjonen, så interaktivitet eksisterte ikke, det kom seinere.

Om man bestilte et datasett fra ICPSR så skjedde det i brevs form og data kom på en 2400 fots tape etter en måned. På toppen av dette fantes omtrent ingen opplæring i programmering, så det var fritt frem for initiativrike autodidakter. Initiativ trumfet noen ganger kvalitet, men sett i retrospekt ble det tenkt og implementert mange svært kloke praktiske løsninger.

Avstandene mellom ulike fagmiljøer var kort. I Bergen benyttet samfunnsviterne, psykologene og den ene historikeren som arbeidet med 1801-folketellingen samme punche-rom. Han kunne PL1, psykologene var gode på variansanalyse, ideer ble konstruert og utvekslet i sene kveldstimer.

Datasikkerhet var et ukjent begrep. Det største faremomentet var å miste en kasse hullkort i gulvet.

Og forskerne trengte tabeller og regresjoner, i alle fall den første generasjonen stoppet stort sett der. Tabeller kunne programmeres, men det forutsatte at man kunne sortere data. Fortran var greit for å håndtere numeriske data, men det store problemet ble mer og mer å kunne håndtere tekst.

NSDs prosjektdokumentasjonsarbeid brukte en tid fritekstsystemet SIFT, som var utviklet av Statens Datasentral, men mange av NSDs løsninger for PC ble også laget for det noe spesielle programsystemet (Advanced)Revelation. Revelation hadde et dataformat som kombinerte en frapperende evne til å håndtere tekst med mulighet til å organisere data innen en mangedobbel matrise, kombinert med et fleksibelt programmeringsspråk.

Det fungerte svært bra så lenge DOS var enerådende som operativsystem, men det klarte ganske enkelt ikke å tilpasse seg overgangen til Windows. I Revelation hadde NSD bl.a. utviklet et eget integrert bibliotekssystem, Bibelation, spesielt utviklet for forsknings- og spesialbiblioteker. Bibelation nådde toppen i 1994 da det var i bruk ved 24 bibliotek i Norden. Deretter avgikk det med en ganske brå død da Windows og web svært raskt ble dominerende i PC-verdenen.

NSDstat ble opprinnelig utviklet som et enkelt tabellprogram til bruk i forbindelse med NSDs lærepakker for den videregående skolen. Det var ganske enkelt en dyd av nødvendighet, de alternativene som fantes var for kompliserte, de var utviklet for stormaskiner så de var for innholdsrike, for langsomme og for kostbare.

Etter hvert fikk også NSDstat mer innhold, derfor ble det differensiert ut i to adskilte versjoner. For skolebruk skulle det være enkelt å bruke og kunne behandle store datamengder med minimal tidsbruk. Behovet for et slikt verktøy viste seg å være ganske formidabelt. Fokuset var tradisjonell NSD-tankegang, brukerbehov og brukernytte går foran tekniske muligheter og finurligheter.

NSDs programmer(e) hadde matnyttig kunnskap nok til å finne gode løsninger der det var behov. Det var nok tilfeldig, men minner litt om Clayton Christensens teorier om disruptive teknologi.

1990-tallet: Et sammenhengende teknologiskifte

1990-tallet ble et sammenhengende teknologiskifte. Store felles maskiner forsvant ut og ble erstattet med PC som arbeidsredskap for majoriteten av forskere. DOS ble erstattet av Windows for brukerne, nye programmeringsspråk kom til, Java fikk en dominerende posisjon.

Teknologiutviklingen ble en profesjon der den tidligere generalisten ikke lenger hang med, det begynte å utvikle seg et skille mellom den som forstod fag og metode og den som skulle programmere løsningene. Også de administrative og informasjonsmessige delene av virksomheten ble sterkt påvirket, mye av informasjonsvirksomheten ble flyttet til web. ODBC åpnet for direkte bruk av databaser over web.

Samarbeidsorganisasjonen CESSDA startet på 1980-tallet å organisere et årlig “Expertseminar”, der medarbeidere fra de ulike arkivene kom sammen en uke for sammen å gå gjennom status og nye muligheter innen et bestemt problemområde. I 1994 ble dette seminaret arrangert i Grenoble, der det franske dataarkivet holdt til på den tiden. Dette var helt i oppstarten av arbeidet med internett og web-løsninger.

Dette seminaret fikk senere mytisk status, det var her at arbeidet med utvikling av en felles datakatalog på tvers av alle dataarkivene i Europa startet.

NSD hadde opprettet sin første WWW-side tidlig i 1994, det var mye fokus på hvordan det nå ville bli mulig å formidle informasjon og forenkle datadistribusjon.

I 1995, på IASSIST-konferansen i Quebec, satte dataarkivene seg sammen for å etablere DDI, “Data Documentation Initiative”, en ny samfunnsvitenskapelig metadatastandard tilpasset presentasjon og transport av data over internettet. Initiativet kom fra Richard Rockwell, direktør for ICPSR og ICPSR tok ledelsen.

Det var der man på 1960-tallet hadde utviklet OSIRIS-systemet, det ble nå skrotet for å møte den nye tid der data skulle gjøres tilgjengelig via web. Bare kort tid etter ble XML, eXtensible Markup Language lansert. NSDs arbeid med NESSTAR-prosjektet kom på et tidspunkt hvor det var mye bevegelse og rom for nyskaping, og NESSTAR-prosjektet ble et omfattende utviklingsarbeid med store konsekvenser for NSDs datatjenester.

WebSurvey - et illustrerende eksempel

En beskjeden start kan ofte føre frem mot sofistikerte produkter. På midten av 1990-tallet var NSD også involvert i et prosjekt som skulle samle data om det norske organisasjonslivet. For å forenkle arbeidet ble det laget til et ad hoc program som gjorde det mulig for deltakerorganisasjonene å registrere data om seg selv på nettet, med utgangspunkt i et ferdig oppsatt skjema.

Det ble utgangspunktet for WebSurvey, som i løpet av 10 år vokste til et sofistikert program for innsamling av surveydata via internett. Programmet rettet seg mot forskning og utdanning og var ikke tilgjengelig for kommersielle undersøkelser.

Systemet håndterte alle faser i gjennomføringen av en undersøkelse og kunne levere veldokumenterte filer til ulike analysesystemer, systemet var til og med flerspråklig og støttet automatisk oversettelse.

Men WebSurvey illustrerer også et annet problem: Det som i lengden kan bli problematisk er behovet for spesielle tilpasninger.

Programmet håndterte mange ulike problemer, men det er også mange problemer som krever litt ekstra og det «lille ekstra» binder opp uforholdsmessig mye ressurser.

2000-tallet: en fundamentalt forandret teknologisk verden

Overgangen til 2000-tallet representerte på mange måter at den teknologiske verden var endret fundamentalt. Samtidig ble NSD mer involvert i store EU-prosjekter, det ble mye mer påvirkning over landegrensene og det ble klart at NSD trengte en sterkere profesjonalisering av det tekniske utviklingsarbeidet.

Det som skjedde “på gamle måten” ble ofte for ad-hoc preget og om ikke akkurat amatørmessig, så i alle fall avhengig av enkeltpersoner og med lite fokus på standardisering og integrasjon mellom løsningene. Det gjaldt for så vidt for alle dataarkivene at det var et sterkt behov for fornyelse for å holde tritt med brukersiden, samtidig som det var stort rom for å realisere initiativ og pågangsmot.

Noen nøkkelord for NSD sett fra teknisk side de siste 15–20 årene kan være:

  • Aktiv deltagelse og delvis ledelse av internasjonalt samarbeid, etter NESSTAR og de videreføringsprosjektene som kom som videreutvikling av NESSTAR-programvaren fulgte CESSDA Preparatory Phase, Data without Boundaries og andre store EU-finansierte prosjekter.
  • Aktiv deltagelse også i nasjonale samarbeid, som sammen med SSB for registerdata, og Direktoratet for eHelse for HelseAnalysePlattformen. Lenge før vi kjente Riksrevisjonens sistekonklusjoner så vi at det var svært stor forskjell i ressurstilgang og -bruk mellom ulike prosjekter.
  • Aktiv deltagelse i standardiseringsarbeid, spesielt DDI for videreutvikling av standardisering av metadata og innenfor det problemområdet: metadata for forløpsdata. Fordi NSD var så sterkt involvert i å programmere løsninger for datatilgang og analyse, var organisasjonen også godt kvalifisert for å delta i metadata-diskusjonene.
  • Innovasjonskraft og risikovilje høres kanskje litt subjektivt vurdert ut, men jeg mener det er dekkende. NSD har hatt evne til å lage gode løsninger for kompliserte problemer – kommunedata, NSDstat og Nesstar dokumenterer det – og i løpet av de siste 15 årene har det både blitt mulig og nødvendig å fokusere på effektive og innovative løsninger for å takle økningen i volum. NSD har hatt høy ekspertise og kontinuitet i utviklerstaben. Over tid har det vist seg at utviklere opplever arbeid med spesialtilpassede løsninger for forskning og utdanning som svært meningsfylt, og utfordrende arbeid er ofte viktig drivkraft og motivasjon, det er en godt dokumentert konklusjon i motivasjonsforskning.
  • Profesjonalisering av utviklingsarbeidet har over den siste 10-års perioden vært en klar målsetting, det innebærer bl.a. en nedbygging av silo-orientert programvareutvikling.
  • Mye tverrfaglig samarbeid mellom utvikling og datafag har vært mulig fordi så mange aktiviteter har vært samlet under samme tak, med korte avstander og aktivt samarbeid.
  • Evne til å forstå og ta i bruk teknologiske fremskritt (bl.a. skyløsninger, standarder for autentisering, etc) har vært viktig.
  • Dyp forståelse av data og bruken av data i forskning (potensiale, struktur, utnyttelsesmuligheter) er et resultat av at NSD ikke bare er en forskningsadministrativ aktør, men et dataarkiv, der bruken, beskrivelsen og analysen av data er de viktige komponentene for å sette prioriteter og begrunne prosjekter.

Arbeidet med dataformidling

Men det er ikke bare teknologi som har vært i endring. Det overordnede kjennetegnet ved forskningsmessig datainnsamling, er nå at det – bevisst eller tilfeldig – er tilgjengelig stadig mer data som har eller kan settes inn i en tidsdimensjon. Dataarkivets nåværende hovedoppgave blir å gjøre denne nye muligheten tilgjengelig.

I tillegg til vedlikehold av dataformidlingssystemet Nesstar har arbeidet med registerdata og utvikling av microdata.no vært en viktig oppgave for NSD. Microdata.no er en tjeneste for interaktiv tilgang til registerdata.

Dette samarbeidet med SSB er på sett og vis et tradisjonelt NSD-prosjekt om en bare ser på målsettingen, men er i sitt innhold revolusjonerende nybrottsarbeid.

Prosjektet innebar utviklingsarbeid både med organisering, lagring, dokumentering, kobling og analyse av irregulære hendelsesdata/tidsserier på individnivå, kort sagt registerdata. I tillegg skulle systemet håndtere loggføring av brukerens arbeid og ivareta personvernet, slik det nå er bundet til GDPR. Det var derfor et usedvanlig komplekst prosjekt der det er utviklet kompetanse og teknologi som kan benyttes i en rekke andre prosjekter.

DBH har også hatt et kontinuerlig utviklingsbehov med krav om utvikling av nye tjenester og inkorporering og dokumentasjon av data av mange slag, der både dataleverandørene og brukersiden (som til dels overlapper) har vært i stadig endring. DBH-prosjektet må derfor både organisere, lagre og dokumentere data i tillegg til å utvikle tjenester på brukersiden, en brukerside med jevnt økende behov.

Gjennom prosjekter som NORDi, ESS, NorLAG og Microdata har NSDs infrastruktur for dataformidling blitt kraftig oppgradert de senere år. Gjennom prosjektet SurveyBanken jobber NSD i jubileumsåret sammen med OsloMet for å videreutvikle infrastrukturen og legge til ny funksjonalitet, særlig mht visualisering og presentasjon av surveydata. Data skal bli lettere tilgjengelig både for forskere og for allmennheten, og det vil bli enklere for forskere å arkivere data.

Administrative støttetjenester

Dataarkivenes viktigste programmeringsprodukter har likevel på 2000-tallet fått en klart mer administrativ karakter:

  • NSDs brukere kan nå opprette “Min side” og holde sin egen oversikt over kontakten med NSD, det være seg databestillinger, dataarkiveringer, kontakt med personverntjenestene, osv.
  • NSD har utviklet en egen arkiveringsportal, der brukeren selv laster opp og overfører sine data til NSD for sikker langtidslagring.
  • Sterkere administrative krav i forbindelse med prosjektsøknader og forskningsprosjekter har ført til at begrepet “Datahåndteringsplan” har blitt viktig for den som søker prosjektstøtte.

NSD har derfor utviklet et verktøy for å opprette datahåndteringsplaner, som forskere kan benytte fritt, og to tilleggstjenester som institusjonene kan inngå avtaler om bruken av: policyveiviseren og planarkivet.

Policyveiviseren er et verktøy som lar institusjonene, i tråd med EUs anbefalinger, utvikle maskinlesbare institusjonsretningslinjer for håndtering av forskningsdata, mens planarkiv er basert på et system der institusjonene får helhetlig og kontinuerlig oversikt over håndtering av forskningsdata ved deres institusjon.

Slike løsninger har blitt presset frem av personvernlovgivningen, spesielt GDPR, der institusjonene har et mye større ansvar for å dokumentere og ha løpende oversikt over egen aktivitet. Institusjonene må kunne dokumentere oversikt over typer av data, hvor data befinner seg i den «varme» prosjektfasen, hvor dataene blir arkivert, datasiteringer, registrerte datahåndteringsplaner, meldeskjema, osv.

Registerdata er i noen grad en ny type forskningsdata. I alle fall er muligheter for kobling av data fra mange registre en ny type, der tredjedimensjonen tid ikke er lett å håndtere;

Tid kan som data være både punkter, varighet og sekvenser eller overlapp for enkelthendelser, og blir mer komplisert der man knytter mange hendelser sammen til forløp. Registerdata er dessuten stort sett persondata, hvor juridiske problemstillinger knyttet til personvern og bruk av data fra offentlig saksbehandling for forskningsformål kommer inn.

I eVIR-prosjektet er data hovedsaklig bilder og video, det bryter med kjente tema for NSD – både metadata og data representerer noe vesentlig nytt og i tillegg er det mye komplisert personvern og rettighetsproblemer involvert.