Planleggingsfase

Personidentifiserbare opplysninger innebærer at opplysningene er av en slik karakter at det er mulig å identifisere enkeltpersoner, for eksempel ved at personnummer er kjent eller ved at kombinasjoner av opplysninger fører til at enkeltpersoner kan identifiseres.

Personidentifiserbare opplysninger brukes primært til helseanalyser eller forskning. Andre begreper som ofte brukes om personidentifiserbare opplysninger er mikrodata eller forskningsdata.

Hovedregelen er at opplysningene som utleveres har blitt behandlet slik at det ikke er mulig å direkte identifisere enkeltpersoner. Det er imidlertid sjelden mulig å sikre et fullstendig anonymt datasett ved utlevering. Dersom du ber om variabler og opplysninger på et nivå som innebærer at personene blir indirekte identifiserbare kan det være at søknaden må justeres for å ivareta personvernet.

Helseopplysninger fra registre og befolkningsbaserte helseundersøkelser kan kun utleveres dersom det finnes rettslig grunnlag for bruk av opplysningene.

Bruk av personidentifiserbare opplysninger kan være svært nyttig, men prosessen du må gjennom er komplisert. Sett deg derfor grundig inn i alt som kreves av deg før du starter på selve søknaden.

Utforsk innholdet i datakilder og regelverk

Dersom du ønsker tilgang til personidentifiserbare opplysninger er det lurt å bruke tid på å utforske hvilke relevante datakilder som finnes, og hvilke muligheter og begrensinger som gjelder for utlevering og bruk av opplysninger fra disse datakildene.

I mange forskningsprosjekter er det nødvendig å søke om opplysninger fra flere datakilder. Skal du søke om opplysninger fra flere datakilder, må du kommunisere dette tydelig i søknaden din og beskrive hvilke opplysninger du ønsker å sammenstille.

Vær oppmerksom på at det sannsynligvis vil ta lengre tid å få dataene utlevert om du søker om data fra flere kilder. Årsaken er at det er ulike lover og forskrifter som regulerer utlevering og sammenstilling av opplysninger fra de ulike kildene. Med tanke på planlegging av prosjektet og tidsestimering er det derfor lurt å finne ut hvilke kilder du vil søke opplysninger fra, og sette deg inn i reglene for utlevering så tidlig som mulig.

Se oversikt og beskrivelser av datakildene du kan søke om opplysninger fra her.

Med søknadsskjemaet på helsedata.no kan du søke om tilgang til opplysninger fra datakilder som forvaltes av Folkehelseinstituttet, Helsedirektoratet og Kreftregisteret. Trenger du data fra andre kilder, finner du lenke til eget søknadsskjema på hver enkelt datakilde.

Sørg for tydelig forskningsspørsmål og studiedesign

Et tydelig forskningsspørsmål og et tydelig definert studiedesign, vil hjelpe en saksbehandler å forstå problemstillingen din – og hva slags data som er relevant for den – mye raskere. Det gjør at de lettere kan hjelpe deg i prosessen videre.

Vær så tydelig som mulig og begrunn vurderingene du gjør når du beskriver formålet med bruk av data, studiedesign og dataene du søker om, både i søknadene og i forskningsprotokollen. Da blir det enklere for saksbehandleren å finne korrekte data og å vurdere om formålet du søker om å bruke dataene til er innenfor registerets formål. Det vil spare både deg og saksbehandlere for tid og arbeid.

Beskriv ditt studiedesign

Jo tydeligere du beskriver og begrunner studiedesignet du har valgt, desto større er sjansene for at du får de dataene du ønsker fra starten av.

Eksempler på studiedesign som bruker helsedata fra registre er:

Kohortstudier
Kasus-kontrollstudier
Naturlige eksperimenter
Registeroppfølging av kliniske studier

Skriv forskningsprotokoll

Dersom overordnet formål er forskning, må du legge ved en forskningsprotokoll i søknaden. Dette er for at saksbehandlerne skal få et godt innblikk i prosjektet og nok grunnlag til å vurdere søknaden.

En del av spørsmålene i søknadsskjema dekker punkter som du allerede har redegjort for i protokollen. Det er viktig at disse ikke avviker fra hverandre. Bruk gjerne formuleringer fra forskningsprotokollen i søknaden.

Det finnes ulike maler for forskningsprotokoll, men den inneholder som oftest:

en vitenskapelig utformet prosjektplan
forskningsdeltakere
behandling av helseopplysninger
forskningsetiske utfordringer
finansieringskilder og avhengighetsforhold
plan for offentliggjøring
utnyttelse av forskningsresultater

Undersøk hos de aktuelle datakildene om de opplysningene du trenger kan utleveres, før du ferdigstiller forskningsprotokollen din.

Du må definere mål- og studiepopulasjon nøye i søknaden din. Målpopulasjonen er den gruppen individer i befolkningen som forskningsspørsmål og problemstilling skal si noe om. Studiepopulasjonen eller utvalget er den gruppen individer du velger ut som representanter for målpopulasjonen i ditt forskningsprosjekt.

Utfordringen er ofte å finne en studiepopulasjon som er representativ for målpopulasjonen. Du må beregne hvor stor studiepopulasjonen må være for å svare på forskningsspørsmål og problemstillinger, og fortelle i detalj hvordan studiepopulasjonen skal velges ut, med inklusjons- og eksklusjonskriterier.

Skal du ha kontrollgruppe?

Ikke glem å tenke på kontrollgruppe (snl.nl), dersom du skal ha det. En kontrollgruppe er en gruppe individer du velger ut som sammenligningsgruppe i et forskningsprosjekt, for eksempel for å sammenligne effekt av behandling eller andre tiltak/faktorer du ønsker å studere virkningen av.

Hvordan kontrollgruppen velges ut har stor betydning for forskningens validitet. Derfor er det viktig å være bevisst på eventuelle feilkilder og skjevheter når du setter opp gruppen.

Skal du bruke Folkeregisteret til uttrekk av kontrollgruppe må du søke tillatelse fra Skatteetaten.

Dersom forskningsprosjektet skal bruke folkeregisteropplysninger og/eller trekke et utvalg eller kontrollpopulasjon fra Folkeregisteret, må det legges ved tillatelse fra Skatteetaten.

Mer informasjon og link til søknadsskjema finner du her.

Datakildens formål må stemme med prosjektets formål

Datakildene har ulike formål og reguleres av ulike lover og forskrifter. For å få tilgang på opplysninger fra datakildene, må prosjektets formål må være i tråd med datakildens formål. Dette bør du være bevisst på når du formulerer hva du skal bruke opplysningene til og hvorfor.

Bakgrunnen for dette er et grunnleggende personvernprinsipp som kalles formålsbegrensning (datatilsynet.no). Det innebærer at personopplysningene som er samlet hos enn datakilde ikke skal gjenbrukes til helt andre ting enn det de opprinnelig ble samlet inn for.

Du finner datakildenes formål under beskrivelsen av hver enkelt datakilde.

Det er lurt å sjekke at formålet du beskriver i forskningsprotokollen og i søknaden til REK er i tråd med formålet til de datakildene du ønsker opplysninger fra. Du må oppgi det samme formålet i søknaden om helseopplysninger til datakildene.

Definer de variablene du ønsker

Vi anbefaler at du bruker variabelnavnene slik de er beskrevet hos datakilden når du setter opp variabellisten. På den måten blir det enklere for saksbehandlere å finne frem til opplysningene du er ute etter, som igjen vil bidra til raskere saksgang.

De fleste beskrivelsene av datakildene har lenker til variabellister. I tillegg finner du beskrivelser av variabler fra utvalgte datakilder på helsedata.no. Har du laget variabelliste på helsedata.no, må du først laste listen ned før du kan laste den opp i søknadsskjemaet.

Nasjonalt servicemiljø for medisinske kvalitetsregistre (SKDE) har allerede laget et oversiktlig variabelbibliotek (kvalitetsregistre.no). Der får du oversikt over alle variablene som finnes i de ulike nasjonale kvalitetsregistrene i Norge.

Finner du ikke variablene du er ute etter?

Beskriv tydelig hvilke opplysninger du er ute etter og kontakt forvalter av datakilden dersom det ikke finnes noen variabelliste åpent tilgjengelig.

Vær oppmerksom på at ulike aktører har ulike behov med tanke på spesifiseringsnivå når det gjelder variabler. Det er for eksempel ikke nødvendig å laste opp fullstendig variabelliste til REK. Beskriv heller variablene på et overordnet nivå. Det vil gjøre det lettere om du må gjøre små justeringer senere.

Eksempel på variabler på overordnet nivå:

"Alder" "krefttype" "medisinbruk" "bosted"

Mer spesifiserte variabler:

"60-70 år", "lungekreft", "opioider", "Levanger"

Vurder nøye hvilke opplysninger du har behov for

Omfanget og detaljnivået for studiepopulasjonen/utvalget og variablene du søker, påvirker resten av søknadsprosessen din.

Desto flere variabler du søker om, jo større er risikoen for at enkeltpersoner kan identifiseres. Konsekvensen kan være at søknaden din ikke blir godkjent når du søker om data fra ulike datakilder eller søker om etisk vurdering hos Regionale komiteer for medisinsk og helsefaglig forskningsetikk (REK). Vurder derfor nøye hvilke opplysninger du har behov for, og begrunn hvorfor opplysningene er nødvendige for din studie.

Det er lurt å vurdere om variabler du i utgangspunktet ber om kan modereres eller begrenses:

Trenger du vite kjønn?
Trenger du å vite behandlingssted eller kan du heller bruke helseregion?
Kan du gruppere bosted ut fra fylke heller enn kommune?

Les mer om krav til dataminimering på datatilsynet.no.

Spesielt sensitive variabler

Datoer kan være spesielt sensitive fordi de kan bidra til identifisering av enkeltindivider. Slike datoer kan for eksempel være hendelser som fødsel, død, oppdaget sykdom eller lignende.

Når data fra forskjellige registre skal kobles, kan det være et krav fra registerforvalterne om å bruke referansedatoer for å unngå indirekte identifisering. Da blir registerforvalterne enige om en annen dato (referansedato) som erstatning for de reelle datoene. Intervallene mellom de ulike datoene skal stemme overens med de reelle datoene slik at analysen din blir riktig. Dette krever koordinering mellom registerforvalterne og kan være tidkrevende.

Ved å redusere mengden variabler du søker om så mye som mulig øker sannsynligheten for at søknaden blir godkjent.

Skal du sammenstille opplysninger fra flere datakilder er det en del faktorer du bør være bevisst på før du starter søknadsprosessen.

Ulike kilder har ulike formål og forskrifter

Vær klar over at ulike datakilder har ulike forskrifter og formål. Det er avgjørende at prosjektet ditt er i tråd med disse for at du skal få utlevert de opplysningene du ønsker. Sørg derfor for å sette deg inn i regelverket til alle de kildene du ønsker opplysninger fra og ta kontakt med den enkelte forvalter dersom du er usikker.

Vær oppmerksom på at avidentifiserte registre, som NOIS, NORM, RAVN og Abortregisteret, ikke kan kobles med andre kilder, egeninnsamlede data eller biologisk materiale.

Kost og tidsberegning

Søker du om å koble data vil det påvirke tidsbruk i saksbehandlingen og sannsynligvis også kostnaden.

Saksbehandleren vil, i tillegg til å skrive script og ta ut data, bruke tid på dialog med de andre registrene. Har du for eksempel en godkjent søknad om en kreftdiagnose fra Kreftregisteret koblet mot selvmord fra Dødsårsaksregisteret (FHI), tar saksbehandleren ansvar for at opplysningene kan kobles. Det krever tid og samhandling mellom de ulike forvalterne.

Du kan også forvente at saksgangen tar lengre tid dersom du ønsker å koble data fra pseudonyme registre med data fra andre kilder. Pseudonyme registre har ikke lagret informasjon om navn, adresse eller fødselsnummer og fødselsnummeret er erstattet med et pseudonym. Dette påvirker kompleksiteten av å tilrettelegge for kobling av opplysninger med andre kilder og derfor også saksgangen. Både Reseptregisteret og IPLOS er pseudonyme registre.

Beskriv koblingsprosessen

Når du søker om helseopplysninger via helsedata.no blir du bedt om å beskrive koblingsprosessen, dersom du skal koble opplysningene med andre data fra andre kilder. Det vil si hvilken datakilde som trekker utvalget og hvilke andre datakilder som skal kobles på.

Det er ikke er påkrevd å beskrive koblingen. I de fleste tilfeller vil du få utlevert filene med løpenummer slik at du selv må sørge for koblingen.

Jo tydeligere beskrivelsen av koblingsprosessen mellom de ulike datakildene er, jo lettere er det for saksbehandlerne å forstå̊ prosjektet og tilrettelegge dataene på̊ en god måte. En visuell framstilling er ofte enklere å forstå enn en skriftlig.

Koblingsprosessen kan gjennomføres på ulike måter. Dette kommer an på om man skal:

Bruke én eller flere datakilder til å etablere/definere utvalget. En datakilde kan være egne data.
Koble med opplysninger fra et pseudonymt register.
Koble opplysningene med data fra SSB eller NPR.

Hovedregelen er at helseopplysningene ikke tilgjengeliggjøres med fødselsnummer. Kobling mellom ulike kilder er mulig fordi fødselsnumrene blir erstattet av et prosjektspesifikt løpenummer.

NOIS, NORM, RAVN og Abortregisteret er avidentifiserte registre og kan ikke kobles med andre kilder, egeninnsamlede data eller biologisk materiale.

Distribuert kobling

Distribuert kobling er den mest effektive modellen for sammenstilling av opplysninger fra ulike kilder. Du får utlevert data fortløpende fra de ulike datakildene, og sammenstiller selv opplysningene ved bruk av felles prosjektspesifikke løpenumre i filene.

Sentralisert kobling

Ved sentralisert kobling samles alle opplysningene hos én kilde og får en ny løpenummerserie som går på tvers av alle datakildene. Du får ikke filene fortløpende, men samtidig. Selve sammenstillingen må du som oftest sørge for selv.

Det finnes ulike former for sentralisert kobling:

Kobling hvor flere kilder brukes til å definere utvalget

Kobling der det benyttes én kilde til å definere utvalget

Kobling med pseudonymt register hvor én datakilde eller egne data definerer utvalget

Dette er den mest brukte dataflyten når Reseptregisteret er del av koblingen.

* Filen er kryptert med krypteringsnøkkel som kun pseudonymforvalter har tilgang på. Programvare for å preprosessere filen fås av pseudonymt register på forespørsel.

Personidentifiserbare data

Vurder om du trenger personidentifiserbare opplysninger

Sett deg inn i prosessen

Utforsk datakilder og regelverk

Utforsk innholdet i datakilder og regelverk

Datakilder i søknadsskjema på helsedata.no

Definer studien og skriv forskningsprotokoll

Sørg for tydelig forskningsspørsmål og studiedesign

Beskriv ditt studiedesign

Skriv forskningsprotokoll

Tips

Spesifiser studiepopulasjonen/utvalget

Skal du ha kontrollgruppe?

Tips

Beskriv og kontroller formål

Datakildens formål må stemme med prosjektets formål

REK-søknad og formål

Lag variabellister og oversikt over ønskede opplysninger

Definer de variablene du ønsker

Finner du ikke variablene du er ute etter?

Tenk på dataminimering

Vurder nøye hvilke opplysninger du har behov for

Spesielt sensitive variabler

Tips

Sammenstilling og kobling av data

Ulike kilder har ulike formål og forskrifter

Kost og tidsberegning

Beskriv koblingsprosessen

Lag visuell fremstilling av ønsket koblingsprosess

Forslag til koblingsprosess og dataflyt

Tips!

Distribuert kobling

Sentralisert kobling

Det finnes ulike former for sentralisert kobling:

Kobling hvor flere kilder brukes til å definere utvalget

Kobling der det benyttes én kilde til å definere utvalget

Kobling med pseudonymt register hvor én datakilde eller egne data definerer utvalget

Kobling med pseudonymt register hvor flere kilder brukes til å definere utvalget