5.2.3 Imputera för bortfall
Syftet med process 5.2.3 Imputera för bortfall är att ersätta saknade/felaktiga värden i en datamängd med nya värden som kan antas ligga nära de sanna värdena. Bortfall uppstår partiellt då något eller några variabelvärden saknas för ett objekt eller som objektbortfall då samtliga variabelvärden saknas för objektet. Imputering avser också metoder som används vid editering (se process 5.2.2 Granska mikrodata), då orimliga eller ologiska värden identifieras och ersätts med nya värden som förmodas ligga närmare sanningen.
Allmänt är det värt att notera att en del problem med bortfall kan undvikas genom bra kontaktstrategier och utvärderingar av frågeformulär m.m. Men på grund av restriktioner i kostnader och tid är det vanligtvis omöjligt att lösa alla problem. Vidare finns alternativa metoder för bortfallskompensation såsom kalibrering (se process 6.1.1 Beräkna vikter).
Vid imputering behöver vanligen metodstatistisk kompetens konsulteras.
Input
Den information som behöver införas till process 5.2.3 är:
- vald design från 2.5 Utforma framställning av register och statistik
- granskade mikrodata från process 5.2.2.
Output
Outputen av delprocess 5.2.3 består av:
- imputerade variabelvärden, inklusive information om vilka värden som imputerats
- processdata, inklusive imputeringsregler med revideringsdatum
- dokumentation i StaF.
Genomförande
Imputering avser att begränsa t.ex. den skevhet (bias) i skattningar som är den typiska effekten av bortfall. Vidare kräver många metoder för statistisk analys att datamängden är komplett; i annat fall kan metoderna generera inkonsistenta eller ologiska resultat eller så kan analysen inte alls genomföras. Imputering kräver tillgång till hjälpinformation, alternativt information från själva undersökningen, för att kunna ge något användbart resultat. Om tillgänglig information är otillräcklig är det bättre att redovisa det partiella bortfallet som ”ej svar”, ”ofördelat” e.d.
Imputering kan väsentligen förbättra kvaliteten på den slutliga statistiken, men för detta krävs att lämpliga metoder används. Med ett dåligt val riskerar relationen mellan variabler att störas och de underliggande fördelningarna att snedvridas. Vid analys av data med imputerade värden beaktas även att det finns en större osäkerhet jämfört med om de imputerade värdena verkligen hade observerats. Denna ökade osäkerhet pekar på behovet av ytterligare justeringar (t.ex. multipel imputering eller en s.k. Rao-Shao-korrigering).
Imputering kan delas in i ett antal arbetsmoment eller delprocesser enligt följande.
Fastställ imputeringsmetoder. De imputeringsmetoder som ska användas på variabel- respektive objektnivå fastställs redan under utformandet av undersökningen, process 2. Kombinationer av flera olika metoder är ofta aktuella. För mer information om specifika imputeringsmetoder se process 2.5 Utforma framställning av register och statistik.
Identifiera objekt/variabler för särbehandling. I många fall kan vissa objekt eller variabler kräva en särbehandling, t.ex. imputering enligt någon särskild metod (t.ex. manuell expertimputering) eller borttagande från datamängden. I arbetsmomentet fastställs kriterier för denna identifiering och väljs åtgärder (metoder) för de objekt eller variabler som identifierats.
Beräkna imputerade värden. Imputering kan utföras maskinellt (enligt en algoritm, ofta med hjälp av programvara), manuellt (expertimputering) eller med kombinationer av båda tillvägagångssätten. Imputeringsåtgärderna ska testas innan de genomförs, så att de ger avsedd effekt. Den genomförda imputeringen resulterar i en komplett datamängd utan bortfall.
Kontrollera och återkoppla. Emellanåt kan imputeringen generera orimliga värden, t.ex. värden som ligger utanför ett troligt intervall av värden, eller ologiska värden, t.ex. gifta tvååringar. Imputerade värden behöver således kontrolleras mot fastställda kriterier innan den slutliga datamängden kan skickas vidare till nästa process.
Utvärdera och dokumentera. Slutligen ska imputeringsprocessen utvärderas, dokumenteras och kvalitetsdeklareras enligt fastställda former.
Bortfallssubstitution
I vissa undersökningar med t.ex. förväntat högt bortfall dras ett reservurval i samband med den ordinarie urvalsdragningen. Sedan ersätts bortfallsobjekt med svarande objekt från reservurvalet. Detta är ett slags objektimputering.
IT-verktyg
SCB har införskaffat Banff från den kanadensiska statistikbyrån, Statistics Canada. Banff utgörs av fristående SAS-procedurer med ett stort antal fördefinierade algoritmer som främst passar för företagsundersökningar. Verktyget kan utföra imputering för kvantitativa variabler med en bred klass av metoder, t.ex. regressionsimputering. Banff-procedurerna ingår i den ordinarie SAS installationen. Mer information om använding av Banff procedurerna finns i dokumentet BanffProcedursUserGuide.
Dokument och länkar
------------------------------------------------------------------------------------------------------------------------------------------------------
Senast uppdaterad
2023-04-28
Verifierad
2023-04-28
Diarienummer A2023/1001