Hoppa över menyflikskommandon
Hoppa till huvudinnehåll

SPS Process 5.2.2

5.2.2 Granska mikrodata

Syftet med process 5.2.2 Granska mikrodata är att identifiera och åtgärda fel i mikrodata som används för framställning av statistik. I detta ligger inte bara att eliminera felens direkta påverkan, utan kanske ännu viktigare är att identifiera och kunna reducera felkällor till kommande produktionsomgångar och undersökningar.

Primärt för svarens och statistikens kvalitet i en undersökning är hur väl det fungerar när mätinstrumentet konstrueras och testas (process 2.3.5 och 2.3.6) och när mätningen genomförs (process 4.2). Mikrogranskningens roll är nödvändig för att säkra kvaliteten, men har en mera kompletterande roll, och dess möjligheter är begränsade. Har brister i mätningen lett till bristande kvalitet i svarsdata, så är det inte realistiskt möjligt att hjälpa upp kvaliteten med omfattande kontroller i granskningen. Har däremot mätningen fungerat bra är det skäl att respektera svaren och undvika att ändra dem.

I process 2.4.2 Utforma granskning beskrivs ett antal principer som är viktiga att beakta vid utformningen av granskningar. I process 2.4.2 finns även information om olika granskningsmetoder, hur de väljs och vad som är viktigt att tänka på vid genomförandet av respektive granskningsmoment. För en mer utförlig beskrivning av olika granskningsmetoder hänvisas till dokumentet Guide till granskning. Guide till granskning har inte uppdaterats på många år men innehåller tekniska detaljer som fortfarande är relevanta..

Metodstatistisk kompetens behövs vid utformning och genomförande av mikrogranskning.

Under år 2023 kommer stödet för mikrogranskning att ses över och i den mån nya riktlinjer kommer att tas fram så kommer de att finnas tillgängliga här under process 5.2.2.

 

Input

Den information som behöver införas till process 5.2.2 är:

  • gjorda val från process 2, främst 2.4.2 Utforma granskning
  • hur mätinstrumentet ser ut och används
  • kvalitetsprioriteringar utifrån användarbehov
  • granskningskontroller med instruktioner för det manuella arbetet
  • IT-system med stöd för manuell utredning och åtgärdsflaggning
  • kontaktuppgifter till uppgiftslämnare m.m.
  • normer för hur flaggningar ska kodsättas
  • data från tidigare undersökningsomgångar eller liknande undersökningar (även t.ex. en provundersökning)
  • val av vilka processindikatorer som ska beräknas
  • parameter- och tröskelvärden, om selektiv granskning används.

Output

Från process 5.2.2 levereras:

  • data som har granskats på mikronivå
  • flaggade datavärden som anger om värdena har verifierats eller inte
  • noteringar om eventuella påträffade mätproblem
  • processindikatorer och övriga processdata, inklusive eventuella akuta modifieringar i instruktioner
  • flaggor, poäng och tröskelvärden från selektiv granskning
  • resultat av uppföljning och granskardebriefing
  • dokumentation i StaF och i Kvalitetsdeklarationen

Genomförande

Mikrogranskning kan ingå i olika delar av produktionsprocessen. Den kan utföras som en egen process här i 5.2.2 och ingår då som ett av flera led i bearbetningen av insamlade mikrodata; detta kallas produktionsgranskning.

Mikrogranskning kan även utföras redan i samband med datainsamlingen (process 4.2); detta kallas insamlingsgranskning. Vid insamlingsgranskning utför uppgiftslämnaren själv (uppgiftslämnargranskning) alternativt intervjuaren granskningar genom kontroller i ett elektroniskt formulär. Stöd för insamlingsgranskning finns i verktygen SIV och WinDati. I process 4.2.3 beskrivs  dataregistreringsgranskning, t.ex. verifiering vid skanning. Kompletterande automatiska kontroller av t.ex. datatyp och dubbletteliminering kan göras också vid sammanföringen och överföringen från insamlings- till bearbetningsdatalager (process 4.3).

Fördelningen av granskningsinsatserna mellan delarna i produktionsprocessen följer den valda designen för bearbetningsmomenten i undersökningen, utformad i process 2.4.2.

Fel i mikrodata ur granskningens perspektiv

Ett fel i mikrodata kan anses föreligga när ett värde på en svarsvariabel saknar innebörd eller inte stämmer med det verkliga förhållande som värdet avser. Det betyder i princip att ett värde är felaktigt om det inte kan väntas kännas igen och verifieras av uppgiftslämnaren vid en eventuell återkontakt med ideala förutsättningar. Granskningen kan i praktiken bara ta hand om en del av felen i mikrodata, idealt de fel som skulle kunna störa statistikresultaten märkbart.

Granskning benämns ibland granskning och rättning eller (data)editering. På engelska används orden statistical data editing eller data validation. En första del av granskningsprocessen består av kontroller för att identifiera misstänkta fel. Resultatet blir en felsignalering, där datavärden och objekt flaggas för åtgärd. En andra del är utredning, där de felsignalerade objekten antingen utreds manuellt eller åtgärdas maskinellt i ett senare imputeringssteg. Manuell utredning leder ofta till återkontakt med uppgiftslämnaren. Ibland är återkontakt inte möjlig, detta gäller bland annat viss registerbaserad statistikproduktion och i viss insamling från individer.

Uppenbara fel och misstänkta fel

Vad ska då kontrolleras? I inkommande datamaterial förekommer olika typer av kvalitetsproblem som behöver hanteras på olika sätt; uppenbara fel och misstänkta fel. 

Uppenbara fel: Dessa fel är logiska fel som kan konstateras säkert på enbart det granskade materialets data om objektet i fråga. Sådana fel omfattar icke-valida värden, konsistensfel mellan uppgifter, fel i identiteter och partiellt bortfall. I regel är det nödvändigt att dessa fel åtgärdas, manuellt eller via imputering. Åtgärderna ska testas innan de genomförs samt dokumenteras och sparas för att på begäran kunna skickas till kund.

Misstänkta fel: Denna feltyp avser misstänkt felaktiga värden och föreligger när granskningskontroller tyder på att variabelvärden kan misstänkas vara felaktiga. Misstänkta fel är av två slag:

  • Avvikelsesignal (misstänkt avvikande värde): Denna signal innebär att ett värde är så stort eller så litet att det ligger utanför acceptansområdet enligt granskningskriterierna för variabeln.
  • Definitionsfel (inlier): Dessa fel uppstår när många uppgiftslämnare uppfattar en fråga eller ett begrepp på ett likartat men inte avsett sätt.

Avvikelsesignalernas behandling kan lätt bli arbetskrävande och kostsam. För att effektivisera arbetet gäller det att försöka fokusera på ”värstingarna”, de kanske relativt få misstänkta avvikelser som kan slå igenom mera märkbart på statistikresultaten. Viktiga medel för detta är att sätta acceptansgränserna i granskningskontrollerna för homogena grupper (t.ex. yrkesgrupper vid granskning av uppgifter om lön) och regelbundet uppdatera dem utifrån färska data.

Processindikatorer ska normalt användas för att löpande följa upp hur effektivt granskningskriterierna fungerar i granskningen; se vidare nedan. En viktig indikator är träffsäkerheten, som är andelen ändrade värden bland de avvikelsesignalerade värdena för variabeln ifråga. I en undersökning med omfattande manuell granskning ska om möjligt selektiv granskning med verktyget Selekt övervägas i designen av undersökningens mikrogranskning (process 2.4.2),

Definitionsfel är felaktiga värden som inte är avvikande nog att kunna upptäckas i avvikelsekontroller. Detta kan inträffa t.ex. när en fråga i datainsamlingen är alltför otydligt ställd så att många uppgiftslämnare tar miste på vilken definition som avses. En form av definitionsfel uppstår vidare när inaktuella svar upprepas av misstag från en föregående insamlingsomgång.

Definitionsfel orsakar systematiska fel i skattningar eftersom många uppgiftslämnare gör liknande fel. Definitionsfelen är svåra att upptäcka, men vissa möjligheter finns genom dialog mellan granskningspersonal och uppgifts­lämnare. En annan möjlighet är att grafiskt hitta mönster i data som avviker från det förväntade. Samgranskning över olika undersökningar kan också vara värdefull. Passivitetskontroller kan användas för att upptäcka uppgifter som kopierats från en tidigare omgång.

Om man upptäcker att definitionsfel i data kan vara betydande, ska denna erfarenhet tas till vara inför kommande produktionsomgångar och undersökningar. Detta sker i utvärderings- och återkopplingsprocessen (process 8), för eventuell åtgärd i kommande utformning av mätinstrumentet (process 2.3.5).

Hantering av Coronaeffekter i granskningen

I stöddokumentet Stöd vid hanteringen av Coronaeffekter i granskningsprocessen finns information framtaget för att underlätta granskningar av mikrodata i situationer som följt i spåren av covid-19. Rekommendationerna i dokumentet är inte bindande, men ska följas av de statistikprodukter som det är genomförbart för.

Effektivisera och kvalitetssäkra produktionsgranskningen med processdata

Processdata som beskriver hur granskningen fungerar ska sammanställas och utvärderas kontinuerligt, för att säkerställa att mikrogranskningen svarar mot de krav på kvalitet och kostnadseffektivitet som ställs. Processindikatorer beskriver omfattning av felsignal­ering, träffsäkerhet i kontrollerna, m.m. Indikatorerna är viktiga för dels löpande övervakning och styrning i pågående produktion, dels analys och utvärdering inför kommande effektivisering samt underlag till kvalitetsredovisningar. Analys av processdata kan ge underlag att förbättra mätprocessen och kvaliteten i indata, så att även granskningen kan bli mindre arbetskrävande, mer detaljerad information finns i dokumentet Översyn av produktionsgranskning - anvisningar.

Effektivisera med selektiv granskning

Selektiv granskning är en metod som kan minska omfattningen av det manuella arbetet utan att nämnvärt försämra kvaliteten i statistiken. Metoden bygger på ett effektiviserat sätt att identifiera variabler och objekt med misstänkt felaktiga värden som kan slå igenom märkbart på statistikvärdena. Andra potentiella fel är så små att de drunknar i övrig osäkerhet och kan lugnt lämnas utan åtgärd.

Selekt ska användas i undersökningar där det finns en stor besparingspotential, se dokument Kriterier för när införande av SELEKT är effektivt.  Läs även mer om hur granskningen går till i dokumentet Selektiv granskning. I Anvisningar för selektiv granskning ges råd för implementering av en något mer avancerad variant som ibland brukar kallas Selekt-light.

Granskning behövs även för registerdata

Granskning av registerdata ställer särskilda krav. Datakvaliteten i register som baseras på administrativa källor beror primärt på i vilken utsträckning data är relevanta för statistikändamålet. Den datainsamlande myndigheten har som regel granskat materialet utifrån vad som är relevant i myndighetens perspektiv. Alternativet med manuell granskning på SCB med återkontakt med uppgiftslämnare är oftast inte möjligt. Outputgranskningen blir därför särskilt viktig för att upptäcka orimligheter och inkonsistenser i datamaterialet. När data kommer från ett administrativt register på annan myndighet bör återkoppling om funna orimligheter återkopplas till berörd registerproducent. Vid avstämningar mot annan statistik kan felaktigheter upptäckas och underlag fås för att beskriva skillnader mellan olika statistikprodukter. Ta vid behov stöd av dokumentet Granskning i registerproduktionsprocessen. Syftet med dokumentet är att ge en effektiv registergranskning och därmed minska risken för fel i registerproduktionen. För handledning och stöd avseende Dokumentation av det statistiska registret (DOKSTAR) se process 5.3.2.

Grundläggande rutiner för uppföljning och spårbarhet

Ogranskade data (dvs. data före granskning) ska alltid sparas! Detta är viktigt av flera skäl. Data som är opåverkade av granskning behöver finnas kvar för att SCB ska kunna garantera spårbarhet och full kontroll över sin produktionsprocess. Ogranskade data kan behöva finnas i beredskap för t.ex. särskilda analyser och eventuella senare diskussioner med uppgiftslämnare. Speciellt behövs ogranskade data för att möjliggöra utvärderingar och kontroller av granskningsprocessen. Vid införande av Selekt är det en nödvändig förutsättning att man har sparat tidigare undersöknings­omgångar inkl. ogranskade data. Granskningskontroller såväl som granskningsinstruktioner ska testas, dokumenteras och sparas. Antalet observationer före respektive efter granskning ska noteras i logg som sparas. Detta ska främst göras för att säkra mot att observationer oavsiktligt tappas eller dubbleras.

Rutiner för spårbarhet m.m. behövs inte endast för produktionsgranskning, utan även för insamlingsgranskning:

  • Uppgiftslämnargranskning sker speciellt vid elektronisk insamling. Hårda och mjuka kontroller ska testas, dokumenteras och sparas.
  • Dataregistreringsgranskning sker vanligen genom verifiering vid skanning. Verifieringen ska göras utifrån testade och dokumenterade granskningskontroller. Felsignalerade uppgifter ska åtgärdas enligt rättningsinstruktioner. 

Erfarenheterna från personal som utför och leder manuell utredning behöver också tas till vara, utöver de kvantitativa uppföljningsmåtten. En viktig aspekt är att fånga upp uppgiftslämnarens beskrivning av vad orsaken är till att man lämnade en felaktig uppgift. Denna information används som underlag till förbättring av mätinstrumentet. Uppföljningen ska när det är lämpligt genomföras via en s.k. granskardebriefing, vilket är en strukturerad och dokumenterad genomgång av granskningspersonalens erfarenheter efter avslutad produktion.

I dokumentet Fastställda arbetssättet med granskardebriefing finns verktyg i form av anvisningar, checklista och mall till frågeguide.

Kontaktuppgifter

Vid frågor eller för att få ytterligare stöd skriv gärna till gruppbrevlådan granskning@scb.se

Dokument och länkar

Guide till granskning (pdf)
Översyn av produktionsgranskning – anvisningar (pdf)
Stöd vid hantering av Coronaeffekter i granskningsprocessen​ (pdf)
Kriterier för när införande av SELEKT är effektivt (pdf)
Selektiv granskning (pdf)
Anvisningar för selektiv granskning (pdf)
Granskning i registerproduktionsprocessen (pdf)
Fastställda arbetssättet med granskardebriefing (pdf)

------------------------------------------------------------------------------------------------------------------------------------------------------ 

Senast uppdaterad
2023-04-28

Verifierad
2023-04-28

Diarienummer A2023/1001