5.1 Integrera datakällor
Syftet med process 5.1 Integrera datakällor är att samla ihop alla data, både indata och hjälpinformation, som behövs för att i kommande delar av process 5 framställa ett slutligt observationsregister (SOR), antingen i form av ett SOR kopplat till statistikvärden i en statistikprodukt eller ett SOR i form av ett statistiskt register som används bredare än till bara en produkt. Informationen kan hämtas från ett eller flera befintliga register eller bestå av direktinsamlade data som kompletteras med registerdata. När mikrodata från flera källor ska integreras är det lämpligt att denna process genomförs som den första i process 5, så att kodning, granskning och imputering görs efteråt, när register är integrerade. Fortsatta bearbetningar och kompletteringar sker i efterföljande delar av process 5.
Input
Den information som behöver införas till process 5.1 är:
- Sammanställda indata från process 4.3.
- Hjälpinformation enligt beslut i process 2.
- Målpopulation från process 2.
- Metadata från MetaPlus, t.ex. registerinformation om variabler.
Output
Från process 5.1 levereras:
- Sammanställda data som kan granskas och kompletteras till ett slutligt observationsregister.
- Saknade värden och objekt identifierade.
- Processdata.
- Dokumentation i StaF och i MetaPlus.
Genomförande
Samla ihop alla data som ska användas i bearbetningarna
till slutligt observationsregister. Här avses såväl observationsvariabler som den
hjälpinformation som kommer behövas i kommande bearbetningar och beräkningar.
Hjälpinformation kan vara både på mikronivå och på aggregerad nivå utifrån
syftet. Om flera observationsregister har samma objekttyp förs de ofta samman, matchas, för att underlätta fortsatt hantering och vidarebearbetning. Matchning av källor kan göras med hjälp av t.ex. en identitet såsom personnummer eller organisationsnummer. När data från fler olika datakällor ska integreras krävs god kunskap om innehållet och hur registrens observationsvariabler definieras och avgränsas. Även till synes enkla matchningar kräver god kunskap om materialet; till exempel kan företag med samma identitet (t.ex. organisationsnummer) i själva verket avse olika verksamheter. Detta kan bero på skillnader i avgränsning eller referenstid i de olika källorna. Sådana skillnader kan även gälla när populationer och variabler från olika register ska integreras.
Matchning görs även mot
målpopulation och aktuellt basregister för att bestämma vilka objekt som ska ingå i
registret/statistiken.
Ett integrerat observationsregister kan skapas antingen genom att en huvudsaklig källa kompletteras med information (detta är vanligt i fallet med direktinsamlade data som kompletteras med registerdata) , eller genom att flera indatakällor ska kombineras med syftet är att skapa en samlad datamängd och ingen källa kan anses huvudsaklig.
Integrera data genom att komplettera en huvudsaklig källa med information
I de fall då direktinsamling utgör huvudsakligt register innebär dataintegrationen främst att tillföra variabler och deras värden till observationsregistret. Informationshämtning från register sker framför allt av praktiska och ekonomiska skäl. Typiskt används register i urvalsfasen, och registervariabler behövs för att t.ex. stratifiera populationen. Dessa uppgifter behövs i den fortsatta bearbetningen (viktberäkningen). Under estimationsfasen används dessutom ofta ytterligare registervariabler som hjälpinformation för att öka precisionen och kompensera för bortfall. Registerdata kan också i enlighet med designen i process 2.2 tjäna som källa för vissa av undersökningens variabler istället för att direktinsamla dem.
Integrera flera indatakällor där ingen källa är huvudsaklig
Om källorna har samma objekttyp görs integrationen genom matchning på objektnivå. Detta kan antingen utmynna i fullständigt observationsregister eller i insikten om att uppgifter saknas, antingen på variabel- eller objektnivå och kommer behöva hanteras genom bortfallskompensation (se process 5.2.3 Imputera för bortfall och process 6.1.1 Beräkna vikter).
Varje källa behöver inte innehålla alla objekt, en del i integrationen kan avse just att kombinera källor som innehåller olika delpopulationer eller objekt. Om samma objekt och samma variabel förekommer i flera källor kan det bli nödvändigt att välja källa, eller att skapa olika variabler i ett första skede för att sedan beräkna eller välja målvariabel i ett senare skede.
Om källorna inte har samma objekttyp behöver de sparas som olika dataset i det här läget för att kunna beräkna målvariabler senare.
------------------------------------------------------------------------------------------------------------------------------------
Senast uppdaterad
2023-04-28
Verifierad
2023-04-28
Diarienummer A2023/1001