5.1 Integrera datakällor

Syftet med process 5.1 Integrera datakällor är att samla ihop alla data, både indata och hjälpinformation, som behövs för att i kommande delar av process 5 Bearbeta och framställa register framställa ett slutligt observationsregister (SOR), antingen i form av ett SOR kopplat till statistikvärden i en statistikprodukt eller ett SOR i form av ett statistiskt register som används bredare än till bara en produkt. Informationen kan hämtas från ett eller flera befintliga register eller bestå av direktinsamlade data som kompletteras med registerdata. När mikrodata från flera källor ska integreras är det lämpligt att denna process genomförs som första steg i process 5. Efter integrering görs kodning, granskning och imputering. Vid behov görs sedan bearbetningar och kompletteringar i efterföljande delar av process 5.

Input

Som input till processen behövs:

Sammanställda indata från process 4.3 Sammanställ datakällor
Hjälpinformation enligt beslut i process 2 Utforma undersökning
Målpopulation från process 2
Metadata från MetaPlus, t.ex. registerinformation om variabler.

Output

När processen är genomförd finns:

Sammanställda data som kan granskas och kompletteras till ett slutligt observationsregister
Saknade värden och objekt identifierade
Processdata
Dokumentation i StaF och i MetaPlus.

Genomförande

Samla ihop alla data som ska användas i bearbetningarna till slutligt observationsregister. Här avses såväl observationsvariabler som den hjälpinformation som kommer behövas i kommande bearbetningar och beräkningar. Hjälpinformation kan vara både på mikronivå och på aggregerad nivå utifrån syftet. Om flera observationsregister har samma objekttyp förs de ofta samman, matchas, för att underlätta fortsatt hantering och vidarebearbetning. Matchning av källor kan göras med hjälp av en identitet såsom personnummer eller organisationsnummer. När data från fler olika datakällor ska integreras krävs god kunskap om innehållet och hur registrens observationsvariabler definieras och avgränsas. Även till synes enkla matchningar kräver god kunskap om materialet; till exempel kan företag med samma identitet (t.ex. organisationsnummer) i själva verket avse olika verksamheter. Detta kan bero på skillnader i avgränsning eller referenstid i de olika källorna. Sådana skillnader kan även gälla när populationer och variabler från olika register ska integreras. Matchning görs även mot målpopulation och aktuellt basregister för att bestämma vilka objekt som ska ingå i registret/statistiken.

Ett integrerat observationsregister kan skapas antingen genom att en huvudsaklig källa kompletteras med information (detta är vanligt i fallet med direktinsamlade data som kompletteras med registerdata), eller genom att flera indatakällor kombineras där syfte t är att skapa en samlad datamängd utan att en källa kan anses huvudsaklig.

Integrera data genom att komplettera en huvudsaklig källa med information

I de fall då direktinsamling utgör huvudsakligt register innebär dataintegrationen främst att tillföra variabler och deras värden till observationsregistret. Informationshämtning från register sker framför allt av praktiska och ekonomiska skäl. Typiskt används register i urvalsfasen. Registervariabler kan då t.ex. användas för att stratifiera populationen. Dessa uppgifter behövs i den fortsatta bearbetningen (viktberäkningen). Under estimationsfasen används dessutom ofta ytterligare registervariabler som hjälpinformation för att öka precisionen och kompensera för bortfall. Registerdata kan också i enlighet med designen i process 2.2 Utforma undersökning och variabler tjäna som källa för vissa av undersökningens variabler istället för att direktinsamla dem.

Integrera flera indatakällor där ingen källa är huvudsaklig

Om källorna har samma objekttyp görs integrationen genom matchning på objektnivå. Detta kan antingen utmynna i fullständigt observationsregister eller i insikten om att uppgifter saknas, antingen på variabel- eller objektnivå och kommer behöva hanteras genom bortfallskompensation (se process 5.2.3 Imputera för bortfall och process 6.1.1 Beräkna vikter).
Varje källa behöver inte innehålla alla objekt, en del i integrationen kan avse just att kombinera källor som innehåller olika delpopulationer eller objekt. Om samma objekt och samma variabel förekommer i flera källor kan det bli nödvändigt att välja källa, eller att skapa olika variabler i ett första skede för att sedan beräkna eller välja målvariabel i ett senare skede.
Om källorna inte har samma objekttyp behöver de sparas som olika dataset i det här läget för att kunna beräkna målvariabler senare.

Skriv effektiv och förvaltningsbar kod

När datakällor ska integreras kan det ingå att skriva programkod (skript). För att stötta det arbetet har Standard för verksamhetens beräknings- och bearbetningskod tagits fram. Att följa denna kodstandard medför att skripten blir av god kvalitet, väldokumenterade och förvaltningsbara över tid.

Dokument och länkar för SCB

Länklistan i detta avsnitt är endast tillgänglig för användare på SCB.

Dokument och länkar för användare utanför SCB

------------------------------------------------------------------------------------------------------------------------------------

Senast uppdaterad
2026-01-29

Verifierad
2025-10-31

Diarienummer SCB2026/25

SPS Process 5.1 // <![CDATA[ _spBodyOnLoadFunctionNames.push("setupPageDescriptionCallout"); // ]]>

​5.1 Integrera datakällor