Statistik är ofta tråkig i tabellform, men så fort man använder diagram eller kartor, så händer det något.
Det tänkte jag kika lite på i detta inlägg. Jag använder en tabell med befolkningsstatistik från maj 2019 från SCB (länk), men när du läser detta så finns det uppdaterad statistik från augusti tillgänglig.
Med statistik så måste man vara lite försiktig, när man skapar visualiseringar och presentationer. Det är nämligen lätt att man drar alldeles för långtgående slutsatser, när man inte har tillgång till alla data och därmed inte ser hela bilden. De visualiseringar du ser här är just visualiseringar. Eventuella slutsatser baserat på dessa bör inte dras utan att man granskar hela datasetet, och sätter sig in i en eventuell helhetsbild.
Den Excel tabell jag laddat ner redigerar jag lite så att jag får nya rubriker på varje kolumn på en enda rad, vilket är lite enklare att använda i QGIS. Detta är dock inte helt perfekt, och det blir faktiskt enklare att exportera tabellen som csv, antingen från kalkylprogrammet eller från hanteraren för datakällor i QGIS.
Dokumentet sparas sedan och kan öppnas som tabell direkt i QGIS. I detta inlägg använder jag QGIS 3.9, vilket är utvecklingsversionen av nästa LTR (3.10), men det har inte någon avgörande betydelse. Men det kan finnas sådant som inte finns i din version av QGIS, exempelvis den nya startskärmen som du kan se i bilden nedan.
Speciellt om man har problem med att tabelldata har ”fel” format, exempelvis att siffror presenteras som text, så kan man skapa en *.csvt fil med en enda textrad som beskriver varje kolumns datatyp. Detta fungerar bara om du gör om tabellen till csv.
För att visa data i QGIS så behövs geodata med motsvarande utsträckning som de redovisade tabellområdena. Dessa går också att hitta på SCB sidor (länk), men snälla SCB zippa inte zip-filer…
Efter att a kopplat tabellen mot geodata kan man enkelt visa värden från tabellen i kartan, på ett visuellt sätt.
Tänk nu på att skicka med användaren av kartprodukten så mycket information som möjligt för att man skall kunna göra en korrekt bedömning av vad kartan faktiskt utvisar.
Statistik i sig är ganska häftigt, men när man själv funderar på hur man kan kombinera statistiken så finns det ingen gräns för vad som går att skapa. I tabellen jag använder finns exempelvis in- och utflyttning från kommunerna, samt varifrån dessa kommer (eget län, övriga Sverige eller utland). Dessa kan man visa som det är, men det går ganska enkelt att räkna om värdet till procent av antal invånare, vilket kan göra det enklare att jämföra kommuner.
Kartorna ovan har färgintensitet baserad på andelen inflyttade jämfört med befolkningsmängden. Det som inte är redovisat är fördelningen i procent kopplat till färgerna. Det finns nämligen en bugg som gör att legenden inte följer det karttema som är valt för respektive kartelement i layouten. Därför kan jag inte visa några teckenförklaringar här…
I samband med detta bör jag påtala att den mörkaste färgen i kartan till vänster maxar på 2,7%. I mitten är max 1,4% och till höger 0,6%. Detta är viktigt då man annars kan få en uppfattning att det är ”enorm” inflyttning från utlandet till några kommuner. Det är procentuellt fler än kringliggande kommuner, men jämfört med den interna rörligheten är det en förhållandevis låg nivå. För mer konkreta slutsatser så får man granska data lite noggrannare.
Ett annat sätt att titta på statistik är med diagram. I QGIS finns ett väldigt användbart plugin kallat DataPlotly. Det skapar diagram baserat på attributdata och konstruerade uttryck.
I bilden ovan är det ett enkelt pott-diagram som visas där folkmängd ställs mot antalet inflyttade från utland. Jag har här valt att göra båda skalorna logaritmiska, och i stort så följer diagrammet det som är förväntat. I stora kommuner så är det fler som flyttar in (oavsett varifrån de kommer) än i små kommuner.
Om man i stället väljer att ställa folkmängden totalt i kommunen mot den procentuella inflyttningen per invånare, så blir spridningen lite mer intressant.
I bilden har jag dessutom använt en annan väldigt bra funktion i DataPlotly, nämligen att det går att koppla diagrammet direkt med kartlagret. När jag därför markerar de punkter i diagrammet som representerar kommuner med mindre än runt 10’000 invånare som har en inflyttning på mer än 0,35% från utlandet jämfört med folkmängden, så markeras dessa även i kartan.
Om jag istället för folkmängd tittar på kommunens yta, så blir det ett annat svar. Och om jag här markerar de minsta kommunerna som har störst inflyttning procentuellt baserat på totalt antal invånare, så framträder Solna, Danderyd, Burlöv och Sundbyberg.
Diagrammen kan sedan exporteras i olika format, och exempelvis användas i layouter. Jag tror dessutom att man jobbar på att integrera diagrammen enklare i layouter, så att man inte behöver exportera till bilder först. Jag vet däremot inte hur långt detta arbete kommit ännu.
Som avslutning så tar vi en detaljtitt på Skånes befolkningsrörlighet.
Här har jag försökt harmonisera färgskalorna något så att de höga värdena i vissa kartor inte har samma mörka värden som betydligt högre värden i andra produkter. Det är inte 100% korrekt, men det får duga.
Om man skall göra en väldigt ytlig analys så verkar skåningar vara ganska rörliga, åtminstone inom eget län. Övriga svenskar verkar inte lockas speciellt mycket av Skåne, förutom Lund och Simrishamn, och kanske Osby.
I Östra Göinge är det få som lämnar landet, men en lite större andel som flyttar till från utlandet.
Varför det är så här, det får andra spekulera i.
Äh, det är kul med statistik, så här kommer en till, lite enklare och mera godtycklig.
Här är en karta och ett diagram med ”vinnare” (grönt och till höger i diagrammet) och ”förlorare” (rött och till vänster i diagrammet) i rörlighets rallyt.
Slutligen
Tänk nu på att detta är statistik, och därmed näst inpå definitionsmässigt, mer eller mindre lögn. Jag har bara använt del av de data som finns i den tabell som jag laddat ner. Exempelvis är vare sig döda eller födda med i några exempel.
Vad man än ger sig ut för att ”bevisa” så kan man troligen göra det med statistik. Men samma data kan säkert också användas för att belysa motsatsen. Vi som håller på med GIS och ibland kanske lite statistik, måste vara medvetna om de risker som finns och överväga hur trovärdiga våra produkter är. Är det exempelvis ”känsliga” resultat så bör man nog vända sig till en statistiker som kan hjälpa till att tolka resultaten så att det inte blir ”fake news”.