Och 777’000’000 byggnader globalt. Så mycket data är det i Microsofts lager med byggnadspolygoner från Bing Maps (licens ODbL).
Täckningen är inte ”total” men som sagt omfattande. 6 miljoner byggnader för Sverige är inte riktigt i närheten av de 8 miljoner polygoner som finns i Lantmäteriets fastighetsdata, men det finns en stor skillnad i hur dessa är framställda och vad de innehåller. Microsoft har använt AI (machine learning) för att identifiera och generera byggnader i de bilder som används av Bing Maps.
Bilderna är inte tagna i ett svep, utan sträcker sig i tid från 2014 till 2021 och är tagna med lite olika satellitsensorer. Med andra ord är det inte flygfoton som ligger till grund för dessa data.
Data kan hämtas från GitHub och är uppdelat i länder som består av en zip-fil med en komprimerad GeoJSON-L (geojsonl), som är något bättre optimerad än standard GeoJSON för mycket stora dataset. Det fungerar men är pinsamt långsamt, så räkna med att spara om dessa data i ett bättre anpassat format för GIS (självklart GeoPackage).
ogr2ogr sweden_microsoft_buildings.gpkg Sweden.geojsonl
Konvertering är inte en snabb process, men allt betalar sig när det väl är klart. Den komprimerade zip-filen är 596 Mb och den uppackade GeoJSON-L filen är 2.2 Gb. Den GeoPackage databas som jag genererade är 1.5 Gb, och den är MYCKET snabbare än den okomprimerade textfilen.
Hur väl stämmer då dessa data med Lantmäteriets data, eller viktigare, hur väl stämmer de med verkligheten.

Vid en snabb jämförelse mellan fastighetskartans byggnadspolygoner (svart och vitt i bilden) med Microsofts byggnadspolygoner (röd kantlinje) så finns det både sådant som är ”plus” och sådant som är ”minus”. Det är ganska tydligt att precisionen är något sämre i de AI beräknade byggnaderna från Microsoft, än Lantmäteriets data.
Det finns områden som verkar saknas i det dataset som jag använder. Exempelvis halva Malmö…

Det finns även ”rutor” inne i landet där det helt verkar saknas data, så något har gått snett någonstans.
Kvalitén varierar även ordentligt mellan olika områden.

Jag tror inte Lantmäteriets tjänster är överflödiga riktigt ännu…
Om du behöver byggnadspolygoner så är du troligen intresserad av byggnaders utsträckning, storlek, orientering, form, etc. Dessa data från Microsoft är i så fall inte vad du är ute efter. ”AI” eller vad det egentligen handlar om, machine learning, är inte tillräckligt bra för att klara av den här typen av uppgifter ännu. Åtminstone inte på ett globalt plan.
Är det data för byggnadskoncentrationer, eller annan information som är byggnads-relaterad utan att behöva beskriva enskilda byggnader i detalj. Då kan dessa data vara användbara, beroende på det lokala resultatet.
Slutsatser
För olika GIS applikationer så tror jag att man kan hoppa över nedladdning av dessa data. De kommer inte att bidra med något reellt eller praktiskt användbart för de flesta tillämpningarna.
För mig är detta dataset ännu ett bevis på att AI och machine learning, i de allra flesta fall, ännu inte är moget för att vara praktiskt användbart som helhetslösning. Det finns verktyg som använder machine learning som stödjer olika processer, där framför allt processer kan snabbas upp och avlasta en del manuellt arbete. Men att tro att allt kan lösas med ”AI” är i de flesta fall orealistiskt.
Om du däremot helt saknar data. Då kommer denna typ av automatiserade data i en annan dager. ”Något” är i många fall bättre än ingenting, men inte alltid. Är data väldigt felaktiga, eller okomplett, så kan ”inga data” vara att föredra.