Gaussian Splatting: Så skapar Stockholms Stad fotorealistiska 3D-modeller av staden
Att kommunicera hur en plats ser ut och upplevs är en central del av stadsbyggnadsarbetet, vid samråd, i planprocesser och i intern dialog. Traditionella 3D-modeller ger en ungefärlig bild, men har svårt att återge den komplexitet och detaljrikedom som gör en verklig miljö igenkännbar. Gaussian splatting är en relativt ny teknik som tar ett annat tillvägagångssätt för att skapa 3D-visualiseringar, och som kan ge betydligt mer fotorealistiska resultat. Nedan visas ett exempel från Kista, där man kan röra sig runt modellen interaktivt.
Använd musknapparna eller tangentknapparna WASD för att röra dig runt i modellen ovan. Tryck på fullskärms knappen för att få bäst upplevelse.
Gaussian splatting
I den här artikeln går vi igenom hur denna 3D-visualiseringsteknik fungerar och hur den kan användas för att skapa fotorealistiska visualiseringar av verkliga miljöer i en stad eller kommun. Vi visar även resultatet från Stockholms Stad, där ett område i Kista har avbildats med metoden, och beskriver arbetsprocessen bakom denna metod. Avslutningsvis diskuterar vi hur tekniken kan komma till mer allmän nytta, samt dess möjligheter och begränsningar.
Vad är Gaussian splatting?
Demonstration ovanför visar betydligt mer detalj än vad som kan förväntas av vanliga 3D-modeller, så kallade mesh-modeller, som bygger på hårda ytor utgjorda av trianglar.

När sådana modeller skapas för geografiska tillämpningar, till exempel i tjänster såsom Google Maps, skapas först ett punktmoln ur det drönarinsamlade bildmaterialet med hjälp av fotogrammetri, som är processen av att ta fram tredimensionell struktur ur bilddata.

Ur detta skapar man sedan en 3D-modell som bygger på miljontals trianglar, den så kallade mesh-modellen.

Gaussian splatting tar istället ett annat tillvägagångssätt, nämligen så kallade Gaussians, en form av delvis genomskinlig tredimensionell oval.

När fler av dessa kombineras kan annan mer avancerad form visas. Notera att de gråa kanterna endast visas här för att ge känsla för att en Gaussian blir mer genomskinlig och "svagare" mot kanterna.

Till skillnad från traditionella mesh-modeller bygger Gaussian splatting alltså inte upp hårda ytor gjorda av trianglar, utan tar istället punktmolnet och låter varje punkt vara en färgad "splatt" i tre dimensioner.
Hur blir detta sedan en användbar 3D-modell? Jo, med moderna metoder från maskininlärning tränar man "modellen" genom att låta alla Gaussian splats röra på sig och ändra färg tills modellen matchar bilddatan.

Sedan, när detta görs i tre dimensioner, får man följande modell.
Den färdiga modellen.
Ur vilken man även kan skapa otroligt högupplösta renderingar.

I denna video kan du fördjupa dig lite mera i skillnaden
Gaussian splat och mesh jämförda
Till vänster: en 3D-modell från Google Maps. Till höger: samma byggnad som Gaussian Splat.
Notera hur Gaussian splatting bättre fångar reflektioner och glans i panelerna.
Gaussian splatting återger små detaljer betydligt bättre, till exempel lyktstolpar och balkonger.
En annan fördel är att tekniken är relativt minnes- och prestandaeffektiv i förhållande till den detaljnivå som kan uppnås, och kan exempelvis visas på mobiler och VR-headset. Eftersom modellen inte bygger på ett traditionellt triangelnät undviker man också vissa vanliga problem med mesh-modeller, till exempel synliga skarvar, trasiga ytor eller onaturliga förenklingar i geometrin.
Det gör Gaussian splatting särskilt intressant för visualisering av verkliga miljöer, där syftet främst är att ge en trovärdig och lättillgänglig upplevelse av en plats snarare än att skapa en exakt geometrisk modell för vidare analys.
Tekniken har samtidigt vissa begränsningar. En tydlig sådan är att kvaliteten ofta blir sämre om användaren rör sig långt bort från de positioner som bilderna visar. Modellen fungerar alltså bäst från vyer som ligger nära de ursprungliga kamerapositionerna, medan mer ovanliga vinklar kan ge oskarpa eller felaktiga resultat.

Samtidigt utvecklas metoder för att förbättra eller komplettera Gaussian splats med hjälp av AI. Sådana metoder kan på sikt bidra till att minska vissa kvalitetsbrister, till exempel i vyer som ligger längre från de ursprungliga kamerapositionerna. Det är dock fortfarande ett område under snabb utveckling, och resultaten varierar beroende på data, modell och användningsfall.

En annan begränsning är att verktygsstödet för georeferering fortfarande är relativt omoget. Det finns i dag inte lika etablerade och robusta arbetsflöden för geografisk inpassning som för mer traditionella 3D-metoder. Det gör att framställningen av Gaussian splats antingen blir mer tekniskt komplicerad, eller kräver dyrare licenser.
Arbetsprocessen
För att skapa en Gaussian splat-modell av ett område krävs en arbetsprocess i flera steg, från datainsamling i fält till en modell färdig för publicering. I projektet i Kista samlades först drönarbilder in, därefter bearbetades bilderna fotogrammetriskt och slutligen tränades till en färdig Gaussian splat.
Flygning
Tid: cirka 20-30 minuter
Drönare: DJI Mavic 3 Enterprise
Antal bilder: ca 1 200 bilder (10 GB)

Datainsamlingen genomfördes med hjälp av en drönare som fotograferade området från flera vinklar. För att fånga både markytor, tak och fasader användes en programmerad flygning med en kombination av snedbilder och nadirbilder (bilder rakt uppifrån).
Innan en flygning genomförs är det viktigt att sätta sig in i gällande regelverk. Drönarkartan, som finns tillgänglig via Luftfartsverkets webbplats, visar vilka restriktioner som gäller i det aktuella området, till exempel närhet till flygplatser, militära områden eller andra begränsade luftrum. I vissa områden är flygning helt förbjuden, medan det i andra kan finnas höjdbegränsningar.
Utöver detta behöver drönaren vara korrekt klassificerad och registrerad. Om drönaren väger mer än 250 gram krävs att piloten har ett giltigt drönarkort (A1/A3 eller A2). För drönare under 250 gram krävs inget drönarkort, men oavsett vikt måste drönaren märkas med ett operatörs-ID. Detta erhålls genom att registrera sig som operatör och betala en årlig avgift.
Om flygningen sker inom en organisation, exempelvis en kommun, räcker det att organisationen registrerar sig som operatör och får ett operatörs-ID. Det är dock också möjligt att registrera sig som privatperson.
Det är dessutom klokt att teckna en försäkring som täcker eventuella olyckor. I samband med detta kan drönarens serienummer behöva registreras hos försäkringsbolaget. Att i god tid ta reda på dessa förutsättningar är en viktig förutsättning för att flygningen ska kunna genomföras lagligt och utan förseningar i projektet.
Hur lång tid flygningen tar, hur många bilder som behövs och hur stor datamängden blir beror i hög grad på områdets storlek, önskad detaljnivå och hur komplex miljön är. Tät bebyggelse, vegetation och stora höjdskillnader kräver i regel fler bilder och mer överlapp mellan dem.
Bildbearbetning
Bearbetningen av materialet genomfördes i flera steg:
Råa, georefererade bilder
Först samlades de georefererade drönarbilderna in och kvalitetsgranskades.
Punktmoln och kamerakalibrering i COLMAP
Därefter användes COLMAP, ett öppet fotogrammetriskt verktyg för 3D-rekonstruktion ur bilder, för att beräkna kamerornas exakta positioner och skapa ett punktmoln från bildmaterialet. Detta steg krävs för att få en korrekt rumslig struktur som den fortsatta träningen kan utgå från.


Träning i LichtFeld Studio
När punktmoln och kalibrering var på plats tränades modellen i LichtFeld Studio, en öppen mjukvara för att träna Gaussian splats ur en 3D-rekonstruktion. Det är i detta steg som Gaussian splatten växer fram genom att modellen optimeras mot det insamlade bildmaterialet.

Redigering i SuperSplat
Efter träningen redigerades resultatet i SuperSplat. Här kunde modellen rensas, justeras och anpassas inför publicering, till exempel genom att ta bort oönskade delar av omgivningen eller förbättra presentationen av scenen. Ofta blir objekt som inte är helt täckt av flygningsområdet inte särskilt bra. Av den anledningen vill man gärna plocka bort områden som är utanför den ytan som man har bra bilder på.

Publicering
När modellen var färdigbearbetad publicerades den i ett format som gör den möjlig att visa interaktivt. Det innebär att användaren kan röra sig genom miljön och studera området från olika vinklar direkt i en webbaserad eller annan digital visningsmiljö.

Innan material som samlats in med drönare får spridas eller publiceras måste det granskas enligt svensk lagstiftning. Flygbilder och modeller som bygger på flygfotografering omfattas av regler om spridningstillstånd, vilket innebär att materialet i många fall behöver skickas till Lantmäteriet för granskning innan det får delas eller publiceras. Syftet är att säkerställa att bilderna inte innehåller information som kan vara känslig ur ett säkerhetsperspektiv, exempelvis skyddsobjekt eller annan skyddsvärd infrastruktur.
Ansökan om spridningstillstånd görs digitalt och är i dagsläget kostnadsfri. Handläggningstiden är normalt omkring 15 arbetsdagar, men kan i perioder med många ärenden bli längre. Det är därför viktigt att planera in denna granskning i projektets tidsplan, särskilt om materialet ska publiceras vid ett bestämt datum. Redan uppladdning av drönarbilder till molntjänster, till exempel för bearbetning eller interaktiv visning, kan räknas som spridning. Tillstånd behöver därför sökas innan bildmaterialet laddas upp till externa tjänster, inte bara innan det publiceras offentligt.
Själva drönarflygningen kan dessutom omfattas av ytterligare regler. Beroende på flygområdets karaktär, exempelvis närhet till flygplatser, restriktionszoner eller flygning över allmän plats, kan särskilda tillstånd eller begränsningar gälla enligt Transportstyrelsens och Luftfartsverkets regelverk.
Vid insamling av bildmaterial i stadsmiljö behöver även GDPR beaktas. Om personer eller registreringsskyltar förekommer i materialet kan dessa behöva anonymiseras, exempelvis genom att suddas ut. I praktiken är detta ofta ett begränsat problem vid drönarfotogrammetri eftersom personer sällan fångas i hög upplösning och vanligtvis inte ingår i den slutliga 3D-rekonstruktionen. När man, som i exemplet ovan, använder en lokal bearbetningspipeline kan bildmaterialet börja behandlas direkt efter insamlingen samtidigt som ansökan om spridningstillstånd handläggs. Detta gör att arbetet med modellbearbetning kan påbörjas utan att materialet behöver laddas upp till externa tjänster innan tillståndet har beviljats.
Stadens perspektiv
Det som skiljer Gaussian splatting från tidigare metoder är alltså inte bara att resultatet ser bättre ut, utan att det beror på en fundamentalt annorlunda representation av verkligheten. Eftersom modellen inte tvingas förenkla världen till trianglar och hårda ytor, utan istället beskriver den som en samling mjuka, överlappande volymer, kan den återge just det som är svårast att fånga med traditionella metoder: oordning, mjukhet, glans och detalj. Det är egenskaper som är centrala i stadsmiljöer: tänk lövverk, markbeläggningar, byggnadsfasader med glaspartier eller en torgmiljö med bänkar och cyklar. Det är också dessa kvaliteter som gör att en plats upplevs som igenkännbar och trovärdig, vilket är avgörande när modellen ska användas för att kommunicera med allmänheten eller fungera som underlag i en planprocess.
Ur stadens perspektiv är Gaussian splatting intressant som ett nytt sätt att skapa fotorealistiska 3D-visualiseringar av verkliga miljöer. Tekniken kan göra det lättare att visa och kommunicera hur en plats faktiskt ser ut, både internt inom organisationen och i dialog med allmänheten vid exempelvis samråd.
Jämfört med en traditionell mesh-modell kan Gaussian splatting återge vissa typer av detaljer betydligt bättre. Tunna objekt som antenner, stolpar, grenar och träd fungerar särskilt väl, liksom mjukare former och ytor som annars kan vara svåra att beskriva med trianglar. Även reflektioner och ljusvariationer, som traditionella mesh-modeller inte kan representera, kan återskapas verklighetstroget, vilket bidrar till den fotorealistiska avbildningen.
En praktisk fördel med Gaussian splatting är att hela arbetsflödet kan genomföras till relativt låg kostnad och på kort tid. Flygningen i Kista tog omkring 20-30 minuter, och flera av de verktyg som används i processen, däribland COLMAP och SuperSplat, är gratis och öppna. Det finns även alternativa mjukvaror för träning och redigering, såsom Luma AI, Postshot och RealitySplat, som kan passa beroende på tillgängliga resurser, teknisk kompetens och krav på georeferering.
Det finns flera användarfall där Gaussian splatting är extra intressant ur ett kommunperspektiv på grund av sin förmåga till detaljerad återgivning av verkligheten.
Natur
När det gäller miljöer med träd, växter och parker är denna teknik särskilt effektiv. Den gör det möjligt att återge vegetation med hög detaljgrad, ibland ned till enskilda blad, vilket ger en stark känsla för platsens struktur och karaktär. Modellerna kan användas både i planeringsarbete, exempelvis vid utformning eller förändring av parker, och i förvaltning för att följa upp vegetation och parkmiljöer över tid. De kan också användas för att visualisera och väcka intresse för naturområden hos allmänheten.
Kulturarv
Tekniken lämpar sig även mycket väl för dokumentation av kulturarv. Byggnader och miljöer som kyrkor, slott, museer och historiska stadsrum kan återges med hög geometrisk och visuell noggrannhet. Detta gör det möjligt att både bevara digital dokumentation av kulturhistoriskt värdefulla platser och att tillgängliggöra dem genom visualiseringar och interaktiva modeller.
Trygghet
Vid olika former av trygghetsvandringar identifieras ofta platser som upplevs som otrygga. Med denna typ av teknik kan sådana miljöer dokumenteras och återskapas digitalt, vilket gör det möjligt att återvända till platsen i efterhand, till exempel vid beslutsmöten eller planeringsdiskussioner. Tekniken återger ljusförhållanden, siktlinjer och detaljer i miljön på ett realistiskt sätt, vilket kan underlätta analysen av vad som bidrar till otrygghet. Även slitna ytor, skadegörelse, graffiti och andra tecken på bristande underhåll kan synliggöras tydligt i modellerna.
Utvecklingen inom Gaussian splatting
Utvecklingen inom Gaussian splatting går snabbt, och flera närliggande spår pekar på hur tekniken kan bli mer användbar framöver, både för visualisering och för mer etablerade arbetsflöden.
Stöd i etablerade GIS-plattformar
Exempel på Gaussian splat i ArcGIS Online.
En viktig förutsättning för bredare användning är att tekniken får stöd i de plattformar och arbetsmiljöer som redan används i offentlig verksamhet. I sina senaste releases har ArcGIS börjat stödja Gaussian splats, både i ArcGIS Pro och ArcGIS Online, och även plattformar som Cesium rör sig i samma riktning. Det innebär att modellerna inte längre behöver hanteras som separata demonstrationer, utan kan ingå i samma kartmiljö som övriga geografiska underlag. Det sänker tröskeln markant för att gå från experiment till faktisk verksamhetsnytta i ordinarie planerings- och samrådsarbete.
Animerade och rörliga scener
På https://www.4dv.ai finns en rad exempel på 4-dimensionella Gaussian splat-modeller modeller (3D + tid). Om inte den inbäddade bilden ovan fungerar så klicka på länken.
Möjligheten att representera förändring över tid öppnar för nya typer av visualiseringar som är svåra att åstadkomma med statiska 3D-modeller. Från stadens perspektiv kan det vara aktuellt för solstudier, skugganalyser vid olika tidpunkter på dygnet, eller för att illustrera säsongsvariation i exempelvis grönstruktur. Det är fortfarande ett tidigt stadium, men ett spår värt att följa i arbetet med digitala tvillingar.
Nya sätt att samla in data
Arbetsflöden baserade på 360-kameror eller vanlig video gör det möjligt att dokumentera gatunivå och interiöra miljöer på ett sätt som drönarbilder inte täcker. Det kan vara värdefullt för exempelvis kulturhistorisk dokumentation, tillgänglighetsarbete eller för att ge en mer fullständig bild av en plats inför ett samråd. Det kan göra tekniken mer flexibel och öppna för snabbare dokumentation av platser på marknivå, eller där flyginsamling är svår eller opraktiskt.
Det som gör Gaussian splatting intressant för kommunal användning är att tekniken samlar flera egenskaper som sällan brukar gå hand i hand: en visuell trovärdighet som traditionella 3D-modeller har svårt att nå, ett format som är tillräckligt lätt för att visas i webbläsare och på mobiler utan specialprogramvara, samt ett ekosystem som rör sig mot integration i de GIS-plattformar som redan används i verksamheten. En färdig modell kan delas med en länk och upplevas av vem som helst, utan dedikerad hårdvara eller specialistkompetens. I takt med att stödet i ArcGIS och liknande plattformar mognar, minskar också det organisatoriska glapp som ofta bromsar ny teknik från att bli praktiskt användbar. Gaussian splatting är i dag ett välfungerande visualiseringsverktyg och förutsättningarna för att använda det i ordinarie verksamhet förbättras snabbt.