Formatkonvertering eller koordinattransformation, där data behåller samma uppbyggnad eller ”modell” från källan till destinationen är inga större problem att fixa med exempelvis GDAL/OGR och PROJ.
Dessutom så kan mycket av detta skötas via exempelvis QGIS gränssnitt. En del av detta verkar även vara påväg att bli ännu bättre i och med North Roads kampanj för att förbättra modellbyggarens användbarhet (länk).
I denna kampanjs rubrik står förkortningen, ”ETL”. Detta står för Extract, Transform, Load. Det mest universella, lättanvända och kraftfulla ETL med inriktning mot Geo som jag känner till är SafeSoft FME. QGIS kommer nog aldrig att fullt ut ersätta funktionaliteten i FME, men man kan nog komma en bit på vägen med många vanliga uppgifter för QGIS användare.

När jag googlade ETL så dök det upp några Open Source alternativ som jag inte hört talas om tidigare. Bland annat GeoKettle, som initialt verkade lovande. Här verkar dock utvecklingen ha avstannat och därför så tittade jag inte närmare på detta program.
Ett program som däremot verkar ha en aktiv utveckling, samt stöd från såväl finansiärer som användare inom både privat sektor och myndigheter, framför allt i Tyskland (bl.a. tyska försvarsmakten).

Hale Studio är ett Open Source program av WeTransform (webbsida, github), som även har molnprodukter (Hale Connect) och tjänster man kan betala för, och som skall knyta ihop användarnas behov av att framför allt uppfylla kraven från INSPIRE.
Hale Studio är som sagt Open Source (LGPL v3, extensions kan ha andra licenser) och hette tidigare HUMBOLDT Alignment Editor, vilket även är grunden för akronymen. De användningsområden som framför allt annonseras är:
- Skapa INSPIRE dataset
- Skapa GML/CityGML/XPlanGML dataset
- Miljörapportering (luftkvallité, WFS, CDDA, …)
- Skapa Geoserver app-schema kopplingar
- Databas-till-databas migration
- Integration av data från flera källor till ett harmoniserat, enhetligt dataset
- Bedömning av migrationsrisker, mismatchning, datakvallité
För mig så är en brist just nu att stödet för olika dataformat vid export av resultaten är ganska begränsad, men det finns planer att utöka stödet för format och databaser i framtiden. För den som jobbar med INSPIRE data så borde man nog kika närmare på Hale Studio redan nu.

I programmet så väljer man schema för käll- och måldata. Antingen från en befintlig datakälla eller ett definierat förval. När det gäller INSPIRE så är det således inte ett ”format” man väljer, utan en datamodell. Detta är en viktig skillnad mot exempelvis FME, där i alla fall jag oftast skapar en ”writer” för att hantera ut-data i någon form av filformat, och inte en abstrakt datamodell.

Är det stora datamängder i källdata så kan det vara på sin plats att skapa ett exempeldataset när man bygger sina transformationer. Programmet kan nämligen göra alla transformationer i realtid. Detta testar hela tiden och validerar det som görs och presenterar eventuella problem direkt så att de kan åtgärdas.
I stora drag så verkar processen gå ut på att få tillgängliga källdata att passa in i en definierad datamodell för måldata. De transformationer man lägger till kopplar exempelvis attribut från källdata till attribut i måldata, där allt från direkta mappningar till komplicerade beräkningar kan utföras.

I och med att allt kan köras i realtid så kan man även granska resultatet geografiskt. En av vyerna i kartan är en ”före-efter” bild där kartan till vänster hämtas från källdata och kartan till höger måldata.
Jag skall inte påstå att jag förstår alla finesser med programmet, efter att ha lekt lite med det utan att egentligen veta någonting om INSPIRE. För mina behov så finns det brister, framför allt när det gäller hur jag kan exportera de transformerade data som skapas. Jag skulle även vilja ha möjlighet att dynamiskt bygga upp min måldatamodell, utan att först behöva skapa den eller hämta en befintlig. En del av detta verkar vara på gång, så vi får väl se om det blir mera användbart för mig i framtiden.
För den som gång på gång skall göra om en datastruktur till en annan, exempelvis att regelbundet exportera ut publika databaser från interna arbetsdatabaser, så skulle Hale Studio kunna vara enormt användbart. Se bara till att alla transformationer från källa till destination är gjorda och sedan är det bara att köra projektet på den skarpa databasen.
När man lägger till möjligheten att direkt skriva till PostGIS/SQL/Oracle fullt ut, så skulle Hale Studio troligen kunna ersätta mycket av det man idag använder FME till.
På samma sätt som jag inte tror att QGIS någonsin fullt ut kommer att ersätta FME, så tror jag inte heller att Hale Studio kommer att göra det. Om man däremot har väl definierade processer där man behöver göra transformationer från en datamodell till en annan, så innebär Hale Studio att man kanske har ännu ett alternativ att överväga när man skall planera för hur man vill arbeta.
Att byta ut ett befintligt ETL verktyg är däremot inget som är enkelt. Ofta har man redan byggda skript eller projekt med avancerade kopplingar, som absolut inte är enkla att ”översätta” till ett annat program. Att välja sitt första ETL verktyg är därför också viktigt. Det är nästan att betrakta som en investering i metod och kompetens, som kommer att bli kostsam att ändra.
Någon föreslog att jag skulle prova KNIME Analytics, men det är en installationsfil på över 500 Mb och jag är inte säker på att den fungerar bättre med geodata. Det finns eventuellt ett tillägg som ger viss geo-kapacitet, men jag är inte nyfiken nog för att testa.
Hi Klas, thanks for the nice article! You are right that there is no UI level functionality for creating schemas available at this point. There are two options though – one is to create a HSD JSON file, which allows very fine-grained control about how data in the schema will be encoded later on, the other option is to use the schema tools in hale connect (which is a subscription-based cloud tool).
Support for Oracle DBs (and Esri Geodatabases) is available for customers of our hale studio pro offerings: https://www.wetransform.to/products/halestudiopro/