Cloud-native geodata

22 januari 2024

Nu geografische gegevens steeds sneller groeien — zowel in omvang als in complexiteit — wordt de noodzaak om deze gegevens efficiënt op te slaan, te analyseren en met elkaar te delen ook steeds duidelijker.

Traditioneel beheer van geografische gegevens gebeurt vaak met "on-premise" infrastructuur, waardoor het een uitdaging is om resources op te schalen wanneer de datavolumes groeien. Bovendien kunnen gegevensformaten en opslagmiddelen star zijn, waardoor het delen en samenwerken wordt bemoeilijkt. Als antwoord op deze beperkingen heeft er een significante verschuiving plaatsgevonden in de opslag en verwerking van geodata naar een "cloud-native" benadering. In een cloud-native context worden geografische gegevens beheerd en verwerkt door gebruik te maken van cloud-diensten, wat de complexiteit van infrastructuurbeheer vaak wegneemt. Deze verschuiving naar de cloud maakt een dynamischere toewijzing van resources mogelijk.


Sinds de opkomst van cloud computing kan van gebruikers niet meer verwacht worden dat ze grote bestanden downloaden, opslaan en bewerken op hun computers. In plaats daarvan willen ze toegang tot grote hoeveelheden gegevens via een netwerk - in chunks - waarbij deze gegevens beschikbaar moeten worden gemaakt via subsettingmethoden. Geografische gegevens vormen hierop geen uitzondering: cloud-geoptimaliseerde gegevensformaten moeten hierop inspelen. De optimale verpakking hangt af van het gegevenstype en de specifieke use case, en daarom bestaat er geen universeel toepasbaar formaat. Er zijn verschillende cloud-geoptimaliseerde formaten ontstaan, allemaal met hun voor- en nadelen voor het opslaan en aanbieden van geografische gegevens in de cloud.


cogeo-formats-table.png

Afbeeldingsbron: guide.cloudnativegeo.org


Ondanks hun diversiteit hebben alle voor de cloud geoptimaliseerde formaten gemeen dat ze metadata bevatten met adressen voor gegevensblokken. Een cloud-native dataset is een dataset met kleine adresseerbare chunks via bestanden, interne tiles of beide. Hierdoor wordt de dataset toegankelijk voor parallelle en gedeeltelijke lezing via HTTP-range requests, waardoor het ook zeer compatibel is met object storage.



Cloud-Optimized GeoTIFF


Om een idee te krijgen van hoe dit zou kunnen werken, kijken we eens naar hoe een Cloud-Optimized GeoTIFF (COG) efficiëntere workflows mogelijk maakt voor rastergegevens in de cloud. Dit is wat cogeo.org zegt over het onderwerp:

Cloud Optimized GeoTIFF is gebaseerd op twee complementaire stukjes technologie.

Het eerste is de mogelijkheid van GeoTIFF's om niet alleen de ruwe pixels van de afbeelding op te slaan, maar om die pixels op bepaalde manieren te ordenen. Het tweede is HTTP GET range requests, waarmee klanten alleen de delen van een bestand kunnen opvragen die ze nodig hebben. Het gebruik van het eerste organiseert de GeoTIFF zodat de verzoeken van de laatste gemakkelijk de delen van het bestand kunnen selecteren die nuttig zijn voor verwerking.


COG's zijn krachtig vanwege de manier waarop de gegevens intern zijn gestructureerd. Er zijn twee cruciale aspecten van een COG waardoor deze cloud-geoptimaliseerd is: Tiling en Overviews.


cogeo-formats-table-2.png

Concept van piramidale TIFF gevisualiseerd door www.kitware.com/deciphering-cloud-optimized-geotiffs


Tiling rangschikt de bytes van de afbeeldingsgegevens in zogenaamde tiles zodat gegevens die geografisch dicht bij elkaar liggen, naast elkaar liggen in het bestand. De metadata van de COG bevat informatie (TileOffsets en TileByteCounts) over elk van deze tiles. Snelle toegang tot een bepaald gebied wordt zo mogelijk gemaakt voor HTTP-range requests, zodat alleen dat deel van het bestand wordt geopend dat moet worden gelezen.


Overviews verwijzen naar versies met een lagere resolutie van de rasterafbeelding. De overzichten zijn georganiseerd in een hiërarchische structuur en vormen een piramide van steeds lagere resoluties. Deze piramide van overzichten maakt het mogelijk om de gegevens sneller op te vragen en weer te geven op verschillende zoomniveaus, waardoor de prestaties in cloud-gebaseerde geografische workflows worden geoptimaliseerd.


Strategische tiling en overviews brengen de juiste structuur aan in de GeoTIFF's zodat HTTP-range queries alleen dat deel van het bestand kunnen opvragen dat relevant is. Overviews zijn waardevol bij het renderen van een snel beeld van het hele bestand. In plaats van elke pixel te downloaden, kunnen gebruikers efficiënt kleinere, reeds bestaande overviews opvragen. Tiles spelen een rol bij het verwerken of visualiseren van een specifiek gebied van het totale bestand. Dit kan binnen een overview zijn of op volledige resolutie. Hoe dan ook, tiles stroomlijnen het ophalen van relevante bytes uit een bestandssectie, waardoor de HTTP request precies datgene verkrijgt wat nodig is.



De cloud-native benadering


In de "cloud-native" benadering worden cloud-geoptimaliseerde bestanden (bijv. COG, FlatGeobuf , GeoParquet, Zarr, Kerchunk, ...) opgeslagen in een schaalbaar cloud object storage systeem (bijv. Amazon S3, Google Cloud Storage, Azure Blob Storage, ...). Een serverless function (bijv. AWS Lambda, Google Cloud Functions, Azure Functions, ...) maakt dan dynamisch gebruik van cloudbronnen om deze bestanden on-demand te verwerken. Dit vertaalt zich in een model van automatisch schalen, dat een efficiënte verwerking garandeert ongeacht het aantal requests of de grootte van het bestand. In deze context kunnen krachtige tools en bibliotheken (TiTiler, MVT, GeoPandas, Rasterio, Cogeo, ...) op een serverless manier worden ingezet om efficiënt cloud-geoptimaliseerde tiles van grote geografische datasets te genereren, serveren en visualiseren.


Deze aanpak heeft duidelijke voordelen: schaalbaarheid, omdat de cloud geoptimaliseerde formaten op object storage parallelle leesverzoeken ondersteunen, wat het beheer van grote datasets vereenvoudigt; kortere wachttijden, omdat subsets van ruwe gegevens sneller worden verwerkt dan traditionele downloads; en flexibiliteit, zodat gebruikers de toegang tot gegevens kunnen beheren en complexe bewerkingen kunnen uitvoeren zonder hele datasets te hoeven downloaden. Deze voordelen verhogen gezamenlijk de snelheid en aanpasbaarheid van de verwerking van geodata, terwijl de verwerkte resultaten toegankelijk blijven via API's, wat een naadloze integratie in verschillende toepassingen mogelijk maakt.


Bij de traditionele "on-premise" aanpak worden bestanden daarentegen opgeslagen op een lokale server in het datacenter van een organisatie. Verwerking vereist in dit geval handmatige interventie op een traditionele server, waardoor resources moeten worden toegewezen. Het schalen van resources voor meerdere verwerkingsverzoeken kan lastig zijn en brengt een grotere investering in hardware met zich mee. De verwerkte resultaten zijn vervolgens slechts toegankelijk direct vanaf de server, waarbij integratie in applicaties handmatige stappen vereist.


De voordelen van de cloud-native benadering worden dus duidelijk wanneer schaalbaarheid, latentie en flexibiliteit in overweging worden genomen. Bovendien leidt het pay-as-you-go model dat inherent is aan cloud-native platformen tot aanzienlijke kostenbesparingen in vergelijking met de hardware-investeringen die nodig zijn bij traditionele benaderingen.



Uitdagingen en overwegingen


Het effectief beheren van geodata in de cloud brengt een aantal uitdagingen met zich mee. De gedistribueerde aard van cloud omgevingen zorgt voor complexiteit in het handhaven van uniforme gegevenskwaliteit en -consistentie. Tegelijkertijd ontstaat de uitdaging van interoperabiliteit door de verschillende formats waarin geografische gegevens kunnen bestaan. Het standaardiseren van gegevensformats en protocollen bevordert naadloze gegevensuitwisseling en integratie.


Hoge afhankelijkheid van het netwerk is een andere inherente uitdaging die de efficiënte overdracht en verwerking van geodata kan beïnvloeden. Het optimaliseren van methoden voor gegevensoverdracht, het minimaliseren van onnodige overdrachten en het gebruik van edge computing waar mogelijk kan de algehele netwerkefficiëntie en -betrouwbaarheid verbeteren. 


Kostenbeheer vormt een andere uitdaging en organisaties moeten cost-monitoring tools gebruiken, gegevensopslag optimaliseren en gebruik maken van gelaagde opslagopties om de kosten te beperken.


Gebrek aan kennis en expertise in cloud-native geografische technologieën is een veelvoorkomende uitdaging. Voor organisaties die deze uitdagingen het hoofd moeten bieden, biedt Nazka Mapps ondersteuning.



Toekomstige trends


Kijkend naar de toekomst van cloud-native geografische technologieën, beloven verschillende opkomende trends het landschap te veranderen, wat mogelijkheden biedt voor transformatieve vooruitgang in de sector. Een opvallende trend is de toenemende integratie van kunstmatige intelligentie (AI) en machine learning (ML) in geografische gegevensanalyse. Deze technologieën bieden het potentieel om waardevolle inzichten te ontsluiten uit enorme datasets, waardoor geavanceerdere analyses, patroonherkenning en voorspellende modellen mogelijk worden.


Een andere belangrijke trend is de opkomst van edge computing in geografische toepassingen. Door gegevens dichter bij de bron te verwerken, minimaliseert edge computing de latentie en verbetert het de real-time besluitvorming in toepassingen zoals autonome voertuigen, slimme steden en IoT-apparaten. Deze verschuiving naar gedecentraliseerde verwerking sluit naadloos aan op het gedistribueerde karakter van cloud-native benaderingen en draagt bij aan meer responsieve en schaalbare geografische oplossingen.


De vooruitgang op het gebied van 3D geografische visualisatie en augmented reality (AR) is ook een duidelijke trend. De integratie van deze technologieën in cloud-native platformen biedt meeslepende en interactieve ervaringen, die een revolutie teweegbrengen in de manier waarop gebruikers omgaan met geografische gegevens. Dit heeft gevolgen voor verschillende sectoren, van stadsplanning en architectuur tot gaming en toerisme.


Daarnaast draagt de standaardisatie in geografische dataformaten en protocollen bij aan een meer interoperabel en collaboratief ecosysteem. Naarmate meer organisaties cloud-native benaderingen omarmen, wordt interoperabiliteit steeds belangrijker, waardoor naadloze gegevensuitwisseling en samenwerking tussen verschillende platforms en systemen mogelijk wordt.


De voortdurende uitbreiding van cloud-native geospatiale diensten — zoals serverless computing, containerisatie en microservices — blijft organisaties voorzien van meer en meer schaalbare, kosteneffectieve en flexibele oplossingen. Deze technologieën maken efficiënt gebruik van resources en verbeterde schaalbaarheid mogelijk, en geven op die manier mee vorm aan hoe de toekomst van geografisch gegevensbeheer er zal uitzien.


Kortom, de toekomst van cloud-native geografische technologieën biedt opwindende vooruitzichten. Een toekomst waar we graag deel van uitmaken.

Deel dit artikel
Geïnteresseerd in de services van nazka?

Soortgelijke artikels