BLOG – Datawarehousing worden sinds de jaren tachtig vertrouwd door it-teams over de hele wereld. Maar de groeiende complexiteit en schaal van moderne datasets en use-cases brengen uitdagingen met zich mee die de klassieke datawarehouses niet meer aankunnen.
De uitdagingen variëren van beperkte toegang tot data vanwege de noodzaak van specialistische vaardigheden, tot inefficiënte infrastructuren en hoge kosten bij opschaling van data-activiteiten. De datahonger van ai-systemen versterkt deze uitdagingen alleen maar. Wat de vraag oproept of het tijd is om over te stappen op een nieuwe architectuur.
De datawarehouse-architectuur loopt tegen een aantal grote obstakels aan. Om te beginnen wordt het veel te arbeidsintensief om warehouses te queryen voor moderne use-cases. Stel dat je als organisatie patronen in betaalnetwerken wilt ontdekken, internet of things- of edge-sensordata moet analyseren, of wil weten welke producten waar in de schappen moeten liggen… De hoeveelheid en verscheidenheid aan data die je aan elkaar moet knopen, wordt al snel gigantisch groot. Als je dat bovendien wil doen op een flexibele manier, zodat je naast datawarehousing ook machine learning wilt toepassen, wordt het al helemaal complex.
Je moet als data-engineer namelijk eerst samen met de business een probleem identificeren dat om een data-oplossing vraagt. Vervolgens begint een zoektocht naar relevante data binnen een organisatie: data zijn nog altijd vaak verspreid over verschillende systemen en moet handmatig verzameld en gekoppeld worden. Alles moet vervolgens met complexe datapipelines aan elkaar worden geknoopt, met de bijkomende onzekerheid of het resultaat daadwerkelijk nuttig zal zijn.
Huishouding
Werken met klassieke datawarehouses leidt tevens tot complexiteit in de infrastructuur, omdat er een ‘dubbele huishouding’ nodig is. Deze complexiteit leidt tot problemen met kostenbeheersing. Niet alleen wat betreft het aantal benodigde fte’s, maar ook qua technische specificaties.
Om op grote schaal de benodigde snelheid en prestaties te garanderen, worden traditionele datawarehouses al snel erg duur om te gebruiken. En als je machine-learningworkloads wil inzetten, moet naast het datawarehouse een datalake worden ingezet. Neem een energieleverancier die patronen in energieverbruik wil analyseren. Het verzamelen en analyseren van tijdsgebaseerde sensordata, zoals gegevens van elke tien minuten over voltage en amperage, is sec met een datawarehouse niet te doen. Je hebt dan simpelweg een aanvullende oplossing nodig. En zelfs met een team van ervaren data-engineers blijft die dubbele infrastructuur complex en kostbaar, wat resulteert in hoge kosten en inefficiënte processen.
Andere koek
Met een traditionele datawarehouse-architectuur ai-workloads uitvoeren, daar is geen beginnen aan. Het datawarehouse zélf transformeren met behulp ai, dát is andere koek.
Dit begint bij het vereenvoudigen van data-infrastructuren tot een flexibele, serverloze infrastructuur. De opkomst van data intelligence platforms biedt nieuwe mogelijkheden om deze uitdagingen met betrekking tot infrastructuur te adresseren. Door ai in te zetten voor data-analyse en -beheer, kunnen data engineers zich richten op het verkrijgen van waardevolle inzichten in plaats van technische details. In tegenstelling tot bijvoorbeeld zelf te moeten bepalen hoeveel machines er nodig zijn voor een bepaalde workload, wordt in een AI-gedreven omgeving automatisch een passende machine geselecteerd en geactiveerd.
Wanneer data eenmaal veilig is ingestroomd in het datawarehouse, kan deze door ai automatisch worden beschreven en gecatalogiseerd. Met behulp van natuurlijke taalverwerking kunnen zelfs medewerkers zonder SQL-kennis toegang krijgen tot relevante datasets. Je krijgt dan een geautomatiseerde beschrijving zoals: ‘Dit is data over energieverbruik, datapunten zijn per tien minuten vastgelegd en de velden beschrijven voltage en amperage.’ Ook inspiratie over mogelijke use-cases is te generen.
Tot slot kan ook infrastructuurbeheer worden vereenvoudigd dankzij ai. Taken zoals het op- en afschalen van compute-resources op basis van huidige workload worden dan automatisch uitgevoerd. Bovendien kan ai de dataopslag optimaliseren op basis van gebruikspatronen, wat de prestaties voor specifieke soorten queries verbetert.
Bij elkaar opgeteld, los je met ai zo de drie grote uitdagingen van datawarehouses op: je maakt het minder arbeidsintensief om mee te werken, je maakt de infrastructuur beter beheersbaar en je kunt veel beter sturen op kosten.
Fundament
Het intelligente datawarehouse zoals hierboven wordt beschreven, leunt op een geavanceerd fundament. In dat opzicht is het beste datawarehouse een datalakehouse, dat data, analytics en ai bij elkaar brengt door het beste van een warehouse te combineren met dat van een datalake. Dit neemt de kosten en complexiteit van een legacy-datawarehouse/datalake-combinatie weg en verlaagt daarmee de totale eigendomskosten. Door daar vervolgens een data intelligence-platform op te zetten, maak je het mogelijk om datawarehousing te transformeren met behulp van generatieve ai.
Heeft het datawarehouse dus een toekomst in het tijdperk van ai? Niet in de traditionele vorm. Maar als ai-gedreven, intelligent datawarehouse kan het wel degelijk een rol blijven vervullen in de datastrategie van een organisatie. De integratie van ai in datawarehousing biedt een weg richting efficiënter en kosten-effectiever databeheer. Door de toegankelijkheid en het beheer van data te vereenvoudigen, vergaren bedrijven sneller inzichten zónder dataengineers te overvragen.
Ivo Everts is lead data & ai strategist – energy bij Databricks
computable
03-03-2025 15:52