Waarom voor taalmodellen kiezen – als werkelijke waarde in gestructureerde data zit?

Op LinkedIn woedt een interessante discussie over SAP RPT-1, aangezwengeld door analist John Santaferraro. In een besloten sessie op SAP TechEd in Berlijn schetste cto Philipp Herzig hoe een intern onderzoeksproject – ooit gestart als alternatief voor een eigen groot taalmodel (llm) – uitgroeide tot een nieuw type foundationmodel dat niet in woorden denkt, maar in cellen van tabellen. Niet wéér een llm boven op documenten, maar een model dat patronen leert in grootboekposten, orderregels en facturen. Twee jaar geleden stelde SAP zichzelf de vraag of het een eigen llm moest ontwikkelen. Het antwoord was ‘nee’. De argumentatie: de markt zou overspoeld worden met generieke modellen, getraind op publieke tekstdata. Wat voor enterprise-softwarebedrijven als SAP veel interessanter is, is toegang tot de enorme hoeveelheden gestructureerde bedrijfsdata in Hana- en andere relationele databases – plus de governance en toestemming om daar geanonimiseerd op te experimenteren. Daaruit ontstond RPT-1: Relational Pretrained Transformer. Waar llm’s tokens definiëren als woorden of subwoorden, beschouwt dit model de database-cel als token. Het model is van de grond af aan getraind op relationele tabellen en leert daar de afhankelijkheden tussen rijen, kolommen en tabellen uit af. SAP positioneert RPT-1 als een zogeheten ‘table-native foundation model’: niet bedoeld om teksten te genereren, maar om direct voorspellingen te doen op tabulaire data, met zo min mogelijk extra training of feature engineering. Paper Het technische fundament van RPT-1 is beschreven in het NeurIPS-paper ‘ConTextTab: A Semantics-Aware Tabular In-Context Learner’. ConTextTab is in feite de onderzoeksversie van RPT-1; de code staat als ‘sap-rpt-1-oss’ op GitHub. In ConTextTab wordt tabular in-context learning (ICL) geïntroduceerd. Waar taalmodellen context halen uit opeenvolgende woorden, haalt ConTextTab context uit rijen en kolommen. Het model gebruikt gespecialiseerde embedding-lagen voor: Kolomnamen en tabelnamen (semantische context) Categorische en tekstvelden (Bert-achtige vectoren) Datums (tijdsbewuste representatie) Numerieke waarden (gestandaardiseerd en lineair geprojecteerd) Daarnaast gebruikt het een tweedimensionale attention-architectuur: afwisselend over kolommen en over rijen. Zo kan het model zowel relaties tussen kenmerken (kolommen) als tussen records (rijen) leren, zonder dat de volgorde van rijen of kolommen uitmaakt – wat cruciaal is bij tabulaire data. In benchmarks zoals Carte, OpenML en TabReD haalt ConTextTab state-of-the-art-resultaten, vaak beter dan table-native modellen zoals TabPFN en TabICL, en concurrerend met geavanceerde gradient-boosting-ensembles zoals AutoGluon en CatBoost op semantisch rijke datasets. Drie varianten Met SAP RPT-1 brengt SAP deze architectuur naar de productwereld als een relational foundation-model voor bedrijfsdata. Het model wordt in drie varianten aangeboden: RPT-1 Small: geoptimaliseerd voor snelheid en efficiency; RPT-1 Large: gericht op maximale nauwkeurigheid; RPT-1 OSS: als opensource-variant voor experimenten en eigen implementaties. Belangrijk is de inzet op in-context learning: klanten leveren tabellen met enkele voorbeeldrijen inclusief gewenste uitkomst. Het model kan vervolgens direct voorspellingen doen voor nieuwe records, zonder aparte trainingsstap of fine tuning. SAP claimt dat zo weken aan klassiek ml-werk (data-engineering, modelselectie, training, tuning) worden teruggebracht tot een configuratie in uren. RPT-1 wordt binnenkort algemeen beschikbaar via SAP’s generatieve-ai-hub, terwijl de open weight-variant nu al op Hugging Face en in een web-gebaseerde playground te testen is. Taaktabel Een kernconcept in RPT-1 is de external task table. Voor iedere use-case definieert de gebruiker een taaktabel met de targetwaarden die voorspeld moeten worden (bijvoorbeeld ‘wordt deze order te laat geleverd?’ of ‘hoeveel dagen vertraging?’). Deze tabel wordt als gewone relationele tabel behandeld en vormt samen met de brontabellen de context voor de voorspelling. Daarbovenop introduceert SAP een relational attention-mechanisme dat expliciet rekening houdt met: Kolomdistributies (patronen binnen een kolom); Rijcontext (combinatie van waarden binnen één record); Neighborhood-relaties via primaire en vreemde sleutels (relaties tussen tabellen). In SAP’s positionering vervangt dit deels wat in de llm-wereld met RAG (retrieval-augmented generation), prompt-engineering en uitgebreide fine-tuning wordt opgelost. Het model werkt direct op de relationele structuur, in plaats van eerst alles via tekstrepresentaties te laten lopen. Initiatieven RPT-1 staat niet op zichzelf. In de research- en opensource-­wereld lopen al langer initiatieven om ai dichter bij relationele data te brengen. Denk aan: RelBench biedt een open benchmark voor modellen die moeten redeneren over relationele en tabulaire data, inclusief realistische bedrijfsdatasets; TabPFN en aanverwante tabular-modellen winnen aan aandacht als generieke, pretrained modellen voor gestructureerde datasets, met sterke prestaties op traditionele ml-taken; DB-GPT koppelt llm’s direct aan SQL-databases, zodat natuurlijke-taalvragen kunnen worden vertaald naar queries en resultaten, zonder dat het onderliggende schema naar buiten lekt; De community rond DuckDB experimenteert met het combineren van analytische SQL-workloads en ai, juist omdat DuckDB als in-process engine bedoeld is voor snelle iteraties op tabulaire data. In blogposts en analyses wordt RPT-1 daarom geregeld vergeleken met deze opensource-projecten: als een enterprise-variant van hetzelfde idee – een generiek, pretrained model dat tabulaire patronen leert, in plaats van telkens een apart ml-model per use-case. Discussies Niet alle commentaren in discussies als op LinkedIn zijn juichend. Sommige auteurs wijzen erop dat ConTextTab en RPT-1 vooralsnog onderzoeksprojecten zijn: het model is getraind op de publieke T4-dataset en geëvalueerd op benchmarks als Carte en OpenML, niet op echte SAP-productiedata. Ook is de schaal van de training bescheiden – één H100-gpu in plaats van een supercomputercluster – wat RPT-1 methodologisch interessant maakt, maar nog geen bewijs levert voor alle enterprise-scenario’s. Daarnaast schalen tabular ICL-architecturen nog niet onbeperkt. Bij erg grote tabellen of extreem hoge recordaantallen blijven klassieke gradient-boosting-methoden of domeinspecifieke modellen voorlopig concurrerend, stellen sommige criticasters. Ook ontbreekt het nog aan echt grote, semantisch rijke open tabulaire benchmarks die de complexiteit van erp-landschappen volledig benaderen. ‘Revolutie’ Voor it- en businessafdelingen is de vraag minder of RPT-1 en andere tabular foundation models een ‘revolutie’ zijn, maar meer hoe dit in de architectuur en governance past. Enkele praktische aandachtspunten die uit de discussies naar voren komen: Positionering ten opzichte van bestaande ml-stacks: RPT-1 richt zich op generieke classificatie- en regressietaken bovenop tabellen. Dat kan veel kleinere ml-projecten vervangen, maar gespecialiseerde modellen voor bijvoorbeeld beeld, tekst of zeer specifieke domeinen blijven nodig; Integratie met SAP-omgevingen: de kracht van RPT-1 zal in hoge mate afhangen van de integratie met S/4Hana, Datasphere en SAP’s AI Foundation. Daar ligt ook het risico op extra afhankelijkheid van één leverancier; Relatie met opensource: doordat RPT-1 ook als open-weight beschikbaar is, kunnen organisaties experimenteren buiten SAP-clouds om, of het model combineren met bestaande ml-ops-omgevingen en datawarehouses. De bredere trend is echter helder: voor veel enterprise-organisaties zal ai de komende jaren verschuiven van generieke llm’s naar een strategie waarin domain- en data­specifieke foundation modellen een steeds belangrijkere rol spelen. RPT-1 is daar een voorbeeld van, maar is zeker niet het echte model-in-aantocht. Het biedt voor veel Nederlandse enterprise-organisaties echter wel een duidelijke route naar het beter ontsluiten van de goudmijn waar zij al jaren op zitten: gestructureerde bedrijfsdata in relationele tabellen. Of deze benadering klassieke machine-learningprojecten daadwerkelijk verdringt, zal de praktijk de komende jaren moeten uitwijzen. Maar één conclusie laat RPT-1 nu al toe: wie serieus met ai aan de slag wil in erp- en andere datarijke ­omgevingen, doet er goed aan niet langer alleen naar tekst-llm’s kijken, maar ook na te denken over foundation models die – zeg maar – de taal van tabellen spreken.
computable
02-03-2026 17:00