Anthropic en OpenAI publiceren gezamenlijke alignmenttests

Anthropic en OpenAI hebben parallel hun bevindingen gepubliceerd van een gezamenlijke alignment-evaluatie van hun publieke AI-modellen. In gesimuleerde scenario’s onderzochten beide bedrijven hoe hun systemen omgaan met misbruik, sycophantie, sabotage en zelfbehoud. Sycophantie verwijst naar het overdreven bevestigen of pleasen van de gebruiker, zelfs wanneer die onjuiste of gevaarlijke ideeën uit. Geen van de modellen […]

techzine

28-08-2025 10:29

Projectleider Automation & Security *32194-1, Rotte...
Cijfers Nvidia en Snowflake goed, HP stabiel, CrowdStri...

Lees verder bij techzine >

Anthropic en OpenAI publiceren gezamenlijke alignmenttests

Populair vandaag

Volg ons

Contact