Anthropic en OpenAI publiceren gezamenlijke alignmenttests

Anthropic en OpenAI hebben parallel hun bevindingen gepubliceerd van een gezamenlijke alignment-evaluatie van hun publieke AI-modellen. In gesimuleerde scenario’s onderzochten beide bedrijven hoe hun systemen omgaan met misbruik, sycophantie, sabotage en zelfbehoud. Sycophantie verwijst naar het overdreven bevestigen of pleasen van de gebruiker, zelfs wanneer die onjuiste of gevaarlijke ideeën uit. Geen van de modellen […]
techzine
28-08-2025 10:29