Een enkele trainingsprompt kan voldoende zijn om de veiligheidsafstemming van moderne AI-modellen te doorbreken. Dat blijkt uit nieuw onderzoek dat laat zien hoe kwetsbaar post-trainingmechanismen van grote taalmodellen in de praktijk zijn. Recent onderzoek van Microsoft laat zien hoe kwetsbaar de veiligheidsafstemming van grote taalmodellen kan zijn, zelfs wanneer die modellen expliciet zijn getraind om […]
techzine
10-02-2026 13:50