Onderzoek van Anthropic toont aan dat AI-modellen kunnen doen alsof ze voldoen aan trainingsdoelstellingen om te voorkomen dat instellingen worden gewijzigd. De bevindingen moeten de onderzoeksgemeenschap aansporen om verdere analyse te verrichten.
tweakers
20-12-2024 15:18