Anthropic ontwikkelt AI-agents die zelfstandig alignment-audits uitvoeren op taalmodellen. Dit vergroot de schaalbaarheid en snelheid van veiligheidstoetsing aanzienlijk. Deze innovatie kan cruciaal blijken voor betrouwbare inzet van krachtige AI-systemen zoals Claude Opus 4. Anthropic introduceert in een recente publicatie drie soorten AI-agents die geavanceerde taalmodellen kunnen onderzoeken op misaligned gedrag. En dat zonder menselijke tussenkomst. […]
techzine
25-07-2025 14:50