Common Crawl verwijdert 2 miljoen artikelen

Common Crawl, bron van trainingsmateriaal voor AI diensten, verwijdert op verzoek van Stichting BREIN ruim 2 miljoen nieuwsartikelen uit haar databank. Common Crawl is een Amerikaanse non-profitorganisatie die het internet kopieert (scraping) en haar databank gratis ter beschikking stelt aan consumenten en bedrijven waaronder generatieve AI diensten die deze datasets gebruiken om hun AI modellen op te trainen. Het webarchief van Common Crawl bestaat uit petabytes aan veelal auteursrechtelijk beschermde werken waaronder veel nieuwsartikelen die Common Crawl sinds 2008 verzamelt. Common Crawl vult haar data archief maandelijks aan met nieuw op het internet gepubliceerd materiaal. In de databank van Common Crawl zitten onder meer artikelen die zijn gepubliceerd op bekende Nederlandse nieuwssites en in digitale kranten. Hiervoor is geen toestemming gegeven. BREIN verzocht Common Crawl namens een aantal Nederlandse nieuwsuitgevers deze zonder toestemming gekopieerde webpagina’s te verwijderen uit hun databank zodat AI diensten niet langer ongeautoriseerd op basis van deze content hun modellen kunnen trainen. Uit onderzoek blijkt dat zo goed als alle grote Generatieve AI taalmodellen (mede) getraind zijn op Common Crawl data. Het betreft in ieder geval openELM van Apple, Phi van Microsoft, ChatgPT van OpenAI, Nemo Megatron van NVIDIA, DeepseekV3 van Deepseek en Claude van Anthropic. Common Crawl heeft voldaan aan het verzoek van BREIN en alle ruim twee miljoen artikelen verwijderd uit hun archief. BREIN wijst ook op GPT-NL, dat in juni 2025 is begonnen met de training. Het is een initiatief van de Nederlandse organisaties TNO, NFI en SURF in samenwerking met o.a. brancheorganisatie NDP Nieuwsmedia, waarvan de leden een enorme dataset ter beschikking stelden. Het model wordt daardoor getraind op zorgvuldig geselecteerde, rechtmatig verkregen data, dus niet op basis van scraping zoals bij Common Crawl. Onderwijl zijn sommige buitenlandse kranten ook bezig om hun data beschikbaar te stellen voor training, in ruil voor een vergoeding. The Guardian heeft dit al gedaan met OpenAI. Die deal is in februari 2025 gesloten, dus ziet wel alleen op artikelen die vanaf toen zijn gepubliceerd. Wie weet volgen er nog anderen. BREIN roept rechthebbenden op zich te melden als het vermoeden bestaat dat hun auteursrechtelijk beschermd materiaal ook door Common Crawl is gekopieerd.
emerce
05-11-2025 08:10