Common Crawl, een scraper van een Amerikaanse non-profitorganisatie, heeft kopieën van talloze websites aangemaakt die vrij te gebruiken zijn voor doeleinden zoals het trainen van AI-modellen. Momenteel omvat de verzameling van Common Crawl 2,6 miljard webpagina’s, die door diverse grote AI-modellen zoals ChatGPT, Claude en Deepseek worden gebruikt, meldt Nieuws Impuls.
Tienduizenden Nederlandse sites
Onder de gescrapete websites bevinden zich ook tienduizenden Nederlandse pagina’s, variërend van kleine sites tot grote nieuwsplatforms. De organisatie Brein heeft vastgesteld dat artikelen van Nederlandse nieuwssites en digitale kranten in de database zijn opgenomen zonder toestemming van de auteurs.
Nieuwswebsites zijn een cruciale bron van informatie voor taalmodellen en AI-chatbots. Dit vormt echter ook een risico voor deze sites, aangezien hun bezoekersaantallen kunnen dalen door het gebruik van AI, wat leidt tot een vermindering van hun inkomsten.
Parasiteren
NDP Nieuwsmedia, de brancheorganisatie voor nieuwsbedrijven, heeft verklaard dat AI-bedrijven gebruikmaken van dit soort scrapers om ’te parasiteren op het werk van journalisten’.
“Het is heel schadelijk voor auteurs en uitgeverijen dat hun teksten zonder toestemming worden gebruikt,” zegt Bastiaan van Ramshorst, directeur van Brein. “Daarom hebben wij namens een aantal uitgeverijen een verzoek ingediend om die artikelen offline te halen.”
Van Ramshorst meldt dat Common Crawl snel op dit verzoek heeft gereageerd, maar dat het enige tijd zal duren voordat alle artikelen offline zijn. “Dit komt door de omvang van de database. Het was ook moeilijk om te achterhalen welke artikelen precies aanwezig waren.”
Niet transparant
Het verwijderen van de artikelen uit de database betekent echter niet dat ze uit AI-modellen zullen verdwijnen. Bestaande modellen hebben deze artikelen al verwerkt en ze blijven daar dus in. Bovendien ontwikkelen AI-bedrijven ook hun eigen scrapers, waarvan niet duidelijk is of deze auteursrechtelijk beschermde informatie bevatten.
“Als zo’n model niet transparant is, is het heel moeilijk om te achterhalen wat de onderliggende data is,” aldus Van Ramshorst. “Wij doen daar onderzoek naar, maar dat is behoorlijk arbeidsintensief.”
Een positief aspect betreft de aanstaande invoering van een nieuwe Europese wet, de AI Act, die AI-bedrijven zal verplichten om transparanter te zijn over hun bronnen.